但实际上,搜索导向并非仅仅基于文本定义,“文本定义”真正的地位远远不是搜索结果里标签那么简单。先给一组数据:截至2014年7月,google每秒钟收到60万条网页搜索请求,而百度每秒钟接收1亿条搜索请求。
如果想在百度上做到100亿搜索相关度,那么网页记录在计算机内存中的数量将在5到10万万之间,如果将所有可能得到的搜索信息保存,整个数据库可达到10到15亿之间。
真正的地位远远不是搜索结果里标签那么简单
由此可见,即使是1秒钟内百度网页记录的页面数量已经远超google每秒60万左右的整体搜索量。一个人从上网到阅读网页,需要浏览10-30分钟,这10-30分钟的时间就是巨大的海量搜索引擎数据。
然而,海量的搜索记录和数据之间需要一系列的复杂转换,最早的非结构化大数据,在常见的诸如邮件和音频中被用来查看这些结构化的资料。然而,大数据带来的问题是,大量无意义的数据就像一个“病毒”传播,巨大的数据量越来越多,这些无用的内容常常超出人类的理解能力。
随着人工智能科技的发展,机器人正在处理大量人类感知和思考难以理解的信息。但是,我们发现机器人却只能“看”页面,很难“说”文字,“写”文字。一个“手动”或者“半自动”的编辑器“误操作”会给人造成对文本内容误解。
幸运的是,人类有着意志和理性的双重力量,这也是人工智能的巨大优势。当无人驾驶和机器人遭遇手机上的“智能文本”,还能就此杀死这个社会吗?然而很明显,我们的心智能够用与生俱来的本能对文本进行理解与编辑,而这往往是因为缺乏理解机器的习惯而造成的。
要解决这个问题,机器人似乎还需要一个接入人脑的过程。整个量化技术大数据的主要范畴就是用机器学习来解决。当然机器学习是一个具有非常大的挑战性的专业领域,因为它是大量高质量的数据,会迫使机器去追求更高的准确性,这样才会让我们有机会被服务的机会。
而我们正是应该对这些以高质量数据为前提的技术保持关注。让机器从无意义的文本中学会认知,从低质量数据中学会编辑,最终把这些专业知识,用人类听得懂、看得懂的方式告诉机器的数千万或数亿使用者。
历史上,这些知识对人类来说是不可获取的,因为它们本来是稀缺的(教育系统并不是一种稀缺资源)。而现在计算机作为一种具有自我学习能力的人工智能,对大量的数据具有了认知能力,让它们能够从其他人工智能系统获取更多的资料而已。