【观点】迎接AI搜索,迎接搜索新时代
AI技术的突破性发展,是一个里程碑的事件。或许实现AGI是一个长远话题,但当下基于Transformer算法的AI大模型在搜索领域替代传统搜索几乎成为了可以肯定的发展趋势。
很多人会疑惑传统搜索为什么一定会没落?个人主要从技术与信息价值2个方面来探讨。
传统搜索引擎技术兴起于90年代末期。Google, 百度等科技巨头,为广大用户提供了从互联网信息中获取自己需要的价值信息的能力。它的工作原理是事先抓取各个网站的页面内容形成索引,当用户输入关键字查询时,从索引中定位匹配对应的网页。可能同一关键字能匹配到的网页有多条,因此搜索结果一般会有很多,需要用户进行二次主观甄别。这一过程中,用户的关键字对结果的影响非常大,它并不能直接识别人类的自然语言,往往需要有一定的搜索引擎基础才能通过多关键字组合缩小搜索范围,更准确快速地适配。当然,即使用户的关键字给得不那么有技巧,也会有结果,只是最终的答案可能需要一页一页地翻,一个一个地去找,效率比较低而已。从技术本身来讲,需要用户去适配搜索技术的深层原理才能更高效。
搜索是连接用户与互联网的入口,大多数人上网的习惯,都是先打开搜索引擎,一切互联网内容都以它为起点。搜索太重要了,以至于微软在某一段时间打算All梭哈搜索引擎业务。但搜索引擎厂家在初期阶段日子并不好过。它需要抓取海量的互联网页面并形成索引,非常占资源,需要大量的服务器支撑,很烧钱。并不能让人看到钱途,直到后来,搜索引擎厂家引入了竞价排名才让这个免费服务达到了一个收支平衡。有很多人认为竞价排名影响了搜索结果的公正性,是传统搜索的硬伤,缺陷。
所谓竞价排名,是指搜索引擎厂家允许广告主对某一搜索关键字付费,取价格高的前几名显示在搜索结果最前边。一般引擎厂家会明确标注是广告,这套规则会对搜索结果的显示形成一定的干扰。有一部分用户比较反感,认为这样篡改了显示结果,误导了用户。尤其是对于刚接触互联网的新用户,比如用户搜麦当劳,结果可能首先显示的是KFC,导致被误导。但我个人认为,主要影响的是小范围的新接触互联网用户,因为有明显的广告标识,对老用户来讲,可以分辨,属于可以接受的范围,毕竟搜索服务本身没有收费,厂家需要广告收入来弥补服务器的开销。
而从我个人的认知,传统搜索的最大挑战来自于信息的真实性,搜索结果的内容主要是依靠第三方网站所提供。搜索引擎厂家仅提供索引服务,对内容的真实性及质量高低无法完全掌控,也无法直接判断。部分网站从业者看到了搜索引擎能带来巨大流量,敏锐地觉察到商机,它们研究搜索引擎的排名规则,疯狂做SEO,让搜索引擎将自己的页面排名靠前,从而提高被点击的概率,再在自己的网页上挂广告,实现商业套现。巨大的利润诱引出一群专门生产垃圾信息,但又擅长做SEO的网站,互联网垃圾信息漫天飞,这个硬伤影响到了所有用户,连网络老鸟,高手都无法幸免,往往搜索一个内容翻了好几页,可能都没有自己需要的结果,加大了用户信息的获取难度。这个现象,只要搜索引擎厂家不是信息的生产者,就无法避免,事实是也不可能做到这一点。
AI搜索能带来哪些改变,有哪些深远的意义。
在这之前先普及一下AI的底层Transformer算法的原理。Transformer算法解决的问题,简单地说,是它能分辨当前文字内各字词之间的重要关系,也就是理解语句的主要意思,根据这个重要关系在训练完成的超大字词数据库中匹配对应的关联上下文最高频出现的字词,也叫关联性最大的结果,然后以人类习惯的语言方式输出结果。相比传统搜索单纯以关键字这一个维度做为搜索的依据,该算法能理解用户的语言,实现自然语言的查询,更接近二维甚至三维立体结构的段落搜索。确实是科技领域的一大进步。这里特别说明一点,Transformer算法更多是搜索的加强,但它不能创造新的东西,推理薄弱,也不存在传言的意识一说。
AI搜索从技术上来讲能结合当前对话的历史记录来提供信息,而不限于一次搜索,只要你与它的沟通内容足够多,足够详细,得到的回复结果就越准确。这一点,比传统搜索返回一大堆有用无用的信息只能靠人工一个个甄别来讲是跨越式进步。
另一个重点,就是数据源的可靠性。当前AI界的共识是高质量的训练数据对结果的影响至关重要。大多数AI厂家对底座模型的训练一般是精挑细选,数据来源相对权威,实质上,单纯百科及解释类的问题,在可靠性上AI的回复远强于常规搜索。
当前各个AI模型的底层技术比较相似,都是以Transformer算法为基础,技术上的差异比较小,主要集中在执行效率及个性微调的回复风格上。影响最大的还是在训练的数据选取上。往往同一个问题,得到的回复会有所差异。就像现实生活中,老板交代一个任务给不同人,每个人因为知识积累不同,做事习惯不同,最后给的方案各有差异。这种差异是正常现象。这里特别说明一点,很多人先入为主,认为openAI推出的chatGPT是最好的,这是一个误区,当下训练数据,训练方法才是决定AI质量的决定性因素。
国产AI大模型在中文数据方面有独到的优势。如果仅偏信某一个AI模型回复的结果,而没有多方验证,极有可能被结果误导。因此,多个AI模型的搜索结果同时对比查看,非常重要。这一点,我们在使用AI搜索时,需要特别重视。如下浏览器插件【悟空AI搜索】提供了很好的方案,它可以从多个AI大模型同时获取答案,也支持同步查询常规搜索引擎。
悟空AI搜索 同时与多个AI大模型对话如上,从技术及信息价值的角度探讨的AI搜索相比传统搜索的进步。看似完美,但也有一些天生的不足与缺陷。在应用过程中也需要扬长避短。
当前Transformer算法训练效率很低,非常低。低得特别原始。它在对字词拆分后,需要在整个字词库中计算出当前字词的在所有字词中的绝对多维坐标,一般的字词库动辄上亿TOKEN,计算量巨大。这带来的问题会导致增量数据的训练非常麻烦,训练时间长,成本很高。由此,引入了RAG技术来进行数据源拓展。当下很多AI大模型均支持该技术,搜索时,如果有模型训练数据未覆盖的信息,部分AI引擎会自动调用搜索引擎查询相关网页,然后总结输出。甚至像Perplexity,秘塔,360AI搜索专门用这套技术在提供服务。
在此,特别提及此事,是为了提醒大家,RAG技术的初衷是数据源扩展,但通过搜索引擎获取的这类非权威来源的数据做RAG,效果上可能适得其反,传统搜索的硬伤就是SEO造成的信息不可靠,引用了不可信的数据,有一定风险。当然,各个厂家也在进行信息源网站的筛选控制,个人认为针对新闻类等时效性强的搜索更适合这类AI搜索。非新闻类内容,应该尽量避免联网查询。
AI搜索不论是在技术上,还是在回复的信息准确度上都大幅领先传统搜索。尤其是AI大数据模型能很好地提供百科及解释类的信息,也可以用于编程辅助,帮助用户查询示例代码。AI搜索的目标是帮助用户获取需要的信息,Transformer算法虽然离AGI实现还有很长的路,但仅就搜索而言,训练数据更为重要,用在搜索上可以大幅提高用户获取信息的能力。如果还对数据准确性有所有担忧,可以尝试同时从多个AI大模型获取查询结果,对比查看,相互验证。如果涉及新闻查询,可以配合拥有联网查询能力的AI大模型平台能提供更及时的信息。传统搜索只做为辅助验证就行,不论是技术,还是信息可靠性已经成为过去了。
仅此一家之言,多有不足,大家有什么心得,也可以一起分享探讨。