首款国产 AI 搜索横空出世,革了传统搜索引擎的命!无限追问,告别广告
2023-08-2517:40
巴比特
2023-08-25 17:40
巴比特
2023-08-25 17:40
收藏文章
订阅专栏

图片来源:由无界 AI 生成


在大模型时代,我们需要什么样的搜索?


ChatGPT 石破天惊地出现,让所有人都意识到:人类接受和处理信息的模式,是时候重构了。


此前,一位 UC 伯克利教授曾给出惊人预测,2030 年的 GPT,一天可以学习人类需要学 2500 年的知识。 


虽然暂时还无法和硅基生命在这个赛道上一分高下,但毫无疑问,在知识爆炸、信息过载的时代,我们需要的信息,绝不仅仅是简单的搜索后随意堆叠在眼前的、未经咀嚼的「生食」。



我们需要的是「成品」,是更懂人心的搜索工具,更真实、更实用的信息,和更权威更可靠的信息来源。


如果这个工具足够善解人意,能够准确猜到我们的意图,通过切中的追问为我们提供源源不断的启发,就更完美了。


现在,以上这些都不再是幻想!


就在前天,昆仑万维正式推出了国内第一款融入大语言模型的搜索引擎——天工 AI 搜索,并同时开启内测申请(内测地址:tiangong.cn)。



作为参加内测的首批用户,经过两天的深度体验后,小编觉得:比传统搜索智能、比 GPT-4 实时,比其他 AI 搜索准确。


传统搜索的奇点时刻,真的来了!



01
搜索如何迈入 AI 时代


完胜了这么多对手,天工 AI 搜索究竟是怎么做到的?


小编体验后最强烈的感受就是——第一次,搜索变得人性化了。


智能检索,全面总结


在传统的搜索引擎中,我们会输入关键词,随之扑面而来的,就是茫茫的海量信息。


在这无穷的可能性中,我们需要浪费数不清的时间,像「寻宝」一样探索,最终还未必有结果。


而基于大模型能力的 AI 搜索,是一种生成式搜索,用户可通过自然语言清晰表达自己的意图,AI 搜索提供的是经过组织和提炼后的答案,不是「信息」,而是「知识」。



大模型带来的整合、提炼、串联信息的能力,让 AI 搜索能更好地应对开放式问题。处理知识类和创意类搜索时,表现也完爆传统搜索引擎。


就天工 AI 搜索来说,它与传统的搜索引擎类似,会首先将搜索结果的信息源展示出来。


然后,再给出由 AI 大模型生成的总结。


最后再配上由 AI 生成的追问,形成的「链接——回答——追问」的结果呈现方式。



而且,基于对上下文语意的理解,天工 AI 搜索能够以 AI 总结 + 多轮对话的方式,不断帮助用户发掘自己真正的搜索意图,解决用户的实际问题和困难,并且实现对复杂问题的深入研究。


比如,假如我们现在需要减肥,但对此毫无了解,在传统的搜索引擎中输入「如何 10 天瘦十斤」,然后就要面对海量的链接。



天工 AI 搜索中,给出的不是孤立的链接,而是有机串连的结果。


这样的好处在于,避免了传统搜索中「一堆链接无序地砸到脸上」的情况,不必担心信息过载。我们理解信息的速度和全面性,都会大大提高。


因为天工 AI 搜索将链接放在上下文之中,有机地梳理、呈现出来,让用户一眼就能把握住要点。



基于上述回答,我们可以很自然地分别对运动和饮食两个核心方法,进行进一步的追问。



根据它提供的追问,我们接下来可以问:该怎么规划饮食。



回答非常靠谱,没有 AI 自己杜撰的「机器料理」,也很好地满足了只有「牛肉和鸡肉」这个条件。


最后,我们可以让它根据菜谱,总结一份超市购物清单。



短短 10 分钟,我们就得到一个完整的减肥方案,操作性极强。


让一个健身小白,在网上茫茫多的「信息」之中,成功获取到了能指导自己减肥的「知识」!


总结来看,传统搜索引擎给出的结果,是根据各家算法获得的链接和问题的相关性做出排名后,由高到低呈现出来。各个链接之间的逻辑永远都只是一个抽象的相关性排名、高的在前,低的在后。


而天工 AI 搜索,是传统搜索的智能化版本,它能够通过大语言模型将各个链接的内容,以及之间可能存在的逻辑联系总结概括出来,从而帮助用户更快更好地获得对自己有帮助的回答。


顺便,小编也向 Bing Chat 提出了同样的问题,然而它的回答就很敷衍。


只是罗列了几种食品的排列组合。完全无视了 5 天不重样的要求。



与此同时,天工 AI 搜索还通过大模型实现了对广告网页的识别和筛选,解决了传统搜索引擎中无处不在的广告问题。


如此一来,也就确保了用户能够获得纯净、高质量的搜索结果,完全不用担心自己在使用过程中会受到广告的误导。



接下来,让我们仔细剖解一下,天工 AI 搜索的几个独特「超能力」。


无限追问,环环相扣


这些能力中,最令小编印象深刻的,无疑就是「无限追问」。


在使用传统搜索时,如果我们想要继续深入了解某话题,不仅需要从头开始一轮新的搜索,而且在加入新的关键词的同时,还得思考需要保留哪些旧的关键词,才能让搜索引擎不跑题。


此外,为了便于回溯之前查询的答案,我们还不得不保留多个浏览器标签页,操作起来极其繁琐。



而天工 AI 搜索,却可以通过 20 多轮交互展开深度探索,推着我们向终极答案一步步逼近。


就拿天工大模型刚刚发布时,轻松搞定的那道自家算法工程师面试题为例。



在经过一番「上网学习」之后,天工 AI 搜索很快就给出了基于二分法的 Python 实现。



紧接着,天工 AI 搜索又根据问题本身以及自己用到的方法,给出了三个更进一步的追问。


显然,如果我们想更加深入地学习这道题的解法,直接点击问题一即可。



针对这个问题,天工 AI 搜索除了对之前所用的「二分法」进行了解析外,给出了「插值法」和「斐波那契法」这两种新的方法。



如果想进一步了解插值法的相关实现,直接告诉天工 AI 搜索就可以了,完全不用重复之前的问题。



在使用天工 AI 搜索的「追问」时,小编忽然感到,这个过程如此似曾相识。



古希腊哲学,就是一门纵深追问与精密逻辑的系统。穷尽万物、寻其根本,在追问中,人类探寻着宇宙本源。


看来,无论是形而上的学习一门新知识,还是具体到写一篇学术论文,天工 AI 搜索在辅助我们打开思路、展开推理的过程中,一定大有可为。


追根溯源,回答可靠


在不断追问中,天工 AI 搜索帮我们解惑, 但又如何确认这个答案就是正确的呢?


传统搜索的一大痛点,就是不同来源的信息鱼龙混杂。另一面,大模型的生成机制,也无法避免「一本正经地胡说八道」现象。



这里,天工 AI 搜索的另一大特点,就是在所有回答下方,列出了信源索引,供我们验证信息。


由此,任何一个人可以考察回答的准确性,进而保障了答案可追溯、可考证、可信赖。


就比如,让天工 AI 搜索解答大型语言模型发展前景是什么?


天工 AI 搜索给出 4 种发展趋势,并在回答上方,列出了 6 条信息信源,覆盖了知乎等各种媒体来源。



如果无法确认第 2 个要点,可以根据标注的来源,翻阅全文去进一步了解。



又或者对第 3 点有疑问,查阅第 6 个链接。



此外,每轮搜索结果,都会保留在历史记录中,方便随时查找,甚至,还可以一键分享给他人。



量身定做,千人千面


大模型的赋能,使意图识别成为可能,「更懂人心」的天工 AI 搜索,会给我们更精准、更个性化的答案。


第一次,我们在搜索上得到了「量身定做」、「千人千面」式的体验。


小编分别开了两个问题,设定了不同的初始体重,请天工 AI 搜索帮我制定减肥健身计划。



天工 AI 搜索给出的回答和追问中,针对大体重人群,专门强调了运动减肥的安全性,提醒用户要避免运动伤病。


而在追问和回答当中,甚至专门提出了「低冲击有氧运动」的方式,防止减肥过程中给身体造成损害。



而在另一个问题当中,我们将体重设置在 80 公斤时,天工 AI 搜索给出的回答和追问中就不涉及避免运动伤痛,而是强调运动效果和运动习惯养成。



用户使用追问进一步提问后获得的回答以及追问和 150 公斤设定也下会有非常大的区别。


同样是提问健身减肥,只要用户能向天工 AI 搜索提供尽量多的细节,就会得到更加定制化的搜索结果和回复。



这种「量身定做」「千人千面」的定制化搜索体验,在支持多轮对话的搜索环境中,依赖的是天工 AI 搜索在追问系统中采用的意图识别,用户反馈接收,上下文感知等技术。


这样的体验与仅仅依赖关键词匹配的传统搜索,完全不属于一个时代!


实时信息,避免幻觉


除了搜索引擎外,相比于传统大语言模型,即便是接入了联网插件的那种,天工 AI 搜索的信息实时性依然更强,而且据此给出的回答也更加完备。


比如,最近室温超导讨论热度非常火,我们可以让几个搜索工具 pk 一下,跟进一下最近的论文情况。


天工 AI 搜索给出的链接,包括了 arXiv 上的论文,知乎讨论和新闻报道,从多个渠道汇集了事件的最新进展。


而且生成的回答中,不仅有关于每篇论文的内容介绍,还从更宏观的层面将超导事件认定为「存在差异和争议」。


更为亮点的是,它给出的论文中包括了最重要的中科院硫化亚铜论文,这篇论文是外界认定超导事件最新进展的最重要依据之一。



接下来,轮到 GPT-4 选手出场了。



它在联网插件的支持之下,也提供了 3 篇论文,每篇都做了摘要。


然而,这 3 篇论文都属于发表较早、支持「LK-99 是室温超导体」的论文,没有客观反映出 LK-99 事件整体的最新进展。


显然,与 GPT-4 相比,天工 AI 搜索给出的结果更加全面,时效性也更强,更好地还原了事件的全貌。


如今的搜索,谁能把握时效上的优势,谁就能给用户最正确的信息。而 GPT-4+ 联网插件在时效性上,和天工 AI 搜索还有一定差距。



另外,天工 AI 搜索利用链接对信息进行溯源,能极大地避免 LLM 的「幻觉」。


小编随便问了 GPT-4 一个中国历史故事。大概因为 GPT-4 的训练数据不包括《资治通鉴》,它果然开始胡诌了。



而能通过链接溯源的天工 AI 搜索,天生自带联网功能,彻底灭除「幻觉」可能。



而即便是之前产生幻觉的 GPT-4,只要给它装上联网插件,它立马就能找到正确答案。



可见,AI+ 搜索的构架就是针对大模型出现「幻觉」的绝杀!


02
解密背后技术


那么,这背后究竟是怎样的技术,拓展了天工 AI 搜索的能力?


核心,还是大模型。


4 月 17 日,昆仑万维首次发布了一款双千亿级大型语言模型——「天工」。


它在文案创作、知识问答、代码生成、逻辑推断、数学计算等领域,展现出非凡能力。经过多次技术迭代,「天工」在许多维度上已达到,甚至超越了业界标准。


技术上,「天工」部署在国内领先的 GPU 集群上,整合了千亿预训练基座模型,以及千亿 RLHF 模型,称得上是「大力出奇迹」的模型。


同时,模型还引入了蒙特卡洛搜索树算法,使得输出内容更加人性化。要知道,名噪一时的 AlphaGo 背后便结合这一算法。



值得一提的是,天工团队从数十万亿的数据中清洗、筛选出了 3 万亿个单词数据用于大模型的训练,让大模型拥有卓越的中文语境、词汇和语法处理能力。


正是有了「天工」大模型在技术上的突破,以及独特的优势,能够大大拓展天工 AI 搜索的能力边界。


- 大模型 Query 意图识别和理解


搜索之前,大模型对用户问题做 Query 改写后,能够深入挖掘用户真实意图,还能迅速捕捉到上下文关系。


比起传统搜索,能够提供更加精准的搜索结果,甚至大大简化操作。


对于 Query 改写,大模型通过将查询进行重组、调整或替换,使其更加准确、简洁、易于理解。


而对于意图识别,其主要任务是识别用户查询背后的意图或目的,以便更好地理解用户需求,并为其提供准确的回答或建议。


- 追问技术


天工 AI 搜索中,最有特点、人性化的设计便是「追问」能力。


其目的,就是为了准确捕获用户意图,提供最相关的搜索结果。


而这一技术的核心便是,对用户的查询进行理解,并在需要更多信息时向用户提出追问。


其实现原理过程如下:意图识别;信息完备性检测;问题生成;用户反馈接收;动态调整与学习;上下文感知。


此外,为了实现无限追问,还需要大量的数据进行训练,也需要不断地进行迭代和优化,以满足用户多变的需求。


- 信息智能摘要和基于检索的大模型技术应用


应对开放式问题回答的挑战,「天工」采用了 Dense Passage Retrieval(DPR)技术。


DPR 在处理「长篇文档」和「复杂问题」上具有天然的优势,并能给出优秀的检索结果。



为满足不同的应用场景,DPR 提供了 2 种核心实现方式,各有千秋:


1、single-vector:把问题与文档均编码为单一的向量。


2、multi-vectors:对文档进行多向量编码,但将问题以单一向量表示。


第一种方法因其简洁的存储和检索能力备受推崇,但在某些场景下检索效果可能稍差。与之对比,multi-vectors 虽需更大的存储空间,但其在检索准确性通常更为出色。


- 向量语义检索


在此,昆仑万维还构建了一套大规模实时向量检索系统,并在搜索的多个环节发挥作用,比如精准内容定位,增强内容多样性、以及智能上下文连贯性。



- 跨语言检索和信息整合


通过采用前沿的跨语言信息检索技术(CLIR),天工 AI 搜索还能深入英文知识库和学术文献进行检索,即便我们用中文提问。


比如,提问「什么是 Transformer 架构?」


天工 AI 搜索的参考内容中,便给出了 2 个国外文章的链接。



这背后,便是利用了「天工」大模型出色的跨语言理解能力,拓展了搜索知识边界,也能让我们第一时间了解全球资讯和研究成果。


那么,跨语言检索和信息整合具体如何实现,有以下几步:


查询翻译;检索与排序;文档翻译(如果需要的话);信息整合;反馈与优化;深度学习与表征学习。


这一全套流程,需要整合多项 AI 能力,包括机器翻译、信息检索、数据融合和深度学习。另外,大量的双语数据、用户交互日志和高质量的文档数据,也是提升 CLIR 效率。


从上,我们看到了「天工」大模型和 AI 搜索之间的关系和演进。


03
用大模型,重塑搜索


如今,GPT-4 等大语言模型的空前爆发,已经为各种应用加满 buff,搜索也不例外。


AI 搜索,是大模型 + 搜索技术结合的创新形式。


ChatGPT 横空出世后,业界的一种声音认为,谷歌、必应等搜索巨头将会被颠覆。



作为用户获取信息的高频入口,搜索必将成为大模型落地的核心应用场景,并真正释放出大模型所蕴含的巨大生产力。


其实,从国外来看,一些科技公司已经用大模型赋能搜索,为用户提供更好的体验。


微软最先将 GPT-4 模型整合到 New Bing 中,让必应搜索能力大大升级,为所有人提供了一个智能化 AI 助力。


谷歌 I/O 大会上,劈柴宣布了颠覆性搜索生成体验(SGE),提供问题回答摘要,还有显示文章来源的卡片。


由 PaLM 2 驱动的全新 AI 搜索引擎,直接改变了谷歌搜索的底层逻辑。


除此之外,还有 DuckDuckGo、You.com、Perplexity.ai 全都将大模型融入了搜索。


反观国内,包括百度、360 等大模型应用突破,也最先将大模型能力应用到搜索中。


作为一家全球领先的互联网公司,昆仑万维同样会付诸实践,让大模型能力更好地为搜索助力。


2020 年,这家前瞻性的头部科技公司便开始布局 AIGC 和大模型领域。


至今三年的时间,昆仑万维发布了 AIGC 领域中全系列算法和模型昆仑天工、以及各种生成式 AI 工具,并开源了各种项目。


有了大模型的助力,天工 AI 搜索便有了塑造「搜索链接一切」的边界能力,将重塑搜索形态和体验。


天工 AI 搜索,作为国内第一款落地投入应用的 AI 搜索产品,是昆仑万维在 AI 领域持续深耕的一个重要里程碑。


未来已来,而天工 AI 搜索,将会成为每个人的生产力助手。



巴比特园区开放合作啦!





中文推特:https://twitter.com/8BTC_OFFICIAL

英文推特:https://twitter.com/btcinchina
Discord 社区:https://discord.gg/defidao
电报频道:https://t.me/Mute_8btc
电报社区:https://t.me/news_8btc

【免责声明】市场有风险,投资需谨慎。本文不构成投资建议,用户应考虑本文中的任何意见、观点或结论是否符合其特定状况。据此投资,责任自负。

专栏文章
查看更多
数据请求中

推荐专栏

数据请求中

一起「遇见」未来

DOWNLOAD FORESIGHT NEWS APP

Download QR Code