1.1 引言
互联网搜索引擎为人们获取信息提供了极大帮助,目前仍是网民获取信息和知识的重要工具。通常使用搜索引擎的典型过程包括三个步骤,首先用户将自己的需求以自然语言查询的方式表达,并提交给搜索引擎;然后搜索系统返回与用户查询相关的若干条网页链接;最后用户通过点击这些候选链接,浏览对应网页并从中寻找真正满足自己需求的内容。不难看出,这种典型的获取知识的过程是由机器和人工共同完成的,可以说是一种半自动的过程,尤其是点开链接从跳出的网页中寻找信息的过程,往往比较耗时。我们希望这个过程变得更加简洁高效,让上述过程的第二步和第三步由机器自动完成,减少人工参与成本,将用户获取信息和知识的过程变成一问一答的方式。即用户向系统提交自然语言查询,系统直接返回满足用户需求的答案。这个过程是搜索向精准化演变的过程,包括搜狗搜索在内的国内外主流搜索引擎,正在朝着这个方向不断前进。图1示出了搜索向精准化演变的过程。
作为一款具备智能问答能力的机器人,最近搜狗汪仔机器人(简称为“汪仔”)亮相江苏卫视的《一站到底》节目,引发了不少关注。汪仔是搜狗公司研发的一款机器人,它能听、会说、会看、善思考(问答和聊天),其背后集成了搜狗的语音识别、语音合成、图像识别、深度问答和人机对话等多项AI技术。
本文将对汪仔的功能和背后相关技术作出较为详细的描述,重点关注其智能回答的能力,并进一步介绍支撑汪仔智能回答能力的立知系统。这套具备回答开放领域各类问题的问答系统,已经成功应用到搜狗搜索引擎提升搜索效果。最后对搜索引擎未来更加深入走向问答的方向和意义作简要分析。