以下为司罗在 WAIC 2021 AI 开发者论坛上的演讲内容,机器之心进行了不改变原意的编辑、整理:
我是来自阿里巴巴的司罗。在 2014 年加入阿里之前,我在普渡大学担任老师,所以非常有幸在十几年时间里,分别在学术界和工业界以不同的方式探索人工智能的基础研究以及落地应用,也非常希望通过这个机会和业界朋友一起进行更多的交流,为人工智能的进一步发展贡献我们的力量。
自然语言智能的定义及发展趋势
首先什么是自然语言智能呢?
自然语言智能是研究人与计算机如何用语言进行有效通信,它融合了语言学、心理学、计算机科学、数学、统计学等多个学科,涉及到自然语言和形式化语言的分析、抽取、理解、转换和生成等多个课题。
作为最近几年非常火爆的课题,人工智能可以分为不同层次。
首先是计算智能,即计算机利用它本身带来的海量存储并通过快速计算达到人类不能从事的一些计算能力。其实,我们所熟知的 AlphaGo 就是使用强化学习(RL),利用大量的快速计算,在围棋这种搜索和决策空间中找到更好的优化步骤,从而超过人类最好的棋手。我认为这还是属于人工智能比较基础的层面,即计算智能层面。
计算智能之上有感知智能。感知智能是计算机通过算法,在广阔的互联网和自然世界中找出重要的实体。比如语言智能找到一个新闻稿中重要的事件、人物、组织、地点等相关信息,又比如计算机视觉在不同场景中找到人脸的归属以及不同的重要的 Objects。我认为这些属于感知智能层面。
在感知智能之上有认知智能,即我们能够更好地将实体进行有意义的连接,甚至做相关的推理。比如我们能不能通过自然语言方法在海量互联网中找到同一事件的发生、发展、经过、结果、高潮等相关事情?我们能不能通过计算机视觉在不同场景下,把相同的人和团体所涉及同一事件的行为更好地连接起来,甚至进行一些相关的推理和演绎。我认为这些属于认知智能层面。
在认知智能之上还有创造智能,就是计算机真正开始从事一些人类所独有的创造能力,甚至超越人类。比如计算机能不能写出逻辑自洽、优美的长篇小说?计算机能不能从事数学、物理等相关研究?我认为如果计算机能做到这一点,就达到了创造智能层面。
大家可以看到,感知智能、认知智能和创造智能的背后涉及大量的语言信息理解。我认为自然语言处理是完成这些工作的重要研究方向,也是实现强人工智能以及更加完整的人工智能的必要条件。最近一两年,人工智能在自然语言智能方面有着非常广泛和突破性的发展。在这里我要给出自己的一些观察。
- 首先,深度语言模型突破式发展引领很多重要的自然语言技术取得进展,并在应用场景落地;
- 其次,公有云自然语言技术越来越从通用能力走向定制化服务;
- 最后,自然语言智能要在工业界产生巨大价值,一定需要结合更多的场景和行业。这方面也有了很多长足的进步。
阿里巴巴如何搭建自己的 NLP 技术体系?
阿里巴巴非常重视技术发展,阿里巴巴达摩院成立了语言技术实验室,在最近几年打造了相应的语言智能技术,参加很多技术评测并取得了国际国内几十项评测第一的好成绩。比如 2017 年美国标准计量局信息抽取英文实体分类比赛第一名、2018 年计算机算法史上首次在著名 SQuAD 机器阅读理解评比中超越人类结果、2018 年在最重要的机器翻译评测中取得 5 个语向的自动评测第一、以及 2021 年 6 月在多模态权威榜单 VQA Challenge 视觉问答挑战赛中夺得第一名,相较去年第一名的结果有 3.4% 的大幅度提升,也逼近了人类结果。
我们参加这些技术评测旨在检验自身能力,把这些能力更好地沉淀在平台上,进而更好地赋能阿里内部以及外部合作伙伴。
三大技术平台
我们把这些技术沉淀在不同的平台上,下图展示的是阿里巴巴自然语言技术平台,即阿里 NLP 平台。我们在平台最底层建立了大量与自然语言相关的知识体系,包括语言字典、实体库以及一些领域的知识图谱。在这之上构建了阿里巴巴大规模预训练模型体系 AliceMind。我们通过 AliceMind 支撑了不同的自然语言基础能力,从词法(如分词)分析到句法分析以及语义分析和文本分析等,这些基础能力组合形成 NLP 相应的垂直技术,比如内容的搜索、推荐、对话智能、情感分析等相关的能力,从而支持各种场景的应用,比如客服、推荐、搜索、广告等相应的服务。
该平台在阿里内部的应用中起到了非常重要的作用,每天约有两千个不同场景的调用,达到海量的调用次数,极大地支撑了阿里巴巴内部相关的业务向前发展。
第二个技术平台是翻译技术平台。阿里巴巴的使命是「让天下没有难做的生意」,翻译和多语言技术是阿里巴巴国际化战略的技术生命线。我们研发了相应的翻译技术平台,首先需要构建底层的语言数据,包括通用语料、电商领域特性语料等。在各种各样多语言 NLP 基础能力的支持下,我们研发了相应的机器翻译技术,包括当前通用的神经网络机器翻译和传统的统计翻译技术。同时在重要的技术点上,我们有自己的特色,有着引领业界的相应算法,比如机器翻译的干预机制,即在机器翻译中对某些非常重要的实体取得精准的翻译结果。
举例而言,在电商翻译场景下,我们需要对品牌、产品型号、属性等重要实体取得非常好的翻译效果,相应地就需要将这种翻译机制和数据驱动的机器翻译模型结合起来。为此,我们做了大量的工作,取得了一些领先的技术成果,并把相应技术成果与业界分享。我们也在多模态翻译领域、人机协同等方面投入很多精力,赋能合作者,比如帮助语言服务提供商(LSP)、翻译从业人员更好地提升业界翻译效率,取得更大的商业价值。
在这之上我们有完整的解决方案,比如在电商领域,从最开始的 SEO 到用户进入网站 APP 之后的跨语言搜索、商品信息的搜索、客服、支付等,这些都需要各种各样的翻译和多语言解决能力。对此,我们提供了相对比较完整的翻译和多语言解决能力,广泛应用于各种各样的业务场景。
上面介绍的是两个主要从内部发展起来的自然语言相关平台。当我们越来越多地把技术向外开放,并通过阿里云赋能阿里合作伙伴时,发现在更广阔的场景下,除了通用能力的需求之外,不同用户往往还有个性化的需求。
根据相应的场景,我们构建了 NLP 自学习平台。该平台能够帮助我们的合作伙伴制定定制化服务,也就是合作伙伴既可以使用我们的通用模型,也可以使用自己的模型,通过我们提供的智能数据标注方式,更好地产生有标记的相应数据。通过模型训练和在线部署服务,用户可以更好实现与某个具体任务更加匹配的自学习能力,取得更好的任务效果;同时也可以通过数据回流逐渐地迭代,从而逐步提升整体任务的效果。
大规模预训练语言模型体系 AliceMind
刚刚介绍了几个在阿里内外被广泛使用的平台技术,它们的背后是大规模预训练语言模型体系 AliceMind。AliceMind 不只对标 BERT 或者 BERT 相关能力,而是提供了一套比较完整的能力体系。
首先 StructBERT 是 AliceMind 体系的一个重要基础,它比 BERT 具有更强的句子结构和语义理解能力,能更深入理解词和句子本身结构的含义。在这之上,我们构建了多语言语言模型 VECO,能够把不同语言的语义表示映射到同一空间,从而进行后面的生成转化等任务,也多次在国际权威榜单上登顶。我们的生成式语言模型 PALM,既考虑了比较广泛的自然语言理解任务,也考虑了非常多的生成任务,后者在很多场景中被广泛使用。PALM 在标准 MS MARCO 生成榜单中多次取得第一名的成绩,同时也大规模应用于阿里内外业务。
此外,今年 4 月发布的超大规模中文预训练语言模型 PLUG。多模态也是目前业界发展的一个重要方向,我们的 StructVBERT 模型在 VQA Challenge 2021 竞赛中取得了好的结果。我们在结构化方面也做了非常多的工作,因为文本、文档不是简单的文字堆砌,往往涵盖表格信息以及大量的结构化信息,只有把这些结构化信息充分利用起来,才能取得更好的效果。所以,我们的结构化模型 StructuralLM 有助于与 OCR 等相应的能力结合,在一些重要的评测和任务上取得了非常好的结果。最后,我们还有与阅读理解、搜索、知识融合等方面结合的模型,总体构成了 AliceMind 大规模预训练模型体系。
相关技术解读
接下来简单介绍 AliceMind 体系中的几项重要的技术。
首先语言模型是描述自然语言的表示、顺序、结构、意义和生成的过程。目前有两种比较通用的方式来构建语言模型,一种是传统语言学方法,即通过规则的方法以及语言学文法来描述语言生成的方式。但是在最近十几年,通过大量数据积累和计算能力扩展,数据驱动方法,即统计学 / 深度学习方法成为主流,其中非常典型的代表是谷歌的 BERT,它分为两个不同的阶段,其中在预训练阶段,通过通用知识和通用数据学习构建基础模型,之后在精调阶段根据下游任务对通用模型进一步调整,从而在相应的任务中取得好结果。
我们在 BERT 相关方向上做了进一步拓展和延伸,预训练语言模型 StructBERT 能更好地理解词法和句法结构,深入地了解一个词的意义和句子顺序信息,从而更好地建立相应的语言模型,取得更好的语义表达。
我们的预训练语言模型 PLUG 集语言理解与生成能力于一身,同时由于模型本身的设计考虑到了不同方式的任务,所以它的定制化能力强,可以比较针对性地做出相应的能力优化。此外模型本身有很强的长文本理解和上下文理解能力,也能够生成连贯流畅、适用性广泛的长文本,因此在重要的 Benchmark 以及诗歌创作、菜谱生成、小说续写等重要领域取得了比较好的结果。
还有多模态语言模型 StructVBERT,在今年的 VQA Challenge 竞赛中,AliceMind 团队取得了第一名的成绩,比往年最优成绩有了大幅度提高,同时也逼近了人类的结果。相应的多模态能力在很多场景有着广泛的应用,比如电商客服场景,很多用户针对某一个商品进行提问,但这些商品问题的答案往往是在商品的详情页中,看图问答能够为这些用户提供所要的答案。在此场景中,我们每天提供百万级调用量的看图问答能力。同时,积累下来的图像和语义表示能力很有价值,比如可以为咸鱼卖家提供相应的商品挂号服务,也就是咸鱼卖家上传二手商品,我们会自动帮助他们寻找淘宝内部一手商品的资料,实现更好的连接。
最后简单介绍一下结构化预训练语言模型,因为文档本身有丰富的结构化信息,比如 Excel、OCR 等文字识别之后有大量表格信息的文档,我们的语言模型需要把结构化信息、位置信息以及整个篇章的信息与语言信息结合起来,取得更好的效果。我们的模型在相应的评测中取得了非常好的结果,并在海关场景有着广泛的落地,比如把海关报关草单中的重要信息抽取出来,实现海关报关单的自动生成,大量节省了行业人力,提升了整体运转效率。目前我们的模型已经在行业中有了非常广泛的应用。
广泛的应用场景
上面介绍了技术方面的工作,接下来简单介绍几个应用场景。我个人认为,如果自然语言智能的算法想要真正地发挥大的价值,则一定要在场景、数据知识模型以及算法之间形成一个良性迭代和升级的过程。我们通过丰富的场景,广泛的知识和模型,在此基础上构建算法,算法又在场景中取得更好的效果,从而不断迭代升级取得更大的价值。
我简单介绍几个我们在不同场景和不同行业所做的工作。
首先是对话智能,它是客服场景和营销场景中非常重要的基础技术能力。在技术上,我们构建了包括不同行业的知识图谱,通过 AliceMind 深度语言模型体系扩展出了支撑各种不同数据类型的问答能力和对话能力,比如基于非结构化知识问答的机器阅读能力(MRC)、基于半结构化知识问答的常见问题解答能力(FAQ)、基于结构化问题回答的表格问答、知识图谱问答等相关能力,在政务行业、电商行业、服务热线等有着非常广泛的应用。此外,在去年疫情期间,我们获得了人民日报主办的「人工战疫」科技大赛第一名。
其次,法律和企业知识图谱的构建。在非常多的领域内部,背后的知识图谱起着至关重要的作用。比如在法律行业,我们设计了四大不同的引擎,即法律对话解析引擎、法律文书解构引擎、逻辑解析引擎和法律法规解析引擎,它们支撑了大量不同的场景,比如裁判文书的辅助生成、文书的检索以及类案推荐等。我们在业界首创的智能辅助审判全流程方案能够帮助一些重要的案由当庭宣判率达到 90% 以上,目前正在浙江全省推广。
在企业服务场景中,知识图谱同样重要。我们在智能合同和招投标方面投入大量精力,能基于大规模语言模型的能力对文档文书进行更好的结构化分析,找到相应的知识点,在知识点之间进行连接,产生更大的技术价值。我们已经就这些能力与一些企业展开广泛的合作。
接下来介绍的是 OCR 识别能力。前面介绍了表格预训练语言模型和非结构化预训练模型,OCR 与它们有着非常深入的连接。通过在目标检测算法、字符识别算法、结构逻辑理解、分类算法方面的技术沉淀,我们支撑了办公领域、教育领域以及精准领域大量的行业应用,同时也提供了自学习能力,帮助不同的合作伙伴定制所需要的文字识别能力。该技术在企业服务、海关场景和教育行业都有着非常广阔的应用。
最后与大家分享阿里达摩院语言技术实验室的使命,即构建阿里巴巴自然语言技术体系,支撑阿里经济体语言技术和应用。我们的技术是开放的,希望更广泛地赋能合作者,发展普惠自然语言技术,同时希望与学界业界的朋友共同创新自然语言技术,探索未来的语言智能。