开发者学堂课程【达摩院自然语言处理 NLP 技术和应用:达摩院 NLP 团队及成果介绍】学习笔记,与课程紧密联系,让用户快速学习知识。
课程地址:https://developer.aliyun.com/learning/course/41/detail/952
达摩院 NLP 团队及成果介绍
达摩院- NLP 团队介绍
在阿里有一句远景:让天下没有难做的生意。为了更好的实现这个远大的理想,阿里巴巴自然语言技术赋予了自己使命。
首先,构建阿里巴巴自然语言技术体系,支持阿里经济体(新零售、金融、物流、娱乐、旅行等)语言技术和应用;第二,创新自然语言技术,探索未来智能;第三,赋能阿里巴巴合作者,发展普惠自然语言技术。
目前与一些高校进行了合作,希望大家能够一起创新自然语言技术,在更多的行业里体现自然语言技术的能力。
1.团队与成果
·达摩院 NLP 技术团队目前大概有100+名研究人员,35%+博士学历(如 Berkeley , CMU , Princeton ),多名美国著名大学终身教授和国内外著名公司研究所研究员,分布在三个国家,六个地区
·全球化研究团队:杭州、北京、西雅图、硅谷、纽约、新加坡
在达摩院 NLP 技术团队成立开始到现在,我们在多个国际化平台的比赛中获得了不错的成绩,例如:
·2016年 ACM CIKM Cup 个性化电商搜索国际竞赛 No .1
·2017年中文语法错误自动诊断大赛三个 level 中全面夺得冠军
·2017年美国标准计量局信息抽取英文实体分类比赛 No .1
·2018年史上首次在著名 SQuAD 机器阅读理解评比中精确阅读超越人类结果
·2018年国际语义理解评测大会上,事件抽取、语义抽取、上下位词挖据等三个项目上 No .1
·2018年由中国司法大数据研究院举办的法研杯的刑期预测中获得第一名
·2018年 WMT 国际机器翻译大赛,5个语向世界第一
2.NLP 技术/产品
在底层有 NLP 基础的能力,上面是技术,最上层是 NLP 的应用。
首先看 NLP 的基础部分,分为词法分析、句法分析、语义分析、文本分析、深度模型。
词法分析:中英分词/词性、多领域分词/词性、小语种分词/词性、可定制实体关系发现;句法分析:依存句法分析、成分句法分析、语法纠错;
语义分析:词义消歧、语义角色标注、语义关系发现;文本分析:聚类/分类、事件分析/挖掘、多领域文本反垃圾、多视角情感分析;深度模型: Word2 Vec 、 ELMO 、 C-DSSM 。
在 NLP 技术上,我们覆盖了内容搜索、内容推荐、用户评价分析、问答、阅读理解、内容监控、社交媒体分析、对话系统、情感分析等等。
在 NLP 应用中,有搜索、推荐、客服、翻译、广告、舆情监控、物流、金融、智能人机交互等等。
基于我们支持这么多的业务,我们呈现了几个平台。
·AliNLP 平台:涵盖了多语言的 NLP 核心数据收集处理技术,词法、句法、语义、文本分析的多语言基础算法和基于深度学习的文本向量表示等。全面支持几乎所有阿里的重要业务线,每日活跃业务方600+,每日调用2万亿+次
·NLP 自学习平台:提供了规范的流程,面向低算法基础用户,提供 NLP 行业自适应的标注、训练和服务平台,仅需要标注和上传适当的文档数据,即可通过平台使用优质的 NLP 算法模型,灰度一个月,目前云上试用客户达到400+,模型使用超过200+
·文本反垃圾平台:拥有7个大类,21个小类的敏感信息识别能力,定制化了小说、通信、评论、论坛、游戏等场景化的垃圾识别的解决方案,目前完成了阿里通信、商品评论、商品鉴黄、阿里文学、云盾、咪咕阅读和趣头条等内外部的对接
·阿里翻译平台:服务于跨境电商和国际化社交两大业务场景,承接来自阿里巴巴国际站、全球速卖通、 Lazada 、天猫国际、淘宝海外、支付宝、阿里云、钉钉、飞猪等集团内外的翻译需求。
支持20+语言的自动识别,60+语种对的翻译,日均调用量10亿+次
除了通用翻译能力,还有创新翻译能力,包括语音翻译、图片翻译、多媒体翻译,在钉钉的翻译中可以做到实时沟通,实现语种的自动识别,实现了自动语料的获取,实现了全球化知识库、众包平台、质量自动检测等等。
目前我们已经支持了74个业务方,170多个场景,日均10亿的调用量,27个领域;我们有大规模无监督/半监督语料抓取平台,基于神经网络的机器翻译引擎,人机互助众包翻译/标注平台;支持了70+亿双语语料,800+亿单语语料,21个语种,64个语言方向;支持多领域的翻译能力:电商领域翻译最强,覆盖新闻、社交、科技、医疗、金融等多个方面;有工业级的高级性能引擎:日均调用10亿次,全球化部署,稳定性达到99.99%;还有创新技术:在多个大赛中获得了第一,在2019年浙江省科技进步二等奖。
除了阿里翻译,我们在其他场景也有不错的输出。
信息抽取,目前只是对内的一些赋能,例如合同抽取,抽取准确率提升超过10%。在舆情这块,目前支持集团内30+的业务场景,日评测调用量80亿次。
问答我们高效跨领域机器阅读理解:高效赋能店小蜜等场景,机器阅读理解+定制化干预:提供了客户干预的机制,提供了同意灵活问答产品形式,而且目前我们支持了国际化客服。
公共安全,地址信息管理做到了“一标三实”的基础,做文本地址的抽取、纠错、归一、映射,在人物事件关系图谱这块挖掘了重要的实体、关系,做自动化时间、推理等智能技术。
智能司法,我们做到自动审判、类案推送、司法信息的抽取/总结等等。
智能医疗,我们很好的做了医疗病历的自动质检,做医疗知识信息系统的构建,知识图谱的建立等等。
以上是对 NLP 团队做了一个大致介绍。
后面三部分会从技术线和技术在行业上的具体落地进行分别阐述。