贾佳亚是 2017 年 5 月加入优图实验室,担任总经理一职的。1 年 3 个月之后,他以「可以看到、可以感受到、可以用到」为标准,精选了优图实验室的一众技术,在上海完成了实验室的第一次对外公开亮相。
这是一场非常罕见的、完全由技术团队主导的发布会。他介绍了优图的「一个核心、四大方向、十个领域」,给出了具体到每一个领域的大量案例,(演讲全文见文末)。在会后,贾佳亚接受了机器之心的采访,我们聊了聊优图五花八门的成果的诞生之路,以及他从学界跳转业界之后,夙兴夜寐的第一年。
机器之心:您加入优图实验室刚好一年时间,能否介绍一下您在优图这一年的工作?
今天我们在峰会现场做了一个发布会,希望让外界对技术比较关注的朋友们能够近距离看一看高科技和产业落地较好结合的一个场景模式。而今天发布的新内容绝大部分是我们团队在过去一年做出的。我从去年加入优图就开始了一系列举措,其中主要在于人才储备,系统构架和合理的管理方式这几方面。
最开始我一个人到今天管理着有几十位的博士和相当数量的开发人员团队 - 我们完成了整个中层、底层构架的构建,接入了腾讯云,在公司内部的日调用量超过两亿次。这一年里我们做的很多事情是以前很难想象的。
初期我的大部分精力投入在组建团队上面,从去年五、六月份开始,在公司其他同事的帮助下,我们吸引了一些学术水平非常高的博士、硕士加入,这是奠定团队发展的契机。
我们承接了一些 AI 需求,大多数都是时间紧、任务急。
年底的时候我们十几个人已经在构建三、四个大型的项目了。同时我们在把之前积累的算法进行体系化的构建,能够在之后的项目上把之前的积累落到实处。
我们把很多视觉领域重要的算法变成了服务提供给其他团队。我们的服务调用起来非常简单:我们有整套的数据理解、清洗,模型构建,以及在生产环节快速的服务器端和移动端调用。
以前腾讯有不少团队都有少量的研发人员在做同方向的开发工作,后来和我们合作慢慢发现,优图的服务确实在准确度,稳定性和执行效率上都非常高,所以逐渐主动地、信赖地把业务交给我们完成,改为直接调用我们的服务。这是一个很大的变化。因为少量的高端研发人员只能靠自己的力量每年完成一两个小项目,但是在我们团队提供中台计算环境、数据和流程化管理的前提下,科研人员的研发能力可以迅速转化为生产力。
机器之心:在发布会上,您透露优图将会围绕四大方向(社交娱乐、工业生产、社会进步、前沿探索)和十个领域(脸部操作、OCR、零售、自动驾驶等)展开工作,这些方向和领域是如何确定的?
这是一个了解、传播、决策,经过反馈之后再迭代的过程。
我刚加入优图的时候,其他团队并不知道我们能做什么,而且可能比较倾向自研。因此首先我先定义优图新增的能力范围,让大家有一个基本认识。有了认识之后,我们会接到一些需求,这些需求可能并不「高端」,比较琐碎。比如最常见的图像分类任务,这已经不是学界前沿了,但我们把它踏踏实实做出来,争取不但能够满足产品团队的需求,甚至让准确率和执行效率高出目标 20%。同时我们不仅在内部评测完全合格,也做到了业界最好水平。这样口碑就迅速积累起来。
口碑建立之后,有更多的团队、公司、媒体知道我们在做什么,来了更多需求。但是人力仍然非常有限,这时我们需要在大量的需求之间进行决择。我们选择任务时考虑的因素有三点:第一是必须要可交付,以及交付后应用范围有多大;第二是关联性,这个任务和之前做过的任务是否有关联,如果有,那我们可以高效率地快速完成;第三是匹配性,项目的要求和内部的科研人的能力是否匹配。
其中决定因素还是场景足够大,最直接的体现是一个功能实现之后调用量会特别大,比如娱乐方面。其他例如自动驾驶中的感知技术,会认为有巨大的隐含价值,这样的项目我们也会考虑。
机器之心:优图的团队现在有多大规模?如何在不同项目之间进行人员分配?
我们在深圳和香港大约有一百多名研究人员,在上海和合肥也有一百多人。除此之外还有全球高校在读的很多硕士、博士生,愿意加入我们短期或者中期一起做科研。
我们自研了一套科学的管理方式,能够确保能够找到合适的人去做项目。一个任务,最短甚至可以以「两个星期上线一个版本」的速度去完成,这都依赖对中间资源的合理调配。
机器之心:如何看待其他团队对接过来的需求?如何从技术角度定义需求?技术人员会倾向于从技术出发「拿着锤子找钉子」,而产品需求方会因为对技术的理解不深入提出不适合现有技术完成的需求,如何弥合这一鸿沟?
在学术界,因为每个团队大小有限,而每个学生总有技术偏向,很多学生毕业后在这个学校的技术很难「传承」给团队,容易有拿着锤子找钉子的情况。但是对优图而言反而没有这个问题。
这是因为第一,我们不断有能力强的同事加入进来。视觉技术方面我们已经很少有优图完全没有涉猎的部分了。从自动驾驶感知的核心技术到医疗影像分割,我们把技术补充得很全面了。我们不止有一个「锤子」,而是有一个「工具箱」。
第二,腾讯的业务涉猎非常广泛,内部外部有不计其数的需求,从游戏系统到推荐系统,其中很多关键技术都对视觉有依赖。有各种各样的「钉子」,甚至因为人手不足,我们需要挑「钉子」。
机器之心:您在演讲中提到,实现一个需求「不简单」的地方往往在与实际中的具体问题,比如图像过曝、欠曝、部分遮挡等。能否说明如何把技术变成实际的解决方案?
确实,需求都是非常抽象、概念化的,但是我们要把它细化、具象化,变成一个技术的集成,分而治之。
我觉得这是做学术的高端人才来工业界的优势:学术界的资深学者知识储备是全面的。虽然我的最强研究成果只是计算机视觉中的一部分,但是我对整个领域都有比较清楚的认识。我知道图像识别现在最高的准确率是多少、图像分割经历了语义分割、个体分割、全景分割之后是否有新概念提出来。这种对新概念和方向的把握确保我们可以把一个不专业的需求分解,转化成技术语言和模块,然后清楚怎么找每一个问题的解决方案。
我的团队没有遇到过「不知道怎么做」的问题,我们唯一的问题是「如何比业界其他团队做得更好」或者「如何创新地解决这个问题」。
机器之心:在相似的问题、场景下,使用相似的方法,如何做到「比业界做得更好」?
这就是人才储备的重要性了。
对于一些比较成熟的领域,学界产生了一些非常基础的、有效的、可以合理利用的模型,但它们并不适合在工业界直接采用。比如 ResNet 是做图像分类的常用模型。但是 ResNet 没有考虑执行效率,没有考虑类别间的距离问题。比如在缺陷检查方面,我们要考虑一些看起来非常相似,但是实际上是两类缺陷的情况,这时候这个问题就变成「细颗粒度分类」,就变成一个不适合用 ResNet 解决的问题。
缺陷检测模型还需要考虑光照情况、遮挡情况,直接用开源模型改一改,不可能产生好的效果,这时就需要能力非常强的研发人员,去针对特定问题设计新的模块和环节,例如增加一些新的模块、跳转、循环方式或者特征,这是一个没有做过特定方向的深度学习研发人员所不可能设计出来的。
这也是为什么市场上有很多公司说自己在做人工智能,但是独角兽只有寥寥几家。大公司里的实力一流的团队也很少。因为想要把全部前沿 AI 问题做深做透,接触各种业务,就需要非常强的人才储备和管理。
机器之心:现在优化模型的做法有什么方法论出现吗?
现在很多研究者,包括我们自己,都在进行相关的研究。
举个例子,人类学科学家发现,5000 年以来,人类的智商是平稳,甚至稍微下降的。但是即使现在我们要学很多知识、掌握很多新工具的用法才能应付日常生活,人们也没有觉得是很大的智力负担。这是因为人脑是一个自适应的网络系统:它的基本组成构件搭成以后,整个通路的构成、参数的设置都是自适应的。5000 年前的知识,在这个框架生成了一个结果,使我们祖先在野蛮的大自然里活了下来。5000 年以后的文明环境需要的学习语文,数学,科技也可以在同样的框架下生成一个新的回路,把这些知识存储运用起来。
类似地,将来不会每个领域都由各自的模型「统治」的局面,而是形成一种通用智能,把所有的框架优化到最好,合而为一。现在优化方法还处于 AI「初级阶段」,主要靠科研人员的专业知识积累。
机器之心:如何总结加入优图的这一年?新的一年有哪些计划?
在加入优图之前,我与工业界的合作大多都局限在短期的项目,并没有构建一个全面的团队。所以我加入优图的目标是在工业界不局限于简单地完成一两个项目,而是做到在每段时间目标不明确的情况下,仍然把科研落地产品化的事情做好。
而想要把算法积累变成可以让大家感受到、用到的产品和元素,依靠的是一个体系化的构建过程。我们总计超过二百人的团队和腾讯内部的构架部门、腾讯云一起搭建了集群环境,让深度学习的网络能够在大规模并行系统上开展起来,而在此基础上,辅以精心设计的管理人员层级架构,研究人员得以专注于算法和技术,以及算法在各个端的部署,研发出了种种看得见摸得着的算法。
当然现在我仍然留了一部分时间在学校。即使公司的事情再忙,「培养下一代人才」也仍然是非常重要的一个任务。我希望能把我们积累的知识、能力和方向「传承」给下一代学生,让他们去探索一些前所未有的新内容。
未来一年首先把这四个大的方向上的投入夯实,在娱乐、OCR、工业检测等等领域里,我们已经有一个好的开局,但是还有很长的路要走,希望明年这个时候,我们可以再次告诉大家,即使在同样的领域,我们也取得了一些不一样的、有开拓性的成绩。
演讲实录:
首先谢谢各位的莅临,优图实验室过去两、三年发生了非常大的变革,接下来的时间我会为大家介绍优图实验室在过去一年多的时间里做了什么。
大家有没有意识到,这是优图实验室第一次主动地对外公开亮相?而大家回想一下,在你的记忆里面有没有任何一家公司的技术团队出来做对外发布会的?在我的记忆里,我是没有参加过也没有听说过。今天我们的发布会也算是开了一个先河。
技术团队为什么难以开发布会?有这样几个重要原因:第一,如果技术团队的技术储备很单一,则很难讲这个技术到底有多少用;第二,如果技术不深入,则很难讲得清前因后果;第三,如果技术不领先、不创新,只是一个简单的实现,也无法讲出技术有多重要。
所以我总结了一下,我们的技术有三个特点:
第一,优图所做的事情,很多的结果、目标都能看到。
第二,优图实验室的产品和技术是能感受到的,希望大家通过我的演讲感受到优图实验室的温度和力量。
第三,今天发布的东西都可以用到,不管是个人用户还是企业用户,我们都提供了一些可以大规模使用我们技术的方法。
首先给大家看一些数字,讲讲优图实验室过去一年做了什么事情。
在优图实验室,我们申请了超过 500 项专利,提出了 10 大产品解决方案,接入了 70 多条腾讯明星产品的生产线,有超过 300 多家客户落地。最重要的是,优图实验室提供给公司内外服务的调用每天超过 3 亿次,这一数量在世界上所有的技术团队里面,都是值得一提的。
第二,优图到底在做什么。左边是一个矩阵,横轴是从左到右是场景结合的从少到多的应用,纵轴是通用技术到垂直领域的递增。优图实验室最早进入的领域是政务、金融、社交娱乐,这三个领域里面涉及大量的人脸和 OCR,这是视觉里面最早能够落地的方向。去年开始,我们加大投入,进入更多的垂直领域,包括交通、运输、广告、零售、教育和信息流。增加的技术包括图像审核、理解、分割、视频的各种操作,以及人脸、身体的重建等娱乐化的操作。今年,我们立项了两个新的探索方向,医疗和自动驾驶。
细分一下,我们在图像内容的理解上,调用量是在千万级到亿级之间,我们的人脸 OCR 也是在千万级调用。这样的调用数量级说明,我们的场景和技术真正地与产业结合,能够产生巨大的对人类社会的推动作用。
在一个公司建立完整的人工智能体系要做很多的事情,在上层,我们必须有能力去开发和完成视觉的硬件,完成视觉的平台搭建。第二,我们要完成架构搭建:我们能否有快速的、内部自适应的学习系统,能不能在移动端、嵌入式系统端、服务器端迅速地完成训练、分布和部署。当然,还包括了很多的解决方案。依托于完整系统的建立,从研究到开发后,我们通过与腾讯社交、腾讯云和腾讯觅影等部门合作,把我们的技术对内和对外做一个长期的、稳定性、持续性的输出。
在这里面,把我们做的事情如果再细分一下,我们有「一个核心」,就是以计算机视觉为中心;在这上面走入了四大方向,包括:社交娱乐、工业生产、社会进步、前沿探索;再细分下去,社交娱乐会有脸部操作、人体姿态理解、图像增强,工业生产会有办公、质量检测等一系列的投入。在十个领域里面,我们有非常多案例可以给大家看一看优图实验室在每个领域做了什么事情。这也是我们技术团队敢于开发布会的原因。
第一个是「AI + 零售」。
优图实验室希望通过 AI 改变零售行业,这是很多公司的目标,提升用户体验、定义新的线下零售模式,更好地连接人与商品、商家。依托于这一大目标,我们集中火力做了两件事:一个是智能货柜,一个是腾讯优 Mall。智能货柜依托于商品识别,能让用户迅速完成商品购买,让商家完成供应链的管理。腾讯优 Mall 是顾客和商家的行为系统分析,帮助用户在任何线下商店提高自己的体验,增加用户作为上帝的感受。
智能货柜在实践中有很多的视觉问题,包括摄像头对于采集图像过曝、欠曝的问题,部分遮挡的商品怎样处理,顶部难以区分、外观十分相似等,这都是真实遇到的问题。
为了解决这样一些问题,优图研发过程中,我们设定了几个目标:
第一,希望做到检测结果非常精准。这个精准意味着我们要达到错误率远低于一个普通线下超市的损耗率。第二,希望解决方案更加有适用性和广泛性;第三,适用场景更加广泛,不同的柜种、不同场景下都可以用到这一套解决方案;最后,我们希望解决繁多的商品种类的问题。为了解决这样一些问题,我在左边列出了解决方案,这是一个硬件、算法与服务的集成。
智能货柜亮相 5 月份的广州「腾讯云+未来峰会」,当时会上有很多人,但是周边没有超市,所以货柜变成了大家买商品和饮料的场所。反馈是感受惊人,可以自由地选取商品,自由支付,跟普通的贩卖机完全不一样。7 月份、8 月份继续更新算法层面后,我们提出了整套解决方案,达到了一个货柜超过 40 多种商品,准确率接近 99% 的准确率。在上个月的重庆智博会上,实际订单数目 700 多单,错误订单只有 2 单。在全部基于摄像头,没有重力感应和深度摄像头的基础上,达到了 99.72% 的准确率。
第二个是腾讯优 Mall,这是另外一套解决方案,希望帮助线下的零售合作伙伴完成顾客运营管理和门店精细化管理,实现每一个客户来到门店后可以得到个性化的服务。我们现在有这套设备,不管这个店是不是新开的、店员是不是新招聘的,我们都可以完成老顾客进店即识别,同时根据顾客的喜好推荐当季的新衣服,让她迅速找到自己想要的商品,迅速地完成商品的转化。在十万量级的规模下,识别精度 98%,召回率 95% 以上。我们跟永辉超市、百丽等非常大的线下商户有合作关系,正在研发和推进整套系统的完善和更新。
第二个是「AI + 工业生产检测」。
工业生产在中国是规模非常大的行业。每年高危作业人员有超过一千万,工伤超过一百万。优图切入工业 AI 是依托于几个方向:
第一个我们与华星光电进行合作,做面板智能检测,减少人力需求。同时,在这样一个检测过程中,通过对面板不同缺损的分析,我们还帮工厂回溯到源头,看看哪个环节出了问题,或者能提高哪些生产工艺,使得良品率更高。现在我们辅助华星光电完成超过 100 道工序的检测,减少超过 60% 的质检人员。而且当新的员工进来的时候,企业可以节省一大笔培训成本,让需要用人力完成部分的人员迅速上岗。
在技术层面有两个重点:第一,是可复制性。每一个行业,甚至是对每一个企业而言,它的采购程序、质检程序都是五花八门、没有统一标准的,所以我们希望用技术去实现一个可复制型的排检系统,有多模型协同去做分割、定位和模板的匹配,对于很多的缺陷,在一期测试结果上我们的识别准确率已经达到了 90%,超过了一般员工在工厂里面做检测的水准。这里我们有两个主要的技术投入,第一个是智能缺陷检测识别。一块板出来,有 12 个工作站在各种层面不断地对板加工,缺陷究竟是因为这 12 个站点里哪个出了问题,传统意义上很难知道。80 多种缺陷里,有一些缺陷看起来很不一样,但却是同样的缺陷;有的缺陷长得非常相似,但不是同一种缺陷,用算法语言表述,就是类内间距非常大、类间间距非常小,所以这是算法层面的挑战。
还有另外一个案例,高压电线的工业检测。以前很多工人为了检查高压电线、管道和电缆需要进入深山老林,这是一个「行走在钢丝」的行业。然而随着发展,利用算法协同无人机,能够同时做 9 项缺陷的检查。在关键元件绝缘子的检测上面,我们在一期达到 95% 的准确率,后期我们会继续推进不同缺陷的检测。
第三个是「AI + 社交娱乐」。
一直以来优图的长处是在 3D 人脸关键点、人脸分析和人脸编辑方面,我们可以改变人的性别、外貌、皱纹都有特别的方法完成。
今年,我们新做的技术包括,人体分割达到了 96% 的准确率;人体超过 80 个关键点追踪,标准的误差率达到 0.48。
新的探索方面,我们做了三维人体重建。很多游戏需要大量的动作捕捉进行 3D 建模,这是一个非常昂贵的过程。优图在思考,能否通过一个视频就实现 3D 建模的匹配和完成?
这包括几个重要的方面:一个是人体重建算法,第二个是动作捕捉算法。在人体重建上,我们可以达到 53 毫米的精度,在动作捕捉上是 74 毫米的精度。我们相信这会在游戏的设计和研发过程中,产生非常大的作用。
我们刚刚研发的 FaceKit,希望摆脱手机端对于三维摄像头的依赖,希望通过传统的单目摄像头,完成脸部追踪和三维重建。用一个 iPhone6 可以实现与 iPhoneX 类似的结果。我们相信这样的算法可以在非深度摄像头手机上完成娱乐场景的普及化。
还有「AI + 办公」。
OCR,是十几、二十年前很多的公司就在做的事情。但是现在为止,OCR 还是值得探索的落地方向,它对于金融、教育、旅游等行业,对于手写体、数字、各种图标的识别都要有一个调试的阶段。优图的 OCR 一直以来是我们的强项,今年我们就加大了对于标准化数据的识别的投入。
依托于第三方,我们与整个市面上现有最好的技术做了比较,在证件照、增值税发票等方面,优图所开发出来的这套 OCR 软件,能实现 95% 以及 99% 的准确率,这在行业里面是非常领先的。
除了刚才所说的对于工业和企业业务有非常大的价值的东西以外,优图实验室作为研发团队,也非常关注对于社会公益和社会价值的体现。这一点上,我们会跟一些初创公司或者是中小公司有所不同:我们还是希望做更多的对社会有推动作用的事情。例如,福建省公安厅通过优图人脸比对方案找回了超过 600 多例的失踪人口,这对于整个社会有非常正面的促进作用。
再往下是「AI + 文化」。这也是今年第一次尝试做的事情。
中国地大物博,有非常多的文化传承是人类发展的见证。但是,绝大部分中国的文化遗产都存在非常多的破损和瑕疵,敦煌壁画就是一个案例。
文物修复的人才奇缺,导致以人手完成敦煌壁画的修复以及临摹大概需要一百年的时间。所以我们与故宫博物院、敦煌博物院合作,做了数字色彩体系的建立,也参与了「古画会唱歌」这样的能够带给年轻人乐趣的项目,让他们更容易亲近我们的文化遗产。而如果想修复和临摹一张壁画,一位有几十年经验的修复人员大概需要两到三个月。所以我们希望通过 AI 完成基本线条和结构,再帮助修复人员完成后期的事情。
今年春节,我们上线了一款很好玩的「老照片修复上色」,把褪色的、黑白的照片上传以后,还原成一个有色彩、有温度的一张照片。在春节期间,这个功能每天的调用量超过 30 万次。
最后是前沿探索的方面,第一,我们继续大力投入道路感知。我们与腾讯的自动驾驶团队合作,做了包括道路理解、3D 点云的理解、行为预测等。例如在道路场景分割上,即使被遮挡,也能估计被遮挡的车的轮廓、人的轮廓等;还可以直接通过 3D 点云做道路上的物体识别,把车、人、道路的信息提取出来。
最后是医疗部分,优图希望投入到三个主要方面: 在肺结节、宫颈癌、乳腺癌方面,通过视觉算法加上海量的医疗影像数据,通过腾讯觅影接入超过 60 多家医院提供的数据,提供全面和高效的癌症早筛的方案。我们的理念不是取代医生,而是用一个 AI 的技术提高医生本身的确诊率。在灵敏度和特异度上,我们发现我们的结果能够产生很大的作用。在过往盲测的检测过程中,医生得到结果后,会根据我们的算法改善结果,这个操作会让癌症的识别率大大提高。
这是我们与硬件厂商开始所合作的集成超声设备在做实时监测。在医生做超声的检测时,以每秒 25 帧的速度发现可疑的地方,然后把图像上传到云端,通过腾讯觅影做更精确的判断和检查,然后把结果反馈给医生。
最后在基础研究方面,我们有超过 50 篇的论文发表,我们有超过 80 位的博士研究员,我们的高校合作遍及全球。我们希望不单与中国顶级的高校和专家合作,也希望在全球建立这样的合作关系。我们有自研的设备和学习平台,有超过 100 亿量级的数据,也有超过 1000 块 GPU 做运算。
今天我的演讲就到这里,希望大家听完今天的东西,发现原来技术团队的发布会也不是仅仅是一些算法或者是模型的罗列,也是很有意思的,谢谢大家。