一、大模型、快速迭代、飞速普及
基本上每个月都会有新的模型、新的算法迭代发布,但是依然赶不上客户的普及程度。虽然看到眼前一亮的大模型原生的应用赚了非常多的钱,但是大模型的普及率和速度是非常快的。过去的工作更多的是在云的时代,其实云比较呼应的技术是移动互联网,其实大家都知道云的特性是弹性,所以最早用云的企业更多的是来自移动互联网的公司,比如说手游,比如说电商O2O的公司,比较晚才开始进入金融、进入到一些央国企。但是这一次我们觉得变化很大,我们看到了在千行百业,像金融机构、央国企、我们看到的这些制造业、零售企业纷纷都已经很早就开始使用模型。一方面提升产品力,另外一方面提升企业的生产力。比如说国家天文台也用到了我们的大模型,像基金公司易方达等等,更不用说消费电子类的厂商,手机厂商。
二、通义千问:更高精度,执行更复杂任务
这部分介绍主推的模型和商业落地情况。有两个非常重要的模型,千问Plus和千问turbo,基本上用这两个模型能解决的绝大部分的任务。今天在市场上有很多别的模型,我们想在实践当中去研究什么样的模型它是有差异化的、更高精度的、执行更加复杂的一些任务,所以大概总结四种类别(代表了模型质量上会得到更好的应用)。多语言,通义语言一开始就是面向global的模型。那在逻辑、代码和数学领域我们有非常不错的成绩,同样有两个可能稍微有些矛盾的特性,但他其实是有一定的一致性的。一个是FunCar型号为代表的,也就是我今天希望这个模型我让你做什么,你一定要精准的执行我的命令。还有丰富性,丰富性其实是在很多创作者在社交聊天软件里面他需要的一个很强的内容,我们希望他的所有的对话内容是多元的,多层次的,而不是干巴巴的回答。这两件事情是相互呼应的,也能够体现基模的一个差异化的能力。
1.通义千问 钉钉:一键转发,复杂协作变得简单
很多时候日历会有日程管理,每次需要去协调时间,除非有专职的秘书。还有是经常有客户会提一些问题和工单,都是通过钉钉的方式给到我们的。在巴布老师的团队已经非常清晰的用AI来做这件事情,也就是通过把聊天记录直接转发给两个Agent,分别可以帮助我们去制定日程的管理。如果我希望这个日程里面增加一个人,我们也可以通过自然语言跟他说,你能不能跟我一起参加这个会,就这个会加进来,就把meeting给发出去了。同样的在工单方面,今天一个客户他会发一个截图给我们,我们直接通过这个截图和聊天记录就可以让这个工单变成在系统里面流转起来。这两个场景已经比较强的体现了千问的指令遵循FunBot能力,所以我们也希望未来有更多的企业能把模型的深度用的更深,发挥他更高精度的能力。
2.通义视觉模型:“看见”、“看懂”这个世界
除了最基础的语言模型之外,在千问团队还有多模态理解的模型QwenVL。max和Plus,这两个模型的特点是除了要去准确的识别图片的内容,同时它要去理解这个图片所代表的含义。今天在很多场景里面,尤其手机可以看到有些圈搜的能力——一个图片问答能力。其实也比较多的体现了图片的理解能力,也是用到了我们QwenVL Max的能力。比如说问人物、问商品、问景点、问各种各样的问题,它都可以比较好的回答。如果它回答不了的话,其实还有别的办法,可以通过VL的RAG和VL的SST的能力去让他识别的更准确,把一些热门的知识能够更新进来。
除了这样一个问答的场景之外,我们也发现,其实在一些传统的CB下游任务的时候也能够起到好的表现,大家知道很多时候CB的一些目标检测的任务它可以做的比较精准,但是它的泛化性很差,今天去增加一个任务,可能要单独再去做一次。所以很荣幸和库迪咖啡一起做了一个尝试,在门店巡检这个场景下基于摄像头做各种下游任务的管理。比如说检测垃圾桶有没有满出来,有没有做正常的更新,再比如营业员的仪态仪表各方面有没有需要改变的地方。所以我想这些场景已经比较好的体现大模型已经能够在原有CB的技术上面去做更好的泛化性的提升,它的应用场景就变得广了很多。所以除了源模型之外,在多模态的理解这方面未来是一个高速增长的模型调用的方向。这里我们可以看一段小的视频,VL模型可以搭出视频理解的agent基本上可以把视频的内容做理解。
这个场景在数字营销类的工作和短剧的公司应用场景非常广泛的。他要去理解不同的流量,特征是什么样子(镜头语言、标签特征),所以我相信未来一个模型它能理解好视频的内容,能生成更好的视频创作,目前这在国内也是非常新颖的一个模型,也欢迎大家可以试用搭建自己的agent。
3.通义语音模型:“听见”、“听懂”这个世界
除了VL的模型能够看见和看懂之外,还有一系列的音频的模型能够听见和听懂。Qwen Audio是已经开的一个端到端的模型,除此之外,我们还有一些语音的模型。介绍一下语音模型已经在非常广泛的场景里面落地。第一个场景是在销售领域高客单价的场景,比如说金融机构的金融产品售卖,比如说汽车的售卖,都已经非常多的用我们的听5这样一个技术方案来实现对销售体系的一个管理,再比如说在在线教育领域,大家都知道网课是有PPT、有老师、有声音这三个不同的维度,今天怎么样去把一个网课的内容能够转化成一个文本并且针对关键知识点能够回到我们要的时间戳,能够看到这个PPT,这个场景已经非常在在线教育新东方上面已经应用的非常广泛了。在通义APP里面有这样能力,大家可以去试一下。除了杉树解决方案之外,还有新的模型——Gummy。小米模型也是端到端的模型,可以先感受一下。
有些嘈杂的声音,它依然可以比较好的识别出来。大家可以去通义APP最下面的type里有一个翻译的按钮试一下,基本上延时非常低,在这里说中文,另外一端的法语就可以直接以文本的方式翻译出来,并且它可以起到非常强的对原有的Aistar的一个纠偏的能力。目前已经在APP上可以用到7种语言,未来我们会支持超过十种语言。
4.通义视觉创作,更强的生成控制力
接下来是对视觉内容的创作。给大家放观看通义万相demo,更强控制力的模型是针对人物的,比如说Adematic-Qwen可以通过一张图片来驱动人物骨骼的变化,除了一个正面以外,它可以具备背面,旋转,侧面的姿势。再比如说这是一张图片,这个大家应该通义APP上面都有玩过。最后还有一个《阿凡达》模式,大家应该也看到过,让兵马俑来去跳舞替换掉一个真人。这都代表了我们对视频的一个控制能力的增强,而控制能力的增强也意味着商业的潜力也会变得更大。所以我总结一下,就是刚才跟大家简单也算是带货,把我们认为非常重要大家可以直接测的一些模型,我们已经上线到百炼平台上面,大家可以去体验一下语言模型、音频的模型、视觉理解的模型、视频生成的模型。
三、企业级落地的三个常见问题
上述讲的是从产品力构造角度来说大模型能够解决什么样的问题。如今在很多企业里面,企业加AI经常会被问到的三个问题,具体的生产环境是不是可信的?能不能帮助我去做一些陪跑?同时你的模型是不是能够做一些微调?那这里给出一些思考和一些答案。
1.架构安全可信,更懂企业级市场
第一个因为有大量的央国企已经开始在公共云上面在部署整个通义的调度,所以我们认真研究怎么样让我们的客户更好的去管理他的安全边界,所以我们在国内首发了我们的安全白皮书,也代表了我们希望行业能够更加自律,能够更好的让我们不同客户在公共云上面得到更好的服务。首先是我们的平台,客户可以自己定义网络的边界来确定数据不出域的概念怎么被定义。第二个,所有的用户的数据都可以端到端去被部署,不管是在阿里云上面,还是在我们的VPC环境里面,还在百炼上面。第三个,整个的链路可追溯可审计。这是我们想提出来非常重要的基石。越来越多央国企客户特别关心知识库,怎么起到query的安全保障问题。
2.部署路径清晰,更可靠的落地陪跑
过去我们发现云的架构跟大模型架构之间关联不强,所以画了一张图,代表了今天大模型它需要一个工具链,这个工具链需要链接企业的知识库,也需要连接企业的IT系统,而这些IT系统和知识库又会连接我们企业自己的数据中台,大概就这么个架构。再往上的它可以通过SDK或者API的方式提供给企业内部的不同的bu和一些第三方的渠道。
在这样一个过程当中,我们可能需要关注他怎么样在部署上线到优化这个过程当中迭代展开,所以这里把它画了三个圈,第一其实我们也是跟很多咨询公司的伙伴学习而得来的,首先你要去了解客户,了解客户的需求,因为今天很多时候大模型跟云最大的区别,一上来就要去跟客户的业务团队交流,而业务团队他是有自己的一些知识的能耗,所以你要先去梳理,并且大致搭建出了一个PE的框架。第二需要回到客户的所有的企业知识库的梳理,因为我们发现绝大部分企业的知识库数据还是有待清晰的,比较脏一些,你怎么样去帮助他更好的去符合大模型的一个调度方案,这是我们考虑的第二件事情。
第三才是构建一个评估到不断修正的一个过程,我们跟很多客户聊的时候,我会发现PUC的时候大概准确率是80%,上线的时候可能只有60%,但是你会发现通过一周到一个月的迭代,很快它的效果就会提升到85甚至90分以上,这就是我们今天看到大模型的应用,它不是一个交钥匙的过程,而是说需要不断优化的过程。在这里面我们也会跟很多伙伴共同帮企业客户提供这样的能力。
3.模型能调可控,更匹配企业实际需要
针对一些高阶的复杂的场景,有些客户希望下游任务来做增强,比如说客服场景、营销场景、bi场景,都有各种各样的不同垂类的应用。我们也是非常高兴我们在百炼平台上做了一个升级,首先我们针对模型需要去调优的不同环节,SST环节、DPU环节、CPD环节都开放了这样一个工具链路,同时支持不同的模态。刚才也讲过我们的视觉理解模型也可以在上面去做一些微调。第二我们会进一步开放我们的黑盒数据来帮助客户的数据做一些混合的调优。因为大家知道如果没有一些模型原有的数据,只用了特定下游任务构建的SST数据,可能存在一些暂代性遗忘的问题,我们要解决这个问题。第三是往往SST的模型需要独立部署,这个成本就会变得比较高,GPU现在还比较稀缺,所以也提供了另外一个方法可以按Tox来计费,帮助企业更好的应用微调后的模型。
四、更多朋友和伙伴,携手服务千行百业
这三点是对于企业客户交流之后小的总结,也是跟很多伙伴我们充分去探讨怎么能更好的服务这些客户。这里包括几类客户,SaaS类的企业、AI原生的企业、原有的咨询伙伴的企业等等。比跟centrier的合作其实可以从咨询开始培训开始往下去做,再比如说我们在雅兴的工作可以从工具链的构建到模型的调优到知识库的构建到上层应用的开发,可以提供更加端到端的一个交付的服务。我们跟芯片厂商有一些深度的合作,是因为发现未来在消费电子领域,端云的合作是紧密不可或缺的,我们需要去理解芯片对模型定义的架构。
1.通义千问 芯片平台:端侧模型落地应用
我们跟英伟达和MTK的合作已经完全跑通,左边是语言模型,7B的模型1.8B、3B的模型可以跑在不同的芯片上。右边是VL模型,它跑在英伟达的orin的芯片上。尤其在左边,左边我们是跟所有的芯片厂商基本上都达成了一个合作的共识,并且在部分客户上面已经投入生产,所以大家发现手机本地就能支持大模型的应用,它其实已经用到我们的能力。
(1)长期对技术的持续不懈投入
整个通义团队大的长期的技术投入,阿里巴巴很早开始就对AI有一个持续投入,大概从12、13年开始,淘宝的客服团队有大量语音理解的需求,有大量NLP的任务需要处理,那时候开始就积累了很多AI业内最顶尖的算法工程师。一直到现在,不管是在人力上、在paper上、在各方面的资源投入上面,应该说在国内是第一梯队。希望用、技术能力转化成更好的生产力。
(2)向技术要生产力,向技术要成本红利
首先模型是可用的而且是高质量的,代表业内的第一梯队,所以很多咨询公司已经把我们在国内的模型象限,通义基本上都是在第一象限或者最前面的象限。在这个基础上,希望进一步的降低推理成本,用更多的技术的方式实现能力,所以这两款我们刚才说到主力的模型,Qwen Plus和Qwen Turbo模型我们又做了进一步价格的下调。今天发现调用一次一天可能很大,但是未来可能一个企业一天就会调用十亿次,有可能GPU的推理服务无处不在。
2.更多温度,更有人情味
除了刚才讲的商业化的情况之外,我们发现普及率大模型真的越来越高,在工艺领域在一些娱乐领域,大模型现在几乎已经无所不在。比如说我们跟vivo和星纪魅族其实在手机上面做了很多公益类的能力,比如说vivo看见他其实可以给视障人士来通过手机的摄像头去理解周边的物体帮助他更好的生活。再比如说星纪魅族通过对语音电话的分析能够去做一些智能的拦截,尤其是一些诈骗电话。那另外我们其实在医疗领域一直是跟很多机构有一个长期的合作,比如华大基因,我们在一些罕见病筛查领域通过自然语言的方式做更好的一个筛选的提效。像AD筛查也是一样的。所以通义还处于一个刚开始的阶段,虽然我们普及率越来越高,但是希望能够跟大家去挖掘更多更高质量的场景,让所有的模型能够在场景里面生根发芽。