千行百业,“义”不容辞:通义技术创新与商业实践

简介: 千行百业,“义”不容辞:通义技术创新与商业实践。本次分享分为两部分,首先介绍大模型的快速迭代与普及,探讨通义千问在精度和复杂任务执行上的突破;其次聚焦企业级落地,解决安全性、部署路径及模型调优三大问题。通过多模态理解(视觉、语音)和更强的生成控制力,携手伙伴服务各行业,推动技术向生产力转化,并关注公益应用,助力社会进步。

一、大模型、快速迭代、飞速普及

基本上每个月都会有新的模型、新的算法迭代发布,但是依然赶不上客户的普及程度。虽然看到眼前一亮的大模型原生的应用赚了非常多的钱,但是大模型的普及率和速度是非常快的。过去的工作更多的是在云的时代,其实云比较呼应的技术是移动互联网,其实大家都知道云的特性是弹性,所以最早用云的企业更多的是来自移动互联网的公司,比如说手游,比如说电商O2O的公司,比较晚才开始进入金融、进入到一些央国企。但是这一次我们觉得变化很大,我们看到了在千行百业,像金融机构、央国企、我们看到的这些制造业、零售企业纷纷都已经很早就开始使用模型。一方面提升产品力,另外一方面提升企业的生产力。比如说国家天文台也用到了我们的大模型,像基金公司易方达等等,更不用说消费电子类的厂商,手机厂商。

 

二、通义千问:更高精度,执行更复杂任务

这部分介绍主推的模型和商业落地情况。两个非常重要的模型,千问Plus千问turbo,基本上用这两个模型能解决的绝大部分的任务。今天在市场上有很多别的模型,我们想在实践当中去研究什么样的模型它是有差异化的更高精度的、执行更加复杂的一些任务,所以大概总结四种类别代表了模型质量上会得到更好的应用。多语言,通义语言一开始就是面向global的模型。那在逻辑、代码和数学领域我们有非常不错的成绩,同样有两个可能稍微有些矛盾的特性,但他其实是有一定的一致性的。一个是FunCar型号为代表的,也就是我今天希望这个模型我让你做什么,你一定要精准的执行我的命令。还有丰富性,丰富性其实是在很多创作者在社交聊天软件里面他需要的一个很强的内容,我们希望他的所有的对话内容是多元的,多层次的,而不是干巴巴的回答。这两件事情是相互呼应的,也能够体现基模的一个差异化的能力。


1.通义千问 钉钉:一键转发,复杂协作变得简单

很多时候日历会有日程管理,每次需要去协调时间,除非有专职的秘书。还有是经常有客户会提一些问题工单,都是通过钉钉的方式给到我们的。在巴布老师的团队已经非常清晰的用AI来做这件事情,也就是通过把聊天记录直接转发给两个Agent,分别可以帮助我们去制定日程的管理。如果我希望这个日程里面增加一个人,我们也可以通过自然语言跟他说,你能不能跟我一起参加这个会,就这个会加进来,就把meeting给发出去了。同样的在工单方面,今天一个客户他会发一个截图给我们,我们直接通过这个截图和聊天记录就可以让这个工单变成在系统里面流转起来。这两个场景已经比较强的体现了千问的指令遵循FunBot能力,所以我们也希望未来有更多的企业能把模型的深度用的更深,发挥他更高精度的能力。


2.通义视觉模型:“看见”、“看懂”这个世界

除了最基础的语言模型之外,在千问团队还有多模态理解的模型QwenVL。maxPlus,这两个模型特点是除了要去准确的识别图片的内容,同时它要去理解这个图片所代表的含义。今天在很多场景里面,尤其手机可以看到有些圈搜的能力——一个图片问答能力。其实也比较多的体现了图片的理解能力,也是用到了我们QwenVL Max的能力。比如说问人物、问商品、问景点、问各种各样的问题,它都可以比较好的回答。如果它回答不了的话,其实还有别的办法,可以通过VL的RAG和VL的SST的能力去让他识别的更准确,把一些热门的知识能够更新进来。


除了这样一个问答的场景之外,我们也发现,其实在一些传统的CB下游任务的时候也能够起到好的表现,大家知道很多时候CB的一些目标检测的任务它可以做的比较精准,但是它的泛化性很差,今天去增加一个任务,可能要单独再去做一次。所以很荣幸库迪咖啡一起做了一个尝试,在门店巡检这个场景下基于摄像头做各种下游任务的管理。比如说检测垃圾桶有没有满出来,有没有做正常的更新,再比如营业员的仪态仪表各方面有没有需要改变的地方。所以我想这些场景已经比较好的体现大模型已经能够在原有CB的技术上面去做更好的泛化性的提升,它的应用场景就变得广了很多。所以除了源模型之外,在多模态的理解这方面未来是一个高速增长的模型调用的方向。这里我们可以看一段小的视频,VL模型可以搭出视频理解的agent基本上可以把视频的内容做理解。


这个场景在数字营销类的工作和短剧的公司应用场景非常广泛的。他要去理解不同的流量,特征是什么样子镜头语言、标签特征,所以我相信未来一个模型它能理解好视频的内容,能生成更好的视频创作,目前这在国内也是非常新颖的一个模型,也欢迎大家可以试用搭建自己的agent


3.通义语音模型:“听见”、“听懂”这个世界

除了VL的模型能够看见和看懂之外,还有一系列的音频的模型能够听见和听懂。Qwen Audio是已经开的一个端到端的模型,除此之外,我们还有一些语音的模型。介绍一下语音模型已经在非常广泛的场景里面落地。第一个场景是在销售领域高客单价的场景,比如说金融机构的金融产品售卖,比如说汽车的售卖,都已经非常多的用我们的听5这样一个技术方案来实现对销售体系的一个管理,再比如说在在线教育领域,大家都知道网课是有PPT、有老师、有声音这三个不同的维度,今天怎么样去把一个网课的内容能够转化成一个文本并且针对关键知识点能够回到我们要的时间戳,能够看到这个PPT,这个场景已经非常在在线教育新东方上面已经应用的非常广泛了。在通义APP里面有这样能力,大家可以去试一下。除了杉树解决方案之外,还有新的模型——Gummy。小米模型也是端到端的模型,可以先感受一下。


有些嘈杂的声音,它依然可以比较好的识别出来。大家可以去通义APP最下面的type里有一个翻译的按钮试一下,基本上延时非常低,在这里说中文,另外一端的法语就可以直接以文本的方式翻译出来,并且它可以起到非常强的对原有的Aistar的一个纠偏的能力。目前已经在APP上可以用到7种语言,未来我们会支持超过十种语言。


4.通义视觉创作,更强的生成控制力

接下来是对视觉内容的创作。给大家放观看通义万相demo,更强控制力的模型是针对人物的,比如说Adematic-Qwen可以通过一张图片来驱动人物骨骼的变化,除了一个正面以外,它可以具备背面,旋转,侧面的姿势。再比如说这是一张图片,这个大家应该通义APP上面都有玩过。最后还有一个《阿凡达》模式,大家应该也看到过,让兵马俑来去跳舞替换掉一个真人。这都代表了我们对视频的一个控制能力的增强,而控制能力的增强也意味着商业的潜力也会变得更大。所以我总结一下,就是刚才跟大家简单也算是带货,把我们认为非常重要大家可以直接测的一些模型,我们已经上线到百炼平台上面,大家可以去体验一下语言模型音频的模型视觉理解的模型视频生成的模型。

 

三、企业级落地的三个常见问题

上述讲的是从产品力构造角度来说大模型能够解决什么样的问题。如今在很多企业里面,企业加AI经常会被问到的三个问题,具体的生产环境是不是可信的?能不能帮助我去做一些陪跑?同时你的模型是不是能够做一些微调?那这里给出一些思考和一些答案。


1.架构安全可信,更懂企业级市场

第一个因为有大量的央国企已经开始在公共云上面在部署整个通义的调度,所以我们认真研究怎么样让我们的客户更好的去管理他的安全边界,所以我们在国内首发了我们的安全白皮书,也代表了我们希望行业能够更加自律,能够更好的让我们不同客户在公共云上面得到更好的服务。首先是我们的平台,客户可以自己定义网络的边界来确定数据不出域的概念怎么被定义。第二个,所有的用户的数据都可以端到端去被部署,不管是在阿里云上面,还是在我们的VPC环境里面,还在百炼上面。第三个,整个的链路可追溯可审计。这是我们想提出来非常重要的基石。越来越多央国企客户特别关心知识库,怎么起到query安全保障问题。


2.部署路径清晰,更可靠的落地陪跑

过去我们发现云的架构跟大模型架构之间关联不强,所以画了一张图,代表了今天大模型它需要一个工具链,这个工具链需要链接企业的知识库,也需要连接企业的IT系统,而这些IT系统和知识库又会连接我们企业自己的数据中台,大概就这么个架构。再往上的它可以通过SDK或者API的方式提供给企业内部的不同的bu和一些第三方的渠道。


在这样一个过程当中,我们可能需要关注他怎么样在部署上线到优化这个过程当中迭代展开,所以这里把它画了三个圈,第一其实我们也是跟很多咨询公司的伙伴学习而得来的,首先你要去了解客户,了解客户的需求,因为今天很多时候大模型跟云最大的区别,一上来就要去跟客户的业务团队交流,而业务团队他是有自己的一些知识的能耗,所以你要先去梳理,并且大致搭建出了一个PE的框架。第二需要回到客户的所有的企业知识库的梳理,因为我们发现绝大部分企业的知识库数据还是有待清晰的,比较脏一些,你怎么样去帮助他更好的去符合大模型的一个调度方案,这是我们考虑的第二件事情。


第三才是构建一个评估到不断修正的一个过程,我们跟很多客户聊的时候,我会发现PUC的时候大概准确率是80%,上线的时候可能只有60%,但是你会发现通过一周到一个月的迭代,很快它的效果就会提升到85甚至90分以上,这就是我们今天看到大模型的应用,它不是一个交钥匙的过程,而是说需要不断优化的过程。在这里面我们也会跟很多伙伴共同帮企业客户提供这样的能力。


3.模型能调可控,更匹配企业实际需要

针对一些高阶的复杂的场景,有些客户希望下游任务来做增强,比如说客服场景、营销场景、bi场景,都有各种各样的不同垂类的应用。我们也是非常高兴我们在百炼平台上做了一个升级,首先我们针对模型需要去调优的不同环节,SST环节、DPU环节、CPD环节都开放了这样一个工具链路,同时支持不同的模态。刚才也讲过我们的视觉理解模型也可以在上面去做一些微调。第二我们会进一步开放我们的黑盒数据来帮助客户的数据做一些混合的调优。因为大家知道如果没有一些模型原有的数据,只用了特定下游任务构建的SST数据,可能存在一些暂代性遗忘的问题,我们要解决这个问题。第三是往往SST的模型需要独立部署,这个成本就会变得比较高,GPU现在还比较稀缺,所以也提供了另外一个方法可以按Tox来计费,帮助企业更好的应用微调后的模型。

 

四、更多朋友和伙伴,携手服务千行百业

这三点是对于企业客户交流之后小的总结,也是跟很多伙伴我们充分去探讨怎么能更好的服务这些客户。这里包括几类客户,SaaS类的企业AI原生的企业原有的咨询伙伴的企业等等。比跟centrier的合作其实可以从咨询开始培训开始往下去做,再比如说我们在雅兴的工作可以从工具链的构建到模型的调优到知识库的构建到上层应用的开发,可以提供更加端到端的一个交付的服务。我们跟芯片厂商有一些深度的合作,是因为发现未来在消费电子领域,端云的合作是紧密不可或缺的,我们需要去理解芯片对模型定义的架构。


1.通义千问 芯片平台:端侧模型落地应用

我们跟英伟达和MTK的合作已经完全跑通,左边是语言模型,7B的模型1.8B3B的模型可以跑在不同的芯片上。右边是VL模型,它跑在英伟达的orin的芯片上。尤其在左边,左边我们是跟所有的芯片厂商基本上都达成了一个合作的共识,并且在部分客户上面已经投入生产,所以大家发现手机本地就能支持大模型的应用,它其实已经用到我们的能力。


(1)长期对技术的持续不懈投入

整个通义团队大的长期的技术投入,阿里巴巴很早开始就对AI有一个持续投入,大概从12、13年开始,淘宝的客服团队有大量语音理解的需求,有大量NLP的任务需要处理,那时候开始就积累了很多AI业内最顶尖的算法工程师。一直到现在,不管是在人力上在paper在各方面的资源投入上面,应该说在国内是第一梯队。希望用技术能力转化成更好的生产力。


(2)向技术要生产力,向技术要成本红利

首先模型是可用的而且是高质量的,代表业内的第一梯队,所以很多咨询公司已经把我们在国内的模型象限,通义基本上都是在第一象限或者最前面的象限。在这个基础上,希望进一步的降低推理成本,用更多的技术的方式实现能力,所以这两款我们刚才说到主力的模型,Qwen Plus和Qwen Turbo模型我们又做了进一步价格的下调。今天发现调用一次一天可能很大,但是未来可能一个企业一天就会调用十亿次,有可能GPU的推理服务无处不在。


2.更多温度,更有人情味

除了刚才讲的商业化的情况之外,我们发现普及率大模型真的越来越高,在工艺领域在一些娱乐领域,大模型现在几乎已经无所不在。比如说我们跟vivo和星纪魅族其实在手机上面做了很多公益类的能力,比如说vivo看见他其实可以给视障人士来通过手机的摄像头去理解周边的物体帮助他更好的生活。再比如说星纪魅族通过对语音电话的分析能够去做一些智能的拦截,尤其是一些诈骗电话。那另外我们其实在医疗领域一直是跟很多机构有一个长期的合作,比如华大基因,我们在一些罕见病筛查领域通过自然语言的方式做更好的一个筛选的提效。像AD筛查也是一样的。所以通义还处于一个刚开始的阶段,虽然我们普及率越来越高,但是希望能够跟大家去挖掘更多更高质量的场景,让所有的模型能够在场景里面生根发芽。

相关文章
|
2月前
|
自然语言处理 API C++
阿里通义推出SmartVscode插件,自然语言控制VS Code,轻松开发应用,核心技术开源!
SmartVscode插件深度解析:自然语言控制VS Code的革命性工具及其开源框架App-Controller
|
11天前
|
Java 测试技术 开发者
通义灵码助力高效开发——我的实践心得
作为一名Java开发工程师,我一直在寻找提高开发效率的方法。最近,我尝试了通义灵码的个人版新功能,并取得了显著的效果。本文将分享我的实践场景、效果和心得。
39 1
|
12天前
|
机器学习/深度学习 算法 网络协议
开源上新|通义语音处理技术ClearerVoice-Studio
开源上新|通义语音处理技术ClearerVoice-Studio
|
2月前
|
存储 Serverless 数据库
通义灵码与阿里云的融合实践
本文探讨了通义灵码与阿里云的融合实践,涵盖生成在阿里云上部署应用的代码及与阿里云服务的深度集成,如云服务器创建、云数据库配置、云存储设置及函数计算服务等,显著提升开发效率和应用灵活性。
通义灵码与阿里云的融合实践
|
22天前
|
大数据 开发者
通义灵码创新实践征集赛获奖名单公布!
通义灵码创新实践征集赛得到了众多开发者的支持和喜爱,现公布活动获奖名单,快来看看吧!
154 5
|
1月前
|
机器学习/深度学习 数据采集 存储
通义千问 Qwen 在智能文本分析中的应用实践
本文探讨了通义千问Qwen在智能文本分析的应用,涵盖文本分类、情感分析及关键信息提取,通过具体案例和代码实现,展示了Qwen的强大语言理解能力,为开发者和研究人员提供了实用参考。
|
1月前
|
人工智能 自然语言处理 小程序
基于通义千问32B及RAG技术的CACA指南诊疗规范平台落地实践
本方案整合CACA智能导航系统与基于RAG的大模型医疗问答系统,旨在提供高效、精准的肿瘤诊治支持。通过指南AI导航、知识图谱查询等功能,优化医生诊疗流程,提升患者服务质量,实现医疗资源的有效利用。
70 6
|
2月前
|
人工智能 移动开发 前端开发
通义灵码使用实践场景、效果和心得。
作为一名H5前端开发学者,我在学习过程中借助通义灵码@workspace大幅提升了效率。通过自动推荐匹配的CSS样式和项目内相似模板的排版建议,减少了重复劳动,效率提高超过一倍。此外,它还能解析并翻译GitHub上的英文.md文件,如成功部署声音合成AI:GPT-SoVITS项目,极大便利了我的学习与开发工作。
81 4
|
2月前
|
前端开发 安全 开发者
【通义灵码实践】实现经典手机游戏推箱子
本文介绍了使用通义灵码辅助实现经典推箱子游戏的过程。首先,通过输入“用Python写一个推箱子游戏”,灵码生成了基本的终端版本代码,包括地图渲染、玩家移动和胜利检测等功能。然而,终端版本交互体验不佳。为了解决这一问题,再次输入“不要在终端上运行,希望可以在页面上运行”,灵码生成了基于Flask的后端代码和HTML前端代码,实现了网页版推箱子游戏。最终结果展示了游戏的完整实现,包括前后端交互和用户界面。总结中提到,该方法具有快速生成代码、代码质量高、易于扩展等优点,但也存在功能简单、样式和用户体验有限、错误处理不足等问题,适合快速原型开发和教学演示。
94 2
|
13天前
|
关系型数据库 机器人 OLAP
智答引领|AnalyticDB与通义千问大模型联手打造社区问答新体验
PolarDB开源社区推出基于云原生数据仓库AnalyticDB和通义千问大模型的“PolarDB知识问答助手”,实现一站式全链路RAG能力,大幅提升查询效率和问答准确率。该系统整合静态和动态知识库,提供高效的数据检索与查询服务,支持多种场景下的精准回答,并持续优化用户体验。欢迎加入钉群体验并提出宝贵意见。
智答引领|AnalyticDB与通义千问大模型联手打造社区问答新体验

热门文章

最新文章