通义智文:文档应用赋能千行百业

简介: 通义智文是阿里巴巴推出的大规模文档处理技术体系,旨在提升生产力效率。最初作为阅读工具发布,现已发展为涵盖文档解析、理解、生成等多方面的技术平台。通义智文支持超长文档处理、多模态文本解析,并在法律、教育等领域提供专业服务。其创新算法如VGT版面分析和Layout-LM多模态模型,显著提升了文档处理精度。应用场景包括PPT创作、故事绘本生成及法律文书审查等,赋能千行百业。

在大模型的应用领域里,生产力的效率的提升是最重要的场景之一,而在效率提升的过程当中,文档又是最大的一个载体。在平时的学习和工作中,每天都会接触和处理大量的文档,所以本次分享的主题是通义智文,文档赋能千行百业。在去年的云栖大会上,第一次发布了通义智文,当时还是阅读工具,相信很多朋友都用过通义智文做论文的阅读。


经过这一年时间的持续迭代和发展,今天的通义智文已经不局限在一个阅读的工具,而是发展成为了一整个文档大模型的技术体系,我们希望用这个体系能赋能更广泛的应用场景。比如说面向c端的应用和用户,我们在通义APP和通义的效率工具上接入了通义智文的能力做了一个全面的提升。我们可以在一系列的文件应用场景上给用户提供服务,包括面向图书、论文、听书、网页和PPT的理解和生成。同时我们也在探索面向低端客户的一系列的行业和场景,包括我们在一个超长文档大模型Qwen-long上,我们可以去支持通用文档的多文档和长文档的一些应用。


在通义法睿法律领域的大模型应用上,我们可以支持更加专业的法律文书,包括合同和裁判文书以及在通义享密这个智能客服领域上大模型应用上,我们可以支持企业内部大量知识的文档和政策的文档。我们也在继续的探索更多的文章的应用场景,我们希望有文档这样的技术来赋能千行百业。为了支持广泛的文章的应用场景,我们也积累了一套文档处理的技术,包括文档的总结、摘要、纠错、问答、改写、润色、阅读和多文档的处理,同时我们也在用户的一个场景最广泛、价值比较大、更有挑战的三个方向在持续的做攻克,包括文档深度的理解,深度的创作以及文档结构化的抽取。那在下一层是我们的文档的一些基础技术,包括我们基于Qwen-long的大模型可以提供一系列包括超长文本的处理、多模态文本的处理以及我们的文档解析技术能力也是非常重要的基础。能够在文档当中去面向文字、公式、版面、层级数两个结构和图表进行理解。

 

一、智能文档解析技术

1.文档解析技术的目标和挑战

第一先展开我们的智能文档技术解析方向。因为这也是在文章技术里面最重要的一个基础。文档解析技术目的就是把各种非结构化的文档能够去转化为mark down大模型能够去理解的形式。在这个图上可以看到我们面临的文档会是非常的多样化和复杂的,比如说在这个论文和研报的这些文档里面,它不仅有文字,还会有大量的数学的公式和图表。在图书和说明书上它是一种图文混合的形式,以及在PPT还有网页里有非常复杂的一些排版和版式。这些文档它的内容,版面的层级和阅读的顺序以及他们的样式都是不一样的,而且这些文章他们都有一个共同的挑战——多页的长文档。理论上需要支持最是一页,最长可能是无限长度的文档的处理,这个是文档解析技术面临的一些主要的挑战。


2.文档解析算法创新

为了应对挑战,在文档解析的算法上也做了一系列的创新,比如说在表格结构的识别上面提出了一种新的方法,可以对表格单元格的结合逻辑坐标的回归和空间位置的预测,来提高表格结构识别的一个精度。在版面分析上提出了VGT方法,通过引入transformer的推理和预训练能够提升版面分析整体的效果;在层级结构的识别上面,将几何关系引入到预训练中来提高关系抽取的一个效果,这项技术也应用到了IDP层级结构的解析的任务当中。为了做更好的信息抽取提出了一个多模态的文档大模型layout-lm,通过将复杂的版式信息引入到大模型来提升大模型对文档理解的整体精度,也应用到了IDT信息抽取的任务当中。


3. 文档解析(大模型版)产品

在技术的创新之上,也把文档解析大部分产品做升级,提出了文档解析大模型版的产品,它之所以叫大模型版,一方面文档写入之后可以成为大模型RAG的一个输入,同时解析的一个结果也可以成为大模型预训练的一个高质量的来源。现在大模型版跟过去相比已经能够支持更多的文章类型,能够支持十种以上的格式,在输入端支持最长1万页的输入,在输出端支持流式的输出。那也就意味着当面临一个超长文档的时候,可以边解析边输出边应用。技术能力方面,在文字、公式、表格和版面层级上面在持续的精进,以及最近的文档转发评测上相对一些业界的友商也能够处于一个相对比较领先的成绩。文档解析大模型已经在阿里云上上线,如果有解析需求可以来在阿里云上接入服务。

 

二、Qwen-Long极致性价比长文本大模型

1.Qwen-Long极致性价比长文本大模型

把文档解析的能力再结合千问大模型能力就得到了Qwen-Long极致性价比的长文本的大模型。首先在Qwen-Long上可以支持超长文档的输入,现在在Qwen-Long上支持1.5万页和1000千万字的长文档的输入,那么它和IDP文章解析进行相结合之后,能够去解释各种各样的不同的格式,包括word,PDF,txt等等,以及我们能够理解文档当中的一些复杂的多模态的元素,包括文档中的柱状图,折线图,饼图等等不同的这种图表的类型。


单个文档其实是不会有这么长的,所以真正复杂的长文档是在多文档的一个场景,现在我们在Qwen-Long上已经最多支持到100个文档同时的上传和处理。当打开了多文档的支持后,用户的场景和需求变得更加的复杂,包括对技术的挑战也变得更加的难一点,比如要去面对这种多文档指代的问题,会上传一堆文档,参考a,理解b来改写c等等一系列的问题。包括可能会面临复杂的一些文档的逻辑推理用户在上传一堆文档之后,他可能会要求去分析在某一个维度上面它的一个变化的趋势以及我们现在的可以支持复杂的文档创作以及仿写参考过去的文档进行文档的创作。


2. Qwen-Long典型应用场景

Qwen-Long现在在百炼上提供了API,可以在百炼上去接入Qwen-Long的服务,它是一个通用的API,不限定用户在一个什么样的场景来使用,来介绍有用户比较多储存好的场景。第一个场景是海量文档和文章内容的处理,文本的挖掘、在文本中去做这种信息的提取一直是NLP领域一个最重要的任务,今天我们可以通过Qwen-Long比较快速和方便的实现。在这个例子当中呢,面对一批技术的文档我们需要去批量的抽取出这些文档当中的一些标签,比如说技术的领域、文章的质量、编程的语言和相关的产品,就能够做后续的一些处理。


当我们能够处理长文本之后,我们也能够去分析长文本当中存在的一些对话的记录,因为对话中往往蕴含着更高的一些商业的价值,比如说对一些客服的对话记录,对一些线下的接待的录音,对于社交im的对话等等一些长的文档的记录。现在Qwen-Long可以一次处理几个小时的电话录音转出来的文字,其实在这个例子当中是一个用户购车的咨询对话的记录,我们在这个当中可以用Qwen-Long快速的分析出这个客户在对话当中所提到的一些姓名、性别、购买的意向的程度、购车的一个预算和预约试驾的这个时间,会带来一个更好商业的价值。


第三更加复杂一点,就是对多格式多文档的对比分析和总结,比如用户可以上传一堆不同格式的文档,还有PDF,txt包括Word,然后我们可以在Qwen-Long上一次性总结出不同格式文档的内容的摘要。当然我们也可以对文档进行分析,比如说在一些HR的场景下可以上传,对于简历上传一个职位的描述,要求分析出哪些潜力是符合这个职位描述的,这也是在Qwen-Long上比较擅长的一个场景。那第四个呢是高质量的文档的创作,虽然本身是生成是大模型的一个最天然的任务,过去好像也并没有特别好用的写作的能力,比如如果让大模型写一个周报,大概率不能写成我想要的样子,但如果我上传一些过去几周的周报并且给予这一周的工作进展内容以及数据,就更有可能写出贴合要求的内容,所以高质量的文档的创作一定是基于比较强的文档的理解和分析的能力,创作和理解其实是一体的。


(1)应用场景:PPT创作

在讲到创作,介绍一下最近推出的新的场景——AI的PPT的生成和创作。大家可能都会有这样的一个体感,平时我们都要写很多的PPT,有idea通过idea搜集到一些内容和素材是简单的,但把这些内容归纳成PPT需要的形式,并且填到PPT的模版里面再要去做格式、美工和美化和配图的话,那就非常复杂和耗时了,所以PPT的创作就能够帮助解决这样的问题。那现在我们可以输入一句话来生成一个PPT,但更有亮点的一个能力是我们可以上传一个长文档,包括一个音视频来生成PPT


比如我们可以上传一个论文的PDF,还可以上传一个上课的视频直接转化成PPT。我们生成的PPT由于会参考过去结构内容,会比较言之有物,内容的相关度会比较好。同时我们也接入了通义万相的文生图的能力来使得我们的PPT的配图有更加好的视觉效果,符合整体的风格。AI PPT的创作能力在通义一个网站上,欢迎大家多体验和给我们多一些的反馈。


(2)应用场景:故事绘本生成

PPT是文档的一个形式,有更复杂的形式是故事的绘本。也尝试去做故事绘本的创作和生成,比如现在做公益应用叫做追星星的AI,也是国内首个面向孤独症儿童的绘本生成。我们希望做到面向这些孤独症的儿童只要给予一个简单的主题,给一个主角和故事的年龄段,就能够提升成一个完整的故事。它的背后会使用到第一是Qwen-Long,第二Modelscope Agent,通过Agent方式,对内容进行拆解对场景进行配乐、配图、配文本、讲解和音效。


看一下右边这个视频的一个效果,它输入的主题是第一次坐火车。可以看到我们输入的是一句话的主题,然后拆解成了多个场景,每个场景会有配图、配文、配音乐、配解说和配音效。尤其是在音效的部分我们看到描述火车开过的时候,会有火车铁轨的声音,在餐车的时候,会有刀叉和盘子的声音。随着我们通义万相的文生视频的能力逐渐的成熟,未来我们也可以把每个场景的单词图片换成一个视频的镜头,就可以通过agent的方式产生一个更长篇的更有吸引力的故事的短剧。这个项目也获得了十大科技无障碍行动创新的奖项。欢迎大家在ModelScope社区上体验它的效果。以上是在通用的场景里面的一些尝试。

 

三、通义法睿-法律领域文档大模型应用

在第三部分介绍一下文档应用在专业领域法律领域的一些技术和场景和我们的一些尝试。面向法院法官、律所的律师以及企业的一些法务推出了一个产品叫通义法睿希望为我们的客户群体提升他们每天工作的效率。法律的文本相比于通用的文本来说它会有更大的一些挑战,比如说他的专业性会更强,比如我们在法律的领域会看到一些专业的术语像好意同乘、好意施惠,这些词汇背后会蕴含非常复杂的法律的逻辑,并且对判案的结果带来一些影响,所以我们需要对专业的术语进行一个理解。


同时的一些法律上的解读可能也会跟我们的平时的一些想象不太一样,比如说法律上对于情商的理解和我们日常对情商的理解差异会比较大。法律结构上情商会更加的严重,以及在不同的法律、不同的地区以及不同的时间可能法律上也会有不同的要求。同时从文档的角度来讲,法律的文档也会有一个更加典型的挑战就是长文档和多文档,比如说像法律的裁决书长度就会到3000字以上,而且当我们要去深入的去理解一个案件的时候,每一个案件可能会关联到的卷宗的材料会多达70多份,这是在法律的文档上面比较特殊的一些专业性的挑战。


1.通义法睿-合同审查

通义法律上尝试了几个场景,第一个场景是合同的审查,因为我们的企业客户可能每天都会接触大量的合同,这些合同需要去做风险的审查,过去我们可能都需要把专业的律师和专业的法务的人员来做一个审查,可能一份合同就需要半天到一天审查的时间,成本非常高,现在我们有了通义法律的、AI衍生的合同审查之后,我们可以在一分多钟的时间内给出审查的结果,包括风险修改的一些建议,大大的节省了时间。


和过去传统的智能合同的审查不同的是,通义法睿合同的审查它能够对当前的这份合同进行实时的分析,对于当前这份合同给出不同审查范围的一些建议,审查清单的一些建议,能够更加高效的给出审查的结果。同时我们也支持自定义的审查的规则,企业可以根据自身的业务喜好配置自定义的审查方式,更加贴合企业本身的业务。通过合同审查,我们将会帮助合同相关的工作人员大大的提高工作效率。


2.通义法睿-法律检索

第二个场景是通义法睿的法律检索。尤其是罪案的检索,是法院的法官和律师在日常的工作中会接触到的最重要的工作场景之一。法院的法官需要通过罪案的检索,去避免同案不同判,这是法律判决的一致性。律师也需要通过罪案的检索来预判案件可能得走向。但是在罪案的检索中可能和传统的检索不太一样,它不仅仅是需要去做语义的检索,同时需要更多考虑法律上的一些专业性。所以我们在法律检索场景下面做了深入的检索优化。包括制定了法律相关的召回的模块和排序的模块,通过我们在法律业务上的长期积累,我们现在能最大程度的理解客户输入的意图,理解多达1亿多的裁判文书,做最好的召回和匹配。这是我们在法律检索上的工作。


3.通义法睿-多文档阅读

第三个场景是多文档的阅读。无论是法官、律师还是企业的法务,当我们要去深入的理解一个案件的时候,可能需要去来回翻阅70多份文档。这个过程非常耗时,为了能够提升阅读和阅卷的效率,我们提出了法律方向多文档阅读的工具。通过多文档的导入,单文档的导读来实现案情脉络的一个梳理和跨文档实时证据的还原,在这个例子看到当我们在阅读起诉状的时候,他可能提到了借款的合同,那么在过去可能需要十几步才能找到合同,现在通过要点的发现,定位,通过一步就可以找到这个合同,大大提升了法律工作人员在阅卷时候的工作效率。以上是通义法睿在法律方向的文档应用的一些场景。


4.通义法睿:未来展望

未来还会继续在以下的一些有价值技术方向的继续的探索。第一是高效的长文本的输出。一旦说到长文本long text大家想到的都是对于长文本的一个输入和理解,下一步我们可能会更加关注在长文本输出的方向上面,因为只有更长的输出的才能在文档的一些复杂的逻辑推理包括文档更长篇的创作上奠定更好的一个基础。第二是端到端多模态的文档理解,减少中间的过程和错误的传递,能够提供一个性能和效果俱佳的多模态文档理解的能力。第三是在深度的文档创作的能力,因为好的创作是基于好的理解,所以我们未来会进一步加深对于文档的结构、对文档的风格和内容的理解在深入的理解之上提供更加通用和广泛的创作能力。希望和大家共同去探索更多的文档领域的应用。

相关文章
|
2月前
|
机器学习/深度学习 人工智能 边缘计算
大模型在医疗领域的应用
🌟蒋星熠Jaxonic,AI开发者,深耕医疗大模型领域。见证代码如何重塑医疗:从影像分析到智能诊断,从药物研发到临床决策。分享技术实践与行业洞察,探索AI赋能健康的时代变革。
大模型在医疗领域的应用
|
2月前
|
人工智能 新制造 云栖大会
TsingtaoAI亮相云栖大会,AI大模型赋能传统制造业焕新升级
2025年9月24日,杭州云栖小镇,2025云栖大会盛大开幕。作为全球AI技术与产业融合的重要平台,本届大会以“AI驱动产业变革”为主题,集中展示大模型技术在各领域的创新应用。 其中,由西湖区商务局牵头组织的“AI大模型应用与产业融合”专场论坛成为大会亮点之一,吸引了来自政府、企业及投资机构的百余名代表参与。 在论坛上,TsingtaoAI作为制造业智能化转型的代表企业,分享了在具身智能-制造企业的AI应用实践。
119 1
|
2月前
|
存储 人工智能 NoSQL
AI大模型应用实践 八:如何通过RAG数据库实现大模型的私有化定制与优化
RAG技术通过融合外部知识库与大模型,实现知识动态更新与私有化定制,解决大模型知识固化、幻觉及数据安全难题。本文详解RAG原理、数据库选型(向量库、图库、知识图谱、混合架构)及应用场景,助力企业高效构建安全、可解释的智能系统。
|
3月前
|
人工智能 自然语言处理 搜索推荐
携多项成果亮相云栖大会,探索大模型在云通信中的创新应用与全球实践
2025云栖大会云通信分论坛聚焦大模型与云通信融合,阿里云发布智能联络中心2.0与Chat App AI助理,携手伙伴推动通信智能化升级。
343 1
|
5月前
|
人工智能 自然语言处理 开发工具
统一多模态 Transformer 架构在跨模态表示学习中的应用与优化
本文介绍统一多模态 Transformer(UMT)在跨模态表示学习中的应用与优化,涵盖模型架构、实现细节与实验效果,探讨其在图文检索、图像生成等任务中的卓越性能。
统一多模态 Transformer 架构在跨模态表示学习中的应用与优化
|
5月前
|
人工智能 自然语言处理 搜索推荐
企业客户服务效率低、体验差,如何通过大模型技术改善?一文了解面向客户服务全场景的行业大模型的3大应用方向
本文三桥君探讨了大模型技术在客户服务领域的应用与实践。从架构设计出发,详细解析了面向客户、客服和运营三大场景的智能功能模块,包括业务咨询、情感关怀、智能点选、知识采编等12项核心功能。AI产品专家三桥君指出,通过行业大模型定制、多源数据整合等技术手段,企业可实现客户服务的智能化升级,显著提升客户体验和运营效率。
361 0
|
3月前
|
人工智能 Java API
Java与大模型集成实战:构建智能Java应用的新范式
随着大型语言模型(LLM)的API化,将其强大的自然语言处理能力集成到现有Java应用中已成为提升应用智能水平的关键路径。本文旨在为Java开发者提供一份实用的集成指南。我们将深入探讨如何使用Spring Boot 3框架,通过HTTP客户端与OpenAI GPT(或兼容API)进行高效、安全的交互。内容涵盖项目依赖配置、异步非阻塞的API调用、请求与响应的结构化处理、异常管理以及一些面向生产环境的最佳实践,并附带完整的代码示例,助您快速将AI能力融入Java生态。
581 12
|
3月前
|
人工智能 自然语言处理 算法
现代AI工具深度解析:从GPT到多模态的技术革命与实战应用
蒋星熠Jaxonic,AI技术探索者,深耕代码生成、多模态AI与提示词工程。分享AI工具架构、实战应用与优化策略,助力开发者提升效率,共赴智能编程新纪元。