UDOP项目原作解读:统一视觉、语言、格式、任务的通用文档处理模型

简介: UDOP项目原作解读:统一视觉、语言、格式、任务的通用文档处理模型


文档 AI(Document Artificial Intelligence)领域研究包括文档内容提取,分析和理解。近日,微软 Cognitive Services Research 和 UNC Chapel Hill 提出了文档 AI 的基石模型 “Universal Document Processing (UDOP)”。该模型统一了图像、文本和格式模态,并以生成模型的方式整合了各类文档理解和文档生成任务。

UDOP 利用文本内容和文档图像之间的空间相关性,提出用统一的表征方法来建模图像、文本和格式模态。UDOP 在大规模未标记文档语料库和多样化标记数据上进行预训练,学习生成文档图像的文本和布局模态。UDOP 在文档 AI 领域首次实现了高质量的文档图像生成和定制化的内容编辑。UDOP 在 8 个文档 AI 任务上刷新了记录,在 “DUE Benchmark” 上排名第一。

机器之心最新一期线上分享邀请到了微软 Azure 的高级研究员杨子弋及其学生唐子能,为大家分享他们近期工作 UDOP。


分享主题:UDOP:统一视觉、语言、格式、任务的通用文档处理模型

分享嘉宾:

唐子能,UNC Chapel Hill 数学专业大四本科生。师从 Mohit Bansal 教授。他曾在 2022 年于微软 Azure 实习,导师为杨子弋博士。他曾获得获得 2023 年度 CRA Outstanding Undergraduate Researcher Award。

杨子弋,微软 Azure Cognitive Services Research 高级研究员,博士毕业于斯坦福大学,师从 Eric Darve 教授。研究方向为多模态理解和生成,及自然语言处理。

分享摘要:UDOP 是文档人工智能领域的基石模型。我们将介绍 UDOP 的模型结构与大规模生成式预训练方法,以及 UDOP 如何统一文本,图像,格式模态和各类任务。UDOP 在各类文档理解任务上大幅度刷新了记录。我们也将展示 UDOP 作为第一个有文档图像生成与编辑能力的模型的视觉生成效果。

相关链接:

1)SOTA!模型平台项目主页链接:

https://sota.jiqizhixin.com/project/udop

2)论文链接:

https://arxiv.org/abs/2212.02623

3)代码仓库:

https://github.com/microsoft/i-Code/tree/main/i-Code-Doc

相关文章
|
传感器 存储
STM32--TIM定时器(3)
STM32--TIM定时器(3)
611 0
STM32--TIM定时器(3)
|
SQL Oracle 关系型数据库
Flink CDC 系列 - 同步 MySQL 分库分表,构建 Iceberg 实时数据湖
本篇教程将展示如何使用 Flink CDC 构建实时数据湖,并处理分库分表合并同步的场景。
Flink CDC 系列 - 同步 MySQL 分库分表,构建 Iceberg 实时数据湖
|
7月前
|
机器学习/深度学习 人工智能 编解码
AI 只用 60 秒就能生成 Logo,用 AI 生成 Logo 有什么优势和特点?
AI Logo生成工具测评:免费方案能否满足品牌需求? AI Logo生成工具凭借高效低价的特点,为初创企业和个人提供了便捷的选择。本文对比了7款主流免费AI Logo工具(如LogomasterAI、燕雀光年等),发现这些工具平均1分钟即可生成Logo,提供多种行业模板和编辑功能,部分甚至支持矢量格式输出。但在专业性方面,AI生成的Logo虽具备基础设计感,却可能缺乏独特性。值得注意的是,各工具版权政策差异较大,用户需仔细确认商用授权条款。建议预算有限的用户可先用AI生成基础方案,再结合专业建议进行优化,
343 0
|
9月前
|
Linux 数据安全/隐私保护
使用Linux命令行接入无线网络Wi-Fi的示例。
现在,你已经使用命令行成功地连接到 Wi-Fi 网络了。这两个示例涵盖了用 `nmcli` 和 `wpa_supplicant` 连接无线网络的常见场景,让你能够不依赖图形化界面来完成这个任务。在日常使用中熟练掌握这些基本操作能增强你对 Linux 系统的理解,帮助你更有效地处理各种问题。
760 12
|
项目管理 开发工具 Android开发
repo跟git的关系
Repo与Git不是替代关系,而是相互补充。Git关注于单个仓库的版本控制,而Repo在此基础上提供了一套管理多个Git仓库的框架,特别适合处理大规模、多组件协同开发的项目。通过Repo,开发者可以更高效地处理复杂的项目结构,同时享受Git带来的版本控制优势,两者结合,为大型软件项目管理提供了强大的支撑。
1007 1
|
机器学习/深度学习 数据采集 人工智能
【机器学习】QLoRA:基于PEFT亲手量化微调Qwen2大模型
【机器学习】QLoRA:基于PEFT亲手量化微调Qwen2大模型
1158 0
【机器学习】QLoRA:基于PEFT亲手量化微调Qwen2大模型
|
前端开发
前端进度条组件NProgress
前端进度条组件NProgress
326 1
前端进度条组件NProgress
|
机器学习/深度学习
大模型中的Scaling Law是什么?
【2月更文挑战第9天】大模型中的Scaling Law是什么?
18704 3
大模型中的Scaling Law是什么?
|
缓存 数据库连接 数据库
构建高性能的Python Web应用:优化技巧与最佳实践
本文探讨了如何通过优化技巧和最佳实践来构建高性能的Python Web应用。从代码优化到服务器配置,我们将深入研究提高Python Web应用性能的各个方面。通过本文,读者将了解到一系列提高Python Web应用性能的方法,从而更好地应对高并发和大流量的挑战。
|
机器学习/深度学习
YOLOv8改进 | 检测头篇 | CLLAHead分布焦点检测头(全网独创首发)
YOLOv8改进 | 检测头篇 | CLLAHead分布焦点检测头(全网独创首发)
428 0

热门文章

最新文章