文档智能pdf2word是类似PP-Structure那样的结果嘛? 就是格式化的有没有pdf2md的接口啊?
文档智能pdf2word和PP-Structure是两种不同的技术。PP-Structure是飞桨社区开发者基于最新发布的PP-Structurev2文档分析模型开发的一款PDF转Word工具,它通过版面分析和表格识别等基本功能,支持文字、表格、标题、图片的完整恢复。 最新版本的PP-StructureV2智能文档分析系统,进一步支持了关键信息抽取与版面恢复等功能模块。
另一方面,关于你提到的pdf2md接口,存在多种工具可以实现这一需求。一种实现方式是使用由Johannes Zillmann创建的pdf-to-markdown项目。此外,Mozilla的PDF解析和渲染平台pdf.js也可以作为原始解析器来使用。另一个实用的在线工具是pdf2md.morethan.io,它可以在网页上直接将PDF文件转换为Markdown语法的网页,并且该工具也提供了命令行模式以支持本地处理文件。
暂时没有~这个目前正在规划这一块,有上线时间会通知到群和公有云文档,文档到markdown功能 此回答整理自钉群“【官方】阿里云文档智能客户交流群”
版权声明:本文内容由阿里云实名注册用户自发贡献,版权归原作者所有,阿里云开发者社区不拥有其著作权,亦不承担相应法律责任。具体规则请查看《阿里云开发者社区用户服务协议》和《阿里云开发者社区知识产权保护指引》。如果您发现本社区中有涉嫌抄袭的内容,填写侵权投诉表单进行举报,一经查实,本社区将立刻删除涉嫌侵权内容。