在智能媒体管理上,刚试用了ExtractDocumentText,ppt转文本存在段落不清晰,一些格式无法转换的问题。想咨询是否有计划支持获取结构化文档,我们是课堂场景,讲课的ppt想提取文本,意向接入文档提取文本的能力。比如这个,我把返回的文本字符串中的换行符split处理,里面还有一些异常字符转换结果,可以帮忙看下这些是什么情况吗?还有ppt文本支持分页的问题,我看现在提取的文本无法分页处理。
如果是一些数学公式的话 是会出现异常字符的情况, 中文文本段落不清晰这个是预期内的么。主要是两点1、ppt格式文件文字提取支持分页。比如增加入参是ppt的页码,返回这一页的提取内容2、文本段落结构化返回。像这样返回的段落顺序就有误,ppt特效内容没有跟题目对应。此回答来自钉群智能媒体管理官网客户二群。
版权声明:本文内容由阿里云实名注册用户自发贡献,版权归原作者所有,阿里云开发者社区不拥有其著作权,亦不承担相应法律责任。具体规则请查看《阿里云开发者社区用户服务协议》和《阿里云开发者社区知识产权保护指引》。如果您发现本社区中有涉嫌抄袭的内容,填写侵权投诉表单进行举报,一经查实,本社区将立刻删除涉嫌侵权内容。