推荐一个双语对照的 PDF 翻译工具的开源项目:PDFMathTranslate

简介: 今天给大家推荐一个**双语对照的 PDF 翻译工具**的开源项目:PDFMathTranslate 。

今天给大家推荐一个双语对照的 PDF 翻译工具的开源项目:PDFMathTranslate 。

项目介绍:

基于 AI 完整保留排版的 PDF 文档全文双语翻译,支持 Google/DeepL/Ollama/OpenAI 等服务,提供 CLI/GUI/Docker 。

项目亮点:

  • 基于 AI 布局分析和 PDF 指令流分析实现对文档排版的完整保留 ;
  • 保留行内/行间公式和图表样式,对 Latex 文献进行特殊优化;
  • 保留文档可索引目录结构 ;
  • 支持 Google、DeepL 和 OpenAI 等多种翻译服务 。

预览效果:

快速开始

1、确保服务器安装的 Python 版本大于 3.8 且小于 3.12 ;

2、安装此程序 ;

pip install pdf2zh

3、打开 GUI 界面 , 访问:http://localhost:7860/

pdf2zh -i

4、上传文件并翻译

如上图,我们上传一个英文版 PDF ,上传完成后,在预览区域会显示 PDF 的内容。

接下来,选择翻译服务 Google、Bing、zhipu、Tentcent 等和翻译方向(英文转中文),

最后点击翻译按钮即可。

当然,我们也可以使用 命令行直接翻译:

pdf2zh raft.pdf

基本原理

核心流程:

1、上传文件后,通过 AI 模型 DocLayout-YOLO-DocStructBench-onnx 解析文档格式 ;

2、调用翻译服务 Google 、智普、Bing、DeepL、OpenAI 等开放平台的服务 ;

3、将数据流整合在一起并输出到目标 PDF 。


参考资料:

https://huggingface.co/wybxc/DocLayout-YOLO-DocStructBench-onnx

相关文章
|
Java Windows C++
操作PDF文档功能的相关开源项目探索——iTextSharp 和PDFBox
原文 操作PDF文档功能的相关开源项目探索——iTextSharp 和PDFBox  很久没自己写写心得日志与大家分享了,一方面是自己有点忙,一方面是自己有点懒,没有及时总结。因为实践是经验的来源,总结是提升的基础,所以无论怎样,自己都该反省一下。
1599 0
|
19天前
|
人工智能 文字识别 数据挖掘
MarkItDown:微软开源的多格式转Markdown工具,支持将PDF、Word、图像和音频等文件转换为Markdown格式
MarkItDown 是微软开源的多功能文档转换工具,支持将 PDF、PPT、Word、Excel、图像、音频等多种格式的文件转换为 Markdown 格式,具备 OCR 文字识别、语音转文字和元数据提取等功能。
122 9
MarkItDown:微软开源的多格式转Markdown工具,支持将PDF、Word、图像和音频等文件转换为Markdown格式
|
23天前
|
JavaScript
jquery图片和pdf文件预览插件
EZView.js是一款jquery图片和pdf文件预览插件。EZView.js可以为图片和pdf格式文件生成在线预览效果。支持的文件格式有pdf、jpg、 png、jpeg、gif。
48 16
|
5月前
|
XML 缓存 JSON
为什么浏览器中有些图片、PDF等文件点击后有些是预览,有些是下载
为什么浏览器中有些图片、PDF等文件点击后有些是预览,有些是下载
303 0
|
3月前
|
Java Apache Maven
将word文档转换成pdf文件方法
在Java中,将Word文档转换为PDF文件可采用多种方法:1) 使用Apache POI和iText库,适合处理基本转换需求;2) Aspose.Words for Java,提供更高级的功能和性能;3) 利用LibreOffice命令行工具,适用于需要开源解决方案的场景。每种方法都有其适用范围,可根据具体需求选择。
|
3月前
|
Java Apache Maven
Java将word文档转换成pdf文件的方法?
【10月更文挑战第13天】Java将word文档转换成pdf文件的方法?
762 1
|
3月前
|
索引 Python
PDF文件页面提取操作小指南
PDF文件页面提取操作小指南
112 4
|
3月前
|
Python
Python对PDF文件页面的旋转和切割
Python对PDF文件页面的旋转和切割
56 3
|
3月前
|
计算机视觉 Python
Python操作PDF文件
Python操作PDF文件
49 1
|
3月前
|
JSON 数据格式
LangChain-20 Document Loader 文件加载 加载MD DOCX EXCEL PPT PDF HTML JSON 等多种文件格式 后续可通过FAISS向量化 增强检索
LangChain-20 Document Loader 文件加载 加载MD DOCX EXCEL PPT PDF HTML JSON 等多种文件格式 后续可通过FAISS向量化 增强检索
166 2

热门文章

最新文章