自从AI模型出现之后现在需要使用GPU来需求日益增多,尤其是个人想要学习,研究,训练模型。如果自己直接购置硬件,无疑是一笔大开销,加上这些显卡等硬件更新迭代也是快的,
所以前期只是学习,或者验证一下自己的思路,个人来看不值得直接花大价钱来买来硬件设备。常言道:买不如租,所以这是使用阿里云等提供的GPU加速型服务器不失为一个不错的方案。
比如这次来说,我使用开源项目 Marker 可以快速准确地将 PDF 转换为 markdown、JSON 和 HTML。
购置服务器
注意:
- 选择 抢占式实列(按照实际来选)
- 选择 规格对应 是 A10 的
- 其中如果有需要可以勾选自动安装显卡驱动的选项,整体安装速度还行
- 另外因为需要下载国外的训练好的模型数据,为了减少网络干扰因素,所以选择海外地区的服务器
安装依赖环境
这里安装的Linux系统是 Alibaba Cloud Linux
mkdir pdftomarkdown
cd pdftomarkdown
# 需要使用python10+,安装最新版本
dnf install python3.11
python3.11 -m venv venv
source venv/bin/activate
## 安装软件
## 如果检测到显卡驱动,会自动安装对应的依赖包,这个对pdf解析精度是会有大大的帮助的
pip install marker-pdf
### 单个文件识别
marker_single /path/to/file
更多的使用方式可以参考这里
问题总结
下载 huggingface 模型数据失败
download from huggingface.co timedout
需要科学上网,所以直接选择 东京 地区的服务器可以解决 https://huggingface.co/
需要安装底层库
对应的是 libX11 和 libXext 没有找到的问题报错
dnf install libX11 libXext