开发者社区 > ModelScope模型即服务 > 计算机视觉 > 正文

ocr识别的label_dict.txt编码为utf8,windows下默认以gbk读取,导致报错

在运行时,使用ocr识别的模型damo/cv_convnextTiny_ocr-recognition-general_damo,其读取的字典文件label_dict.txt的编码为utf-8,但是在windows下默认以gbk读取,导致报错,无法进行后续推理。请问官方能否将modelscope库中以下代码 with open(label_path, 'r') as f:
修改为例如: with open(label_path, 'r', encoding='utf8') as f: 的方式,明确指定以utf-8方式读取,以便解决默认发布的模型库问题?

展开
收起
老唐250 2022-11-15 13:46:01 634 0
2 条回答
写回答
取消 提交回答
  • 通常情况下,OCR识别的label_dict.txt文件应该使用UTF-8编码,而不是GBK编码。如果您的Windows系统默认使用GBK编码来读取该文件,可能会导致读取错误。

    解决这个问题的方法是,将Windows系统的默认编码设置为UTF-8,以便正确读取label_dict.txt文件。您可以按照以下步骤进行操作:

    打开“控制面板”,并选择“时间、语言和区域”。 选择“区域和语言”,然后在弹出的窗口中,选择“更改时区”按钮。 在“区域和语言设置”窗口中,选择“中文(中华人民共和国)”下的“详细信息”按钮。 在“语言区域”下,选择“英语(美国)”并单击“确定”。 现在将文件关闭,然后将标签_dict.txt复制到一个文本编辑器中,并将其保存为UTF-8编码。 再次打开Windows资源管理器,您应该能够正确读取该文件了。 如果以上方法无法解决问题,您可以尝试使用文本编辑器(如记事本)打开label_dict.txt文件,并将其另存为UTF-8编码。

    2023-05-23 16:18:09
    赞同 展开评论 打赏
  • 谢谢反馈。这个问题已经在代码层面修复,下个版本发布能带上,敬请期待

    2022-11-16 10:07:38
    赞同 展开评论 打赏

包含图像分类、图像生成、人体人脸识别、动作识别、目标分割、视频生成、卡通画、视觉评价、三维视觉等多个领域

相关电子书

更多
阿里云智能-印刷文字识别OCR-产品介绍 立即下载
阿里巴巴读光OCR 立即下载
印刷文字识别算法设计与在线服务 立即下载