开发者社区 > ModelScope模型即服务 > 计算机视觉 > 正文

ModelScope读光ocr手写体模型问题中,不知道如何训练?

ModelScope读光ocr手写体模型问题中,我将灰度化的动作拆解到三通道 现在的识别模型只能识别灰度 无法识别颜色 如有多种颜色的背景横线干扰无法区分 我解开成三通道参数 但是不知道如何训练?

展开
收起
闲o月 2024-01-02 19:34:31 119 0
3 条回答
写回答
取消 提交回答
  • 对于OCR手写体识别模型的训练,你需要一个包含手写体文本及其对应标签的数据集。这个数据集应该包含各种不同的手写风格、字体大小、倾斜角度以及背景颜色和图案。

    在训练模型时,你需要将每个图像转换为灰度图,因为大多数OCR模型都是基于灰度图像进行训练的。然后,你可以使用深度学习框架(如TensorFlow或PyTorch)来构建和训练你的模型。

    如果你的模型无法区分颜色和背景横线,可能是因为你的数据集不够多样化,或者你的模型没有学习到足够的特征来区分这些干扰。你可以尝试增加数据集的大小和多样性,或者尝试使用更复杂的模型(如卷积神经网络,CNN)来进行训练。

    2024-01-03 10:26:22
    赞同 展开评论 打赏
  • 面对过去,不要迷离;面对未来,不必彷徨;活在今天,你只要把自己完全展示给别人看。

    在您的情况下,由于当前的识别模型只能处理灰度图像,而无法处理彩色图像,因此,一种可能的解决方案是将灰度化的过程分解到三个通道中。然而,您也提到如果背景有多种颜色的横线干扰,只使用灰度模型就无法区分颜色。

    关于如何训练的问题,首先需要确定您的模型是否可以接受三通道的输入。如果可以,那么您可以将灰度的三个参数作用在三通道的参数上,以此来避免颜色对文字识别的影响。然后,您可能需要修改模型的第一层,使其可以接受三通道的输入。

    另外,您可以考虑使用基于OFA模型的finetune后的OCR文字识别任务,这种模型可以有效识别手写体文字。OFA (One-For-All)是通用多模态预训练模型,它使用简单的序列到序列的学习框架统一模态(跨模态、视觉、语言等模态)和任务(如图片生成、视觉定位、图片描述、图片分类、文本生成等)。这可能会有助于解决您的问题。

    2024-01-02 22:20:21
    赞同 展开评论 打赏
  • 现在就是三通道图像输入呀,一方面来说,其他颜色干扰线这个问题其实直接用灰度图就可以,模型可以学到的;另一方面,如果需要输入模型三通道,你可以把RGB->GRAY的手动删掉,然后把模型第一层的输入通道数改成3就好了,而且读参数的时候那一层不读就好了,相当于重新训第一层,一般很快会收敛的 https://blog.csdn.net/LXX516/article/details/80124768 可参考在这里加, ./modelscope/models/cv/ocr_recognition/model.py 参考94-105行训练框架里面走的也是这里load参数,你在这里提前改成需要的格式就好 此回答整理自钉群“魔搭ModelScope开发者联盟群 ①”

    2024-01-02 20:27:20
    赞同 展开评论 打赏

包含图像分类、图像生成、人体人脸识别、动作识别、目标分割、视频生成、卡通画、视觉评价、三维视觉等多个领域

相关电子书

更多
阿里云智能-印刷文字识别OCR-产品介绍 立即下载
阿里巴巴读光OCR 立即下载
印刷文字识别算法设计与在线服务 立即下载