应用场景:
• 通用类:识别任意图片中的文字
• 个性化:识别指定类型的图片文字。PS:票据识别,身份证识别,车牌识别
实现技术:
• 文字区域检测(检测文字所在区域)
• 文字单体切割(对检测到的区域进行文字切割)
• 单体文字分类
正负样本:
在文字切割中需要用到的样本。
正样本为包含完整文本的图像。
负样本为不包含完成文本的图像。(无文本或残缺文本的图像)
文字分类器样本扩充:
• 每个字符加上随机背景。
• 对文字进行扭曲。
• 加入噪声。(效果微乎其微)
滑动窗口:
在文字切割过程中需要用到滑动窗口技术,窗口与文字等高,宽与文字等宽。
滑动窗口沿着行进行搜索,与正负样本进行比较。
实现流程:
- 1.首先训练模型能够在图片中检测出文字区域。
- 2.然后采用滑动窗口技术来切割单个文字区域。
- 3.训练单体文字分类器,完成单体文字的分类。
- 4.扩展识别区域,合并重叠区域,过滤掉纵横比不在阈值范围内的区域。