问题一:文字识别OCR精细版结构化识别出来图片坐标为什么是负数呀?
请求的接口
https://subject2.market.alicloudapi.com/ocrservice/subject
请求ID
8F57D9C5-F975-48A1-AB25-AFC5AB9C3786
响应值
{'figure': [{'type': 'subject_sline', 'x': 1, 'y': 154, 'w': 435, 'h': 1006, 'box': {'x': 0, 'y': 0, 'w': 0, 'h': 0, 'angle': -90}, 'points': [{'x': 436, 'y': 1022}, {'x': 435, 'y': 1160}, {'x': 1, 'y': 154}, {'x': 2, 'y': 154}]}, {'type': 'subject_table', 'x': 448, 'y': 1016, 'w': 189, 'h': 138, 'box': {'x': 0, 'y': 0, 'w': 0, 'h': 0, 'angle': -90}, 'points': [{'x': 448, 'y': 1016}, {'x': 637, 'y': 1016}, {'x': 637, 'y': 1154}, {'x': 448, 'y': 1154}]}, {'type': 'subject_question', 'x': 0, 'y': 0, 'w': 0, 'h': 0, 'box': {'x': 355, 'y': 133, 'w': 267, 'h': 640, 'angle': -90}, 'points': [{'x': 36, 'y': 0}, {'x': 675, 'y': 0}, {'x': 675, 'y': 265}, {'x': 36, 'y': 265}]}], 'height': 1160, 'orgHeight': 1160, 'orgWidth': 684, 'page_id': 0, 'page_title': '', 'part_info': [{'part_title': '', 'pos_list': [[{'x': 3, 'y': -6}, {'x': 671, 'y': -10}, {'x': 675, 'y': 985}, {'x': 3, 'y': 988}]], 'subject_list': [{'index': 0, 'type': 0, 'num_choices': 0, 'prob': 0, 'text': '字生在斑马线上过与路,他的及应时间比正常时慢了0.3 s,刹车到停止运动所用时间为4s,刹车后,车的平均速度为27 km/h.试计算说明是否会发生交通事故?', 'figure_list': [], 'table_list': [], 'answer_list': [], 'pos_list': [[{'x': 36, 'y': -10}, {'x': 675, 'y': -10}, {'x': 675, 'y': 265}, {'x': 36, 'y': 265}]], 'element_list': [{'type': 0, 'text': '字生在斑马线上过与路,他的及应时间比正常时慢了0.3 s,刹车到停止运动所用时间为4s,刹车后,车的平均速度为27 km/h.试计算说明是否会发生交通事故?', 'pos_list': [[{'x': 64, 'y': -6}, {'x': 668, 'y': -10}, {'x': 669, 'y': 259}, {'x': 66, 'y': 263}]], 'content_list': [{'type': 1, 'prob': 87, 'string': '字生在斑马线上过与路,他的及应时', 'option': '', 'pos': [{'x': 66, 'y': -5}, {'x': 663, 'y': -10}, {'x': 664, 'y': 18}, {'x': 67, 'y': 23}]}, {'type': 1, 'prob': 95, 'string': '间比正常时慢了0.3 s,刹车到停止运动', 'option': '', 'pos': [{'x': 65, 'y': 53}, {'x': 668, 'y': 49}, {'x': 668, 'y': 79}, {'x': 65, 'y': 83}]}, {'type': 1, 'prob': 99, 'string': '所用时间为4s,刹车后,车的平均速度', 'option': '', 'pos': [{'x': 66, 'y': 113}, {'x': 668, 'y': 111}, {'x': 669, 'y': 141}, {'x': 66, 'y': 143}]}, {'type': 1, 'prob': 99, 'string': '为27 km/h.试计算说明是否会发生交通', 'option': '', 'pos': [{'x': 66, 'y': 175}, {'x': 666, 'y': 170}, {'x': 666, 'y': 199}, {'x': 66, 'y': 204}]}, {'type': 1, 'prob': 99, 'string': '事故?', 'option': '', 'pos': [{'x': 66, 'y': 233}, {'x': 150, 'y': 233}, {'x': 150, 'y': 263}, {'x': 66, 'y': 263}]}]}]}]}], 'prism_version': '1.0.9', 'prism_wnum': 0, 'requestId': '8F57D9C5-F975-48A1-AB25-AFC5AB9C3786', 'width': 684} 问题二:为什么这个返回结果跟我图片相差很大?我的图片是长这样的现在又正常了,昨天有问题。两次 ocr的返回结果,第二次的比较多
是一张图片,编码方式都一致,代码都没有动过,我们这边图片信息从2023-07-04 17:04:03.290916 之后就没有改变过,请求方式也没有动过
OCR精细版结构化识别出来的图片坐标为负数,可能是由于以下原因:
图片位置错误:如果您在调用OCR精细版结构化识别时,将图片的位置设置错误,可能会导致OCR引擎无法正确识别图片,从而导致图片坐标为负数。
OCR引擎错误:如果OCR引擎在识别图片时出现错误,可能会导致OCR引擎无法正确识别图片,从而导致图片坐标为负数。
如果您无法确定具体原因,可以尝试以下方法:
检查图片位置是否正确,可以使用OCR精细版结构化识别提供的API接口进行检查。
检查OCR引擎是否存在问题,可以使用OCR精细版结构化识别提供的API接口进行检查。
出现负数坐标通常是由于以下原因:
坐标原点:OCR引擎通常使用左上角作为坐标的原点。如果文本或对象的位置在原点的左上方,则会产生负数坐标。
图像处理与矫正:在进行OCR之前,可能会对图像进行预处理和矫正。这些操作可能会导致文本或对象的位置发生平移、旋转或缩放,从而导致负数坐标的出现。
坐标系统:某些OCR引擎使用的坐标系统可能与传统的笛卡尔坐标系不同。这可能导致坐标值的范围超出了通常的正数范围。
如果您在使用OCR精细版进行结构化识别后得到了负数坐标,考虑以下操作:
检查坐标系:确保正确理解和使用OCR引擎返回的坐标系。查阅相关文档以了解坐标的定义和范围。
图像矫正:如果图像经过矫正或旋转,尝试反向应用相同的变换来还原文本或对象的正确位置。
坐标转换:根据实际需要,可以将负数坐标转换为正数坐标。例如,将左上角作为原点的坐标系转换为以中心点或其他参考点作为原点的坐标系。
坐标参考系不同:OCR精细版结构化识别出来的图片坐标是相对于整张图片左上角的坐标。如果您使用的是其他软件或者工具,可能使用的是相对于某个特定位置的坐标参考系,导致坐标为负数。您可以根据具体情况转换坐标参考系,以保证坐标的正确性。
图片大小不一致:OCR精细版结构化识别出来的图片坐标可能会受到原始图片大小的影响。如果原始图片的大小与您的期望不同,可能会导致坐标为负数。您可以尝试调整原始图片的大小,并重新运行OCR识别服务,以获得正确的坐标值。
OCR识别算法问题:OCR精细版结构化识别出来的图片坐标可能受到OCR识别算法的影响。如果OCR算法存在问题或者优化不足,可能会导致坐标的不准确性,甚至出现负数的情况。您可以联系OCR服务提供商,获取更多关于识别算法的信息和技术支持。
针对问题一的回答:目前忽略 box 里的数据 使用points 的坐标,此回答整理自钉群"阿里云读光OCR客户交流反馈群 2"
版权声明:本文内容由阿里云实名注册用户自发贡献,版权归原作者所有,阿里云开发者社区不拥有其著作权,亦不承担相应法律责任。具体规则请查看《阿里云开发者社区用户服务协议》和《阿里云开发者社区知识产权保护指引》。如果您发现本社区中有涉嫌抄袭的内容,填写侵权投诉表单进行举报,一经查实,本社区将立刻删除涉嫌侵权内容。