五种图像标注的简介

简介: 我们在诸如汽车自动驾驶等领域,需要用到复杂的图像标注和计算机视觉技术。那么,我们该如何知道哪一种图像标注类型更适合手头的项目呢?本文将向您介绍五种常见的图像标注类型,及其相关应用。

1.jpg

您是否曾被要求在图像中寻找针对不同图形区域的标注类信息?在如今人工智能(AI)和机器学习(ML)盛行的环境中,各类AI开发人员和研究人员为了实现其项目的目标,需要访问大量具有高质量的数据。同时,随着“数据为王”的概念已深入人心,可以说,“没有数据,就不会有所谓的数据科学。”目前,机器学习的一个主要应用领域,便是需要在计算机视觉(computer vision)中,对大量的图像进行标注,使之成为实用的图像数据。

本文将从如下方面和您讨论图像标注的相关概念与类型:

什么是计算机视觉?
什么是图像标注?
2D边界框(Bounding Boxes)
3D边界框/长方体(Cuboids)
多边形(Polygons)
线和样条线(Lines and Splines)
语义分割(Semantic Segmentation)

什么是计算机视觉?
作为AI研究和开发的一个重要领域,计算机视觉旨在使计算机能够“看到”并解释所处的环境和状态。从自动驾驶汽车,到无人机勘察,再到医疗诊断,以及面部识别与辨认等场景,计算机视觉在实际应用领域发挥着巨大的作用。

为了成功地模仿或超越人类的视觉功能,计算机视觉在对目标设备进行开发和处理的过程中,需要通过对大量模型的训练,实现对图像的标注。

什么是图像标注?

图像标注是一个将标签添加到图像上的过程。其目标范围既可以是在整个图像上仅使用一个标签,也可以是在某个图像内的各组像素中配上多个标签。一个简单的例子是:我们在向幼儿提供各种动物的电子图像时,可以通过将正确的动物名称标记到每个图像上,以方便幼儿在点触图像时能够获悉其名称。当然,具体标注的方法取决于实际项目所使用到的图像标注类型。有时候,我们可以将那些通过地图APP采集的地面实况数据(ground truth data),作为带标注的图像,馈入计算机视觉的对应算法。通过反复训练,模型便可以将已标注的实体与那些未标注的图像区分开来。

最常见的图像标注类型

上述示例非常简单,我们在诸如汽车自动驾驶等领域,则会用到更加复杂的图像标注和计算机视觉技术。那么,我们该如何知道哪一种图像标注类型更适合自己手头的项目呢?下面我将向您介绍五种常见的图像标注类型,及其相关应用。

1.2D边界框

2D边界框标注是指:为那些人类标注器(human annotator)提供图像,并负责在图像中的某些对象周围绘制框。该边框应尽可能地靠近对象的每个边缘。此项工作通常是在不同公司的自定义平台上完成的。如果某个项目有着独特的要求,那么服务公司则可以通过调整其现有平台,以符合此类需求。

边界框的一种典型应用是针对汽车自动驾驶的开发。标注器需要在捕获到的交通图像内识别车辆、行人和骑车人等实体,并在其周围绘制边界框。因此,开发人员通过为机器学习模型提供带有边界框标注的图像,以帮助正在进行自动驾驶的车辆,实时地区分出各类实体,并避免触碰到它们。

2.3D长方体

与边界框非常相似,3D长方体标注是在立体图像中的识别对象,并在其周围绘制边框。与仅描绘长和宽的2D边界框不同,3D长方体则标注了对象的长、宽和近似深度。

使用3D长方体标注,人类标注器可以绘制一个框,将感兴趣的对象封装起来,并将锚点(anchor points)放置在对象的每个边缘。如果对象的一个边缘不可见、或被图像中的另一个对象所遮挡,那么标注器就会根据该对象的大小、高度、以及图像的角度,来估算其边缘的位置。

3.多边形

有时候,图像中的对象由于光照或角度等原因,其形状、大小或方向无法被很好地适配上2D边界框或3D长方体。同时,开发人员希望对图像中的对象,进行更加精确的标注,例如:交通图像中的汽车、空中图像中的地标性建筑物等。在这些情况下,我们可能需要选择多边形进行标注。

在使用多边形时,标注器会通过在需要标注的对象的外边缘,放置许多个点来绘制成线。这个过程有点类似我们小时候玩过的“连点成线,勾勒轮廓”的练习。在此基础上,我们使用一组预定的实体类别(例如:汽车、自行车、卡车),对由这些点和线所包围的区域内的空间进行标注。此外,当我们分配了多个类别时,它们就被称为多类标注(multi-class annotation)。

4.线和样条线

尽管线和样条线可以被用于多种用途,但它们在此主要被用于训练驾驶系统,以识别车道及其边界。顾名思义,标注器将会简单地沿着既定的机器学习方式,去绘制出边界线。通过标注出车行道和人行道,它能够训练自动驾驶系统,了解所处的边界,并保持在某条车道内,以避免压线或转向行驶。

此外,线和样条线也可以被用于训练仓库里的机器人,让它们能够整齐地将箱子挨个摆放,或是将物品准确地放置到传送带上。

5.语义分割

和上述主要着眼于绘制对象的外部边缘(或边界)分类不同,语义分割要更加精确和具体一些。它是一个将整个图像中的每个像素与标签相关联的过程。在需要用到语义分割的项目中,我们通常会为人类标注器提供一系列预定义的标签,以便它能够从中选择需要标记的内容。

语义分割使用的是和多边形标注类似的平台,能够让标注器在需要标记的一组像素周围绘制线条。当然,这些操作可以在AI辅助平台上完成,例如,处理程序虽然可以近似地绘制出汽车的轮廓边界,但是为了避免错误,需要在分割过程中剔除掉汽车下方的阴影部分。

在实际应用中,标注器一旦接收到自动驾驶的训练数据,就需要按照道路、建筑物、骑车人、行人、障碍物、树木、人行道、以及车辆等,对图像中的所有内容,进行分类分割。而且,人类标注器会使用单独的工具,裁剪掉不属于主体的像素。

语义分割的另一个常见应用场景是医学成像。针对提供过来的患者照片,标注器将从解剖学角度对不同的身体部位,打上正确的部位名称标签。因此,语义分割可以被用于处理诸如“在CT扫描图像中标记脑部病变”,之类难度较大的特殊任务。

原标题:An Introduction to 5 Types of Image Annotation ,作者:Limarc Ambalina
本文转载自51CTO,本文一切观点和机器智能技术圈子无关

目录
相关文章
|
数据挖掘 计算机视觉 Python
Python数据分析中图像处理的实用技术点:图像加载与保存、图像转换与增强、特征提取与描述
Python数据分析中图像处理的实用技术点:图像加载与保存、图像转换与增强、特征提取与描述
95 1
Python数据分析中图像处理的实用技术点:图像加载与保存、图像转换与增强、特征提取与描述
|
JSON 数据格式 Python
对Labelme标注图像,进行90、180、270的旋转,实现标注数据的扩充。
对Labelme标注图像,进行90、180、270的旋转,实现标注数据的扩充。
1098 0
对Labelme标注图像,进行90、180、270的旋转,实现标注数据的扩充。
|
14天前
|
人工智能 自然语言处理 网络性能优化
Kandinsky-3:开源的文本到图像生成框架,适应多种图像生成任务
Kandinsky-3 是一个开源的文本到图像生成框架,基于潜在扩散模型,能够适应多种图像生成任务。该框架支持高质量和逼真的图像合成,包括文本引导的修复/扩展、图像融合、文本-图像融合及视频生成等功能。Kandinsky-3 通过简化模型架构,提高了推理速度,同时保持了图像质量。
34 2
Kandinsky-3:开源的文本到图像生成框架,适应多种图像生成任务
|
6月前
|
人工智能 计算机视觉 Python
【超详细】【YOLOV8使用说明】一套框架解决CV的5大任务:目标检测、分割、姿势估计、跟踪和分类任务【含源码】(1)
【超详细】【YOLOV8使用说明】一套框架解决CV的5大任务:目标检测、分割、姿势估计、跟踪和分类任务【含源码】
【超详细】【YOLOV8使用说明】一套框架解决CV的5大任务:目标检测、分割、姿势估计、跟踪和分类任务【含源码】(1)
|
2月前
|
机器学习/深度学习 计算机视觉 Python
目标检测笔记(三):Mosaic数据增强完整代码和结果展示
本文介绍了Mosaic数据增强技术,通过将四张图片拼接成一张新图,极大丰富了目标检测的背景信息。文章提供了完整的Python代码,涵盖了如何处理检测框并调整其位置,以适应拼接后的图像。Mosaic技术不仅提高了学习效率,还在标准化BN计算时同时考虑了四张图片的数据,从而提升了模型的泛化能力。
131 1
|
7月前
|
机器学习/深度学习 数据采集 算法
大模型时代下的数据标注
大模型时代下的数据标注
264 2
大模型时代下的数据标注
|
7月前
|
机器学习/深度学习 编解码 并行计算
深度学习的图像超分技术综述-输入单张图像(SISR)和输入多张图像的基于参考的图像(RefSR)
深度学习的图像超分技术综述-输入单张图像(SISR)和输入多张图像的基于参考的图像(RefSR)
321 0
|
7月前
|
JSON 算法 Shell
【数据集】以人脸关键点为例讲解:如何通过开源项目快速制作关键点数据集
【数据集】以人脸关键点为例讲解:如何通过开源项目快速制作关键点数据集
139 0
|
7月前
|
机器学习/深度学习 数据处理 文件存储
使用Labelimg进行数据标注
数据标注是计算机视觉和机器学习项目中至关重要的一步,而使用工具进行标注是提高效率的关键。本文介绍了LabelImg,一款常用的开源图像标注工具。用户可以在图像中方便而准确地标注目标区域,为训练机器学习模型提供高质量的标注数据。LabelImg已经成为研究者和开发者在计算机视觉项目中不可或缺的工具之一。
222 0
|
算法 PyTorch 算法框架/工具
【DSW Gallery】基于YOLOX模型和iTAG标注数据的图像检测示例
EasyCV是基于Pytorch,以自监督学习和Transformer技术为核心的 all-in-one 视觉算法建模工具,并包含图像分类,度量学习,目标检测,姿态识别等视觉任务的SOTA算法。本文将为您介绍如何在PAI-DSW中使用EasyCV和PAI-iTAG标注的检测数据训练YOLOX模型。
【DSW Gallery】基于YOLOX模型和iTAG标注数据的图像检测示例