在使用DAMO-YOLO-T.onnx模型进行C#推理时,输入为640x640像素的RGB图像,输出的float32[1,8400,80]和float32[1,8400,4]是否分别表示识别概率和边界框坐标?此外,ModelScope llama.cpp是否支持GGUF格式的小尺寸模型,并且为何模型会多次识别同一物体?
https://github.com/tinyvision/DAMO-YOLO/blob/master/README_cn.md
根据您提供的信息,DAMO-YOLO-T.onnx模型在C#中的推理结果是正确的。float32[1,8400,80]表示有8400个预测结果,每个结果包含80个类别的概率值。float32[1,8400,4]表示有8400个预测结果,每个结果包含x、y、w、h的坐标值。
关于同一个物体被多次识别的问题,这可能是由于模型对同一物体的不同部分或不同角度产生了多个检测结果。这在目标检测任务中是常见的现象,因为模型需要在不同的位置和尺度上找到目标。为了解决这个问题,您可以使用非极大值抑制(NMS)来消除重复的检测框,只保留最有可能包含目标的检测框。