备案控制台

开发者社区 > ModelScope模型即服务 > 计算机视觉 > 正文

ModelScope llama.cpp是否支持GGUF格式的小尺寸模型？

在使用DAMO-YOLO-T.onnx模型进行C#推理时，输入为640x640像素的RGB图像，输出的float32[1,8400,80]和float32[1,8400,4]是否分别表示识别概率和边界框坐标？此外，ModelScope llama.cpp是否支持GGUF格式的小尺寸模型，并且为何模型会多次识别同一物体？
https://github.com/tinyvision/DAMO-YOLO/blob/master/README_cn.md

展开

收起

小小爱吃香菜 2024-01-09 18:59:51 124 0

1 条回答

写回答

取消提交回答

小周sir

面对过去，不要迷离；面对未来，不必彷徨；活在今天，你只要把自己完全展示给别人看。

根据您提供的信息，DAMO-YOLO-T.onnx模型在C#中的推理结果是正确的。float32[1,8400,80]表示有8400个预测结果，每个结果包含80个类别的概率值。float32[1,8400,4]表示有8400个预测结果，每个结果包含x、y、w、h的坐标值。

关于同一个物体被多次识别的问题，这可能是由于模型对同一物体的不同部分或不同角度产生了多个检测结果。这在目标检测任务中是常见的现象，因为模型需要在不同的位置和尺度上找到目标。为了解决这个问题，您可以使用非极大值抑制（NMS）来消除重复的检测框，只保留最有可能包含目标的检测框。

2024-01-13 19:40:20

赞同展开评论打赏

相关问答

modelscope下载的模型如何转ollama

863

1

0

modelscope-funasr的infer的时候input输入bytes类型，报错了，怎么解决？

48

1

0

modelscope-funasr的SenseVoice 模型时间戳什么时候能支持？

120

0

0

在modelscope-funasr中请问vad模型是只能用16k采样率的音频吗？

56

0

0

"ModelScope 上面有能用的 llama3.0或llama3.1的中文模型吗？"

46

1

0

ModelScope中，florence2模型微调时，数据集格式是不是"query"？

66

1

0

ModelScope中，以本地模型为原型训练模型怎么实现，能用.gguf格式的模型训练吗？

44

1

0

ModelScope的llama3.1模型训练XML格式的OpenDrive文件效果不理想，怎么办？

26

0

0

ModelScope是不是json里面每一行，按照这个格式就行了？

31

1

0

modelscope-funasr内网环境（连不了公网）下，自己下载了模型权重的pt文件，怎么使用？

66

0

0

ModelScope模型即服务

计算机视觉

包含图像分类、图像生成、人体人脸识别、动作识别、目标分割、视频生成、卡通画、视觉评价、三维视觉等多个领域

我要提问

热门讨论

热门文章

com/action/joingroup?code=v1是什么意思

ModelScope中，模型下载默认路径在哪个路径？

ModelScope有没有人知道windows安装ttsfrd的方法或者ttsfrd源码？

请问在 ModelScope 上的模型断网使用报这个错误啥原因了?

我希望通过damo-YOLO训练1500*1500的图片

服务器上onnxruntime-gpu 调用结束，如何释放显存

ModelScope下载速度慢怎么解决？

ModelScope中，大佬们4卡跑lora时，遇到这样的错，怎么解决？

我想使用 Modelscope 自己下载下来的本地模型，不知道怎么操作？

modelscope cache 环境变量是啥？

展开全部

EchoMimicV2：阿里推出的开源数字人项目，能生成完整数字人半身动画

每个人都可以成为虚拟主播，一键创建属于你的虚拟形象，RAIN 为你实时生成逼真动画角色

SVFR：全能视频人脸修复框架，支持提升清晰度、色彩填充和缺失补全等图像修复任务

VideoRefer：阿里达摩院开源视频对象感知与推理框架，可集成 VLLM 提升其空间和时间理解能力

SPAR3D：一张图片就能生成3D模型，每个物体的重建时间仅需0.7秒！

LatentSync：根据音频生成高分辨率、动态逼真的唇形同步视频

STAR：南京大学联合字节开源视频超分辨率增强生成框架，视频清晰度一键提升，支持从低分辨率视频生成高分辨率视频

Cobalt：开源的流媒体下载工具，支持解析和下载全平台的视频、音频和图片，支持多种视频质量和格式，自动提取视频字幕

X-AnyLabeling：开源的 AI 图像标注工具，支持多种标注样式，适于目标检测、图像分割等不同场景

TransPixar：港中文联合 Adobe 开源透明背景视频生成模型，生成透明背景的 RGBA 视频，助力特效等视觉效果制作

展开全部

相关课程

更多

个性化语音合成模型微调

261

1

去学习

ModelScope社区Library技术架构介绍

229

1

去学习

相关电子书

更多

视觉AI能力的开放现状及ModelScope实战 立即下载

ModelScope助力语音AI模型创新与应用 立即下载

低代码开发师（初级）实战教程 立即下载