Reddit热议:轻量型视频理解+动作识别的开源框架Sense火热出炉

简介: 不需要姿态估计、骨架追踪,仅靠端到端深度学习,即可实现视频理解和行为识别——获得微软1000万美元融资后,初创公司Twentybn推出最新推理工具Sense,集合数据处理、模型训练等多种功能一体,帮你实现诸如手势识别,健身跟踪,健身重复计数器和卡路里计算等多种任务!

微信图片_20220112140301.png


本周,来自初创公司Twentybn的研究人员在Reddit上发布了一则帖子,获得了广泛关注:


帖子中记录道,Twentybn的研究团队最近发明了一个名为Sense的推理框架,使用Sense,在不需要姿态估计、骨架追踪的情况下,仅靠端到端的深度学习,开发人员就可以使用RGB摄像头来预测人类的行为。


官方给出的范例包括了手势识别,健身跟踪,卡路里计算等任务。


研究人员表示,他们正在努力使Sense成为集收集和清理视频数据、训练强大且高效的视频分类器功能、并能部署到任何设备(iOS和Android)上的一体化工具包。


微信图片_20220112140303.png


致力于帮助AI学习解释人类行为,TwentyBN目标远大


TwentyBN是一家在柏林和加拿大设有办事处的创业公司,2018年,它筹集了由微软风险基金M12领导的1000万美元资金,主要用于帮助AI学习解释人类行为。


首席执行官兼首席科学家Roland Memisevic表示,公司将利用新资本扩大业务规模。


微信图片_20220112140306.png


“从成立的第一天起,我们一直致力于将AI和交互式计算机视觉领域数十年的进步推向世界的每个角落,无论是家庭,办公室,商店还是机器人的大脑。”


TwentyBN的新型计算机视觉系统可以只使用现成的RGB相机观察人类,并与他们互动。它的AI不仅能响应基本行为,还考虑到每个参与的环境和背景,提供类似人类的情境意识。


Memisevic认为,虽然AI图像分类系统非常适合检测物体,但它们并不接近人类自治。他说,真正认知理解的关键在于能够理解行动。


TwentyBN技术的核心是一个众包的视频剪辑数据库,TwentyBN称,该数据库是同类中最大的。多年来,它从一个志愿者网络中采购了大约200万个片段,这些片段已经演出了数十万个场景,其中一个场景是免费提供的。


其“Something Something”数据集包括人们使用日常对象执行的基本操作,其Jester数据集显示人类在网络摄像头前执行预定义的手势。在数据集上训练的精密机器学习模型可以为汽车、智能家居和零售应用提供无触点、基于手势的界面。


模型SuperModel可以检测身体动作和人与物体的相互作用。手势识别模型则可以识别30多个动态的手部动作,并在空中追踪手指的运动。


客户通过与各种平台兼容的软件开发工具包来利用这些模型,包括Docker,RIS,Vuforia和Wikitude。在AirMouse和手势识别的情况下,它们与各种硬件兼容,包括嵌入式系统,台式机和移动设备。


免费提供预训练参数,多个demo任你跑


这款推理工具已经包含了预训练参数,现可供大家免费下载:


微信图片_20220112140308.png


下载地址:


https://20bn.com/licensing/sdk/evaluation


Sense中的模型规模小、效率高、在CPU上运行平稳。使用官方提供的预训练参数,大家可以运行诸如手势识别,健身跟踪,健身重复计数器和卡路里计算的demo。


微信图片_20220112140310.png


图:手势识别



图:健身追踪器和卡路里计算


此外,用户还可以使用这些权重参数,在自己的视频分类器上进行迁移学习,并根据自己的用例自定义模型。


该项目的Github页面还附上了相关操作和使用的全部说明和指南:


微信图片_20220112140314.png


Github地址:https://github.com/TwentyBN/sense


感兴趣的小伙伴可以前去试一试!


参考链接:


https://www.reddit.com/r/MachineLearning/comments/ld8yjz/p_sense_open_source_framework_for_video/

相关文章
|
5天前
|
人工智能 知识图谱
成熟的AI要学会自己搞研究!MIT推出科研特工
MIT推出科研特工SciAgents,结合生成式AI、本体表示和多代理建模,实现科学发现的自动化。通过大规模知识图谱和多代理系统,SciAgents能探索新领域、识别复杂模式,加速新材料发现,展现跨学科创新潜力。
27 12
|
3月前
|
人工智能 搜索推荐 前端开发
MindSearch技术详解,本地搭建媲美Perplexity的AI思·索应用!
MindSearch是书生·浦语团队提出的AI搜索框架,基于InternLM2.5 7B模型,采用multi-agent框架模拟人类思维,先规划再搜索,提高信息搜集的准确性和完整性。
|
自然语言处理 测试技术 编译器
社区供稿 | 姜子牙大模型开源代码大模型Ziya-Coding-34B-v1.0 再创榜单新高,魔搭开源可体验!
使用自然语言生成高质量的代码是大模型落地中的高频需求。近日,IDEA研究院封神榜团队正式开源最新的代码大模型Ziya-Coding-34B-v1.0,我们在HumanEval Pass@1的评测上,取得了75.5的好成绩,超过了GPT-4(67.0)的得分,也成为目前已知开源模型新高。
|
机器学习/深度学习 人工智能 搜索推荐
AI歌手:新晋挑战者还是未来主流的替代者?
AI歌手:新晋挑战者还是未来主流的替代者?
|
机器学习/深度学习 人工智能 算法
WAIC开发者日Workshop预告:华为昇思MindSpore基础模型创新实践
WAIC开发者日Workshop预告:华为昇思MindSpore基础模型创新实践
173 0
|
人工智能 自然语言处理 大数据
王炸!微软发布Visual ChatGPT:视觉模型加持ChatGPT实现丝滑聊天 大数据文摘
王炸!微软发布Visual ChatGPT:视觉模型加持ChatGPT实现丝滑聊天 大数据文摘
148 0
|
机器学习/深度学习 编解码 人工智能
北大&港大 CVPR 力作 | ESRT: 集轻量高效于一体的单图超分网络
北大&港大 CVPR 力作 | ESRT: 集轻量高效于一体的单图超分网络
736 0