Reddit热议:轻量型视频理解+动作识别的开源框架Sense火热出炉

简介: 不需要姿态估计、骨架追踪,仅靠端到端深度学习,即可实现视频理解和行为识别——获得微软1000万美元融资后,初创公司Twentybn推出最新推理工具Sense,集合数据处理、模型训练等多种功能一体,帮你实现诸如手势识别,健身跟踪,健身重复计数器和卡路里计算等多种任务!

微信图片_20220112140301.png


本周,来自初创公司Twentybn的研究人员在Reddit上发布了一则帖子,获得了广泛关注:


帖子中记录道,Twentybn的研究团队最近发明了一个名为Sense的推理框架,使用Sense,在不需要姿态估计、骨架追踪的情况下,仅靠端到端的深度学习,开发人员就可以使用RGB摄像头来预测人类的行为。


官方给出的范例包括了手势识别,健身跟踪,卡路里计算等任务。


研究人员表示,他们正在努力使Sense成为集收集和清理视频数据、训练强大且高效的视频分类器功能、并能部署到任何设备(iOS和Android)上的一体化工具包。


微信图片_20220112140303.png


致力于帮助AI学习解释人类行为,TwentyBN目标远大


TwentyBN是一家在柏林和加拿大设有办事处的创业公司,2018年,它筹集了由微软风险基金M12领导的1000万美元资金,主要用于帮助AI学习解释人类行为。


首席执行官兼首席科学家Roland Memisevic表示,公司将利用新资本扩大业务规模。


微信图片_20220112140306.png


“从成立的第一天起,我们一直致力于将AI和交互式计算机视觉领域数十年的进步推向世界的每个角落,无论是家庭,办公室,商店还是机器人的大脑。”


TwentyBN的新型计算机视觉系统可以只使用现成的RGB相机观察人类,并与他们互动。它的AI不仅能响应基本行为,还考虑到每个参与的环境和背景,提供类似人类的情境意识。


Memisevic认为,虽然AI图像分类系统非常适合检测物体,但它们并不接近人类自治。他说,真正认知理解的关键在于能够理解行动。


TwentyBN技术的核心是一个众包的视频剪辑数据库,TwentyBN称,该数据库是同类中最大的。多年来,它从一个志愿者网络中采购了大约200万个片段,这些片段已经演出了数十万个场景,其中一个场景是免费提供的。


其“Something Something”数据集包括人们使用日常对象执行的基本操作,其Jester数据集显示人类在网络摄像头前执行预定义的手势。在数据集上训练的精密机器学习模型可以为汽车、智能家居和零售应用提供无触点、基于手势的界面。


模型SuperModel可以检测身体动作和人与物体的相互作用。手势识别模型则可以识别30多个动态的手部动作,并在空中追踪手指的运动。


客户通过与各种平台兼容的软件开发工具包来利用这些模型,包括Docker,RIS,Vuforia和Wikitude。在AirMouse和手势识别的情况下,它们与各种硬件兼容,包括嵌入式系统,台式机和移动设备。


免费提供预训练参数,多个demo任你跑


这款推理工具已经包含了预训练参数,现可供大家免费下载:


微信图片_20220112140308.png


下载地址:


https://20bn.com/licensing/sdk/evaluation


Sense中的模型规模小、效率高、在CPU上运行平稳。使用官方提供的预训练参数,大家可以运行诸如手势识别,健身跟踪,健身重复计数器和卡路里计算的demo。


微信图片_20220112140310.png


图:手势识别



图:健身追踪器和卡路里计算


此外,用户还可以使用这些权重参数,在自己的视频分类器上进行迁移学习,并根据自己的用例自定义模型。


该项目的Github页面还附上了相关操作和使用的全部说明和指南:


微信图片_20220112140314.png


Github地址:https://github.com/TwentyBN/sense


感兴趣的小伙伴可以前去试一试!


参考链接:


https://www.reddit.com/r/MachineLearning/comments/ld8yjz/p_sense_open_source_framework_for_video/

相关文章
|
编解码
STM32:PWM驱动舵机(内含:1.接线原理图/实物图+2.代码部分+3.补充知识部分)
STM32:PWM驱动舵机(内含:1.接线原理图/实物图+2.代码部分+3.补充知识部分)
2996 1
STM32:PWM驱动舵机(内含:1.接线原理图/实物图+2.代码部分+3.补充知识部分)
|
编解码 前端开发 算法
基于OpenCV的双目摄像头测距(误差小)
首先进行双目摄像头定标,获取双目摄像头内部的参数后,进行测距;本文的双目视觉测距是基于BM算法。注意:双目定标的效果会影响测距的精准度,建议大家在做双目定标时,做好一些(尽量让误差小)。
12361 3
基于OpenCV的双目摄像头测距(误差小)
|
自动驾驶 5G
5G技术中的时分双工(TDD)与频分双工(FDD)的应用区别
5G技术中的时分双工(TDD)与频分双工(FDD)的应用区别
2487 63
|
存储 SQL 安全
【绝密攻略】Flask应用如何抵御黑客入侵?七大安全技巧助你构建固若金汤的Web防线!
【8月更文挑战第31天】安全性是Web应用开发中的关键部分。Flask作为一款轻量级且高度可定制的框架,虽灵活但需开发者确保应用安全。本文介绍如何通过具体措施加固Flask应用,包括更新依赖项、启用CSRF保护、使用HTTPS、安全存储密码、防止SQL注入及清理用户输入等。通过示例代码展示如何在实际开发中应用这些策略,帮助提升应用安全性,为用户提供更可靠的服务。
604 0
|
存储 SQL 算法
跑批为什么这么难
业务系统产生的明细数据需经加工处理以支持企业经营,此过程称作“跑批”,常在夜间进行以免影响生产系统。跑批任务涉及大量数据及复杂计算,导致耗时较长。开源计算引擎SPL可直接基于文件系统计算,提供更优算法与存储机制,显著提升跑批效率。例如,L银行贷款协议跑批任务从2小时缩短至10分钟,性能提高12倍;P保险公司车险业务的历史保单关联任务从近2小时缩短至17分钟,速度提升近7倍;T银行贷款跑批任务提速204倍。
|
JavaScript 程序员
Vue学习之--------组件嵌套以及VueComponent的讲解(代码实现)(2022/7/23)
这篇文章通过代码示例和效果图,详细阐述了Vue中组件的嵌套使用,包括创建组件、组件间的嵌套、注册组件以及实现的效果。同时,文章还介绍了VueComponent的相关知识,包括组件实例对象和Vue实例对象的区别。
Vue学习之--------组件嵌套以及VueComponent的讲解(代码实现)(2022/7/23)
|
数据可视化 计算机视觉 Python
活体检测眨眼、张嘴、点头、摇头动作一网打尽:人脸面部活体检测系统【含Python源码+PyqtUI界面+原理详解】
活体检测眨眼、张嘴、点头、摇头动作一网打尽:人脸面部活体检测系统【含Python源码+PyqtUI界面+原理详解】
|
机器学习/深度学习 数据采集 算法
利用scikit-learn进行时间序列预测
【4月更文挑战第17天】本文介绍了如何使用Scikit-learn进行时间序列预测,涉及数据预处理(如缺失值填充、平滑和特征提取)、模型选择(线性回归、SVM、随机森林等)、模型评估与优化(如MSE、RMSE、MAE作为评估指标,超参数优化和模型融合)。Scikit-learn为时间序列预测提供了强大支持,但实际应用需结合问题需求和数据特性。未来可探索深度学习在此领域的应用。
|
JSON API 数据格式
使用Python 获取天气数据
使用Python 获取天气数据
556 2
|
IDE Java 开发工具
推荐10款实用且颜值高的在线代码编辑器
推荐10款实用且颜值高的在线代码编辑器
711 0