一周AI最火论文 | 还不敢出门逛街?史上最逼真虚拟试穿了解一下!

简介: 一周AI最火论文 | 还不敢出门逛街?史上最逼真虚拟试穿了解一下!

本周关键词:对象跟踪、虚假新闻检测、医学图像python库

本周最佳学术研究

用于细粒度伪新闻检测多模式基准数据集

新闻报道,社会圈子以及其他形式的信息消费中的虚假新闻传播日益增加,对社会文化产生了负面影响。

处理假新闻传播的一种方法是使用机器学习分类模型。但是,该方法缺乏全面且有效的数据集来进行假新闻研究检测的模型开发。

为了应对这一挑战,研究人员现已发布了一个新的虚假新闻检测数据集Fakeddit。该数据集来自多个子reddit,包含一百万个带有2向,3向和6向分类标签的样本,以及评论数据和元数据。
与以前的数据集不同,Fakeddit提供了大量带有多个标签的多峰样本,用于各种级别的细粒度分类。因此,它可以帮助将假新闻研究扩展到多模式空间,并允许研究人员开发更强大,更通用,更细粒度的假新闻检测系统。

这一数据集在假新闻研究中具有广泛的实用性,可进行高级别和细粒度的假新闻分类并可以应用在其他研究领域。

Github链接:https://github.com/entitize/fakeddit原文:https://arxiv.org/abs/1911.03854v2

用于医学图像有效加载,预处理,增强和基于补丁采样的深度学习Python库

本文介绍了TorchIO,这是一个开放源代码的Python库,用于在使用PyTorch编写的深度学习应用中进行有效读取,采样和写入3D医学图像,包括用于数据增强和预处理的强度和空间变换的一系列工具。

该库遵循PyTorch的设计,并依靠标准医学图像处理库(例如SimpleITK或NiBabel),在卷积神经网络上实现了有效处理大型3D图像。研究人员为医学图像的预处理和增强提供了多种通用以及磁共振成像的特定操作。

在训练CNN时,TorchIO可以有效地处理医学成像数据。它以深度学习框架PyTorch的样式进行设计,提供了医学成像特定功能,例如图像重新定向和MRI伪影仿真的数据增强等。

研究人员计划将预处理和扩增转换扩展到不同的医学成像模式,例如CT或US。他们期待通过GitHub或邮件获取反馈,功能请求以及对该库的贡献。

Github链接:https://github.com/fepegar/torchio原文:https://arxiv.org/abs/2003.04696v1

ReZero,满足你的一切所需:超级深度下的快速收敛

最近发布的这篇论文提出了ReZero(零初始化残差),这是一种简单的体系结构修改,可促进深度网络中的信号传播并帮助网络保持动态等距。研究人员将该技术应用于语言建模,发现他们可以轻松地在一百层上训练ReZero-Transformer网络。

即使在各个层的Jacobian值都消失了的情况下,架构修改也可以训练深度网络,例如ReLU激活功能或自我关注。该技术还允许我们向现有和经过训练的网络添加任意新的层。

研究人员能够有效地训练具有数百层结构的“变形金刚”,这对于原始体系结构来说是很难的。当应用于12层转换器时,ReZero在enwiki8上的收敛速度提高了56%。ReZero还可以应用于其他残差网络,使深度完全连接的网络融合速度变快15倍,而在CIFAR 10上接受培训的ResNet-56融合速度则提高了32%。

原文:

https://arxiv.org/abs/2003.04887v1


实时3D多对象跟踪器和新的大规模数据集

本文介绍了一种新型3D MOT系统JRMOT,它将2D RGB图像和3D点云的信息集成到实时执行框架中。该系统利用了基于神经网络的再识别以及2D和3D检测和描述符的先进性。

研究人员将其纳入多模态递归卡尔曼架构中的联合概率数据关联框架中,以实现在线实时3D MOT。

研究还提出了一个新的JRDB大规模2D + 3D数据集及基准,其中标注了超过200万个框和3500条一致的2D + 3D轨迹,经过了54个室内和室外场景。该数据集包含60分钟以上的数据,包括圆柱体360度RGB视频和3D点云。

JRMOT在著名的KITTI 2D MOT基准中达到了最先进的性能,并且在我们提供的JRDB数据集中表现出比现有3D MOT系统更好的性能。研究人员已经进行了初步的机器人实验来验证JRMOT的有效性。

此外,我们在社交机器人JackRabbot上的测试表明,该系统能够快速可靠地跟踪多个行人。

追踪器代码:https://sites.google.com/view/jrmot原文:https://arxiv.org/abs/2002.08397v2

走向真实的虚拟试穿

当试穿人的身体被大的物体和人体姿势遮挡时,生成逼真的试穿图像仍然是一个巨大的挑战。为了解决这个问题,本文提出了一种新的可视试穿网络,名为自适应内容生成和保留网络(ACGPN)。

ACGPN预测试穿后将更改的参考图像的语义布局,然后根据预测的语义布局确定是否需要生成或保留其图像内容,从而得到逼真的试穿效果和丰富的服装细节。然后,服装变形模块根据所生成的语义布局来改变服装图像。最后,用于内容融合的修复模块将所有信息(例如参考图像,语义布局和变形的衣服)整合在一起,以自适应地产生人体的每个语义部分。

研究人员在VITON数据集上对ACGPN进行了三个难度级别的试穿评估。结果表明,在定量指标、视觉质量和用户研究等方面,ACGPN均优于此前最先进的方法。

通过使用三个精心设计的模块,即遮罩生成模块(GMM)、服装变形模块(CWM)和内容融合模块(CFM),ACGPN可以生成具有更好的感知质量和更丰富细节的逼真图像。

原文:https://arxiv.org/abs/2003.05863v1

其他爆款论文

最新HOI检测mAP,用于HICO-DET数据集:https://arxiv.org/abs/2001.02302v3

关于机器学习在智能光学网络中应用的综合调查:https://arxiv.org/abs/2003.05290v1

级联人物体交互识别模型,在ICCV2019关联人员挑战赛的关系检测和细分任务中均排名第一:https://arxiv.org/abs/2003.04262v2

Gated2Depth框架的拓展——用于3D重建的门控图像不确定性深度估计:https://arxiv.org/abs/2003.05122v1

基于社交线索对可解释代理的最新现状回顾:https://arxiv.org/abs/2003.05251v1

AI大事件

AI或可消除定制化的设计需求,面对自动化你的工作安全吗?https://interestingengineering.com/ai-could-eliminate-the-need-for-custom-designs

算法可以检测感染,将COVID-19与普通流感区分开来https://onezero.medium.com/computer-scientists-are-building-algorithms-to-tackle-covid-19-f4ec40acdba0

Python是如何统治AI世界的https://insidebigdata.com/2020/03/13/the-impact-of-python-how-it-could-rule-the-ai-world/

微软研究人员与来自十二家科技公司的ML从业人员创建了AI伦理清单https://venturebeat.com/2020/03/10/microsoft-researchers-create-ai-ethics-checklist-with-ml-practitioners-from-a-dozen-tech-companies/?utm_campaign=AI%20Weekly&utm_medium=email&utm_source=Revue%20newsletter

如何在2020年成为数据科学家

https://insidebigdata.com/2020/03/14/infographic-how-to-become-a-data-scientist-in-2020/



相关文章
|
4月前
|
人工智能 API 数据安全/隐私保护
近期非常风靡非常逼真的AI视频内容由sora生成的视频是怎么回事?-优雅草卓伊凡
近期非常风靡非常逼真的AI视频内容由sora生成的视频是怎么回事?-优雅草卓伊凡
1133 12
近期非常风靡非常逼真的AI视频内容由sora生成的视频是怎么回事?-优雅草卓伊凡
|
4月前
|
人工智能 物联网 调度
边缘大型AI模型:协作部署与物联网应用——论文阅读
论文《边缘大型AI模型:协作部署与物联网应用》系统探讨了将大模型(LAM)部署于边缘网络以赋能物联网的前沿框架。针对传统云端部署高延迟、隐私差的问题,提出“边缘LAM”新范式,通过联邦微调、专家混合与思维链推理等技术,实现低延迟、高隐私的分布式智能。
891 6
边缘大型AI模型:协作部署与物联网应用——论文阅读
|
10月前
|
人工智能 数据可视化 数据挖掘
AI竟能独立完成顶会论文!The AI Scientist-v2:开源端到端AI自主科研系统,自动探索科学假设生成论文
The AI Scientist-v2 是由 Sakana AI 等机构开发的端到端自主科研系统,通过树搜索算法与视觉语言模型反馈实现科学假设生成、实验执行及论文撰写全流程自动化,其生成论文已通过国际顶会同行评审。
723 34
AI竟能独立完成顶会论文!The AI Scientist-v2:开源端到端AI自主科研系统,自动探索科学假设生成论文
|
10月前
|
人工智能 Linux iOS开发
音乐人必看!OpenUtau:开源AI歌声合成神器,快速打造专业级虚拟歌手,中文日文无缝切换
OpenUtau是一款开源的歌声合成工具,兼容UTAU音源库和重采样器,支持多语言界面及预渲染功能,让音乐创作更加高效便捷。
3020 15
音乐人必看!OpenUtau:开源AI歌声合成神器,快速打造专业级虚拟歌手,中文日文无缝切换
|
5月前
|
机器学习/深度学习 人工智能 资源调度
智能家居环境中的AI决策解释:实现以人为中心的可解释性——论文阅读
本文探讨智能家居中AI决策的可解释性,提出以人为中心的XAI框架。通过SHAP、DeepLIFT等技术提升模型透明度,结合用户认知与需求,构建三层解释体系,增强信任与交互效能。
405 19
智能家居环境中的AI决策解释:实现以人为中心的可解释性——论文阅读
|
10月前
|
机器学习/深度学习 人工智能 自然语言处理
还在想开题报告?SurveyGO卷姬:清华开源学术论文AI写作神器,一键生成文献综述
SurveyGO是清华与面壁智能联合开源的AI论文写作工具,采用LLMxMapReduce-V2技术实现文献智能聚合,能根据用户输入主题快速生成结构严谨、引用可靠的学术综述。
1361 1
还在想开题报告?SurveyGO卷姬:清华开源学术论文AI写作神器,一键生成文献综述
|
11月前
|
人工智能 自然语言处理 机器人
今日AI论文推荐:ReCamMaster、PLADIS、SmolDocling、FlowTok
由浙江大学、快手科技等机构提出的ReCamMaster是一个相机控制的生成式视频重渲染框架,可以使用新的相机轨迹重现输入视频的动态场景。该工作的核心创新在于利用预训练的文本到视频模型的生成能力,通过一种简单但强大的视频条件机制。为克服高质量训练数据的稀缺问题,研究者使用虚幻引擎5构建了一个全面的多相机同步视频数据集,涵盖多样化的场景和相机运动。
579 2
今日AI论文推荐:ReCamMaster、PLADIS、SmolDocling、FlowTok
|
5月前
|
机器学习/深度学习 资源调度 算法框架/工具
AI-ANNE: 将神经网络迁移到微控制器的深度探索——论文阅读
AI-ANNE框架探索将深度学习模型迁移至微控制器的可行路径,基于MicroPython在Raspberry Pi Pico上实现神经网络核心组件,支持本地化推理,推动TinyML在边缘设备中的应用。
327 10
|
5月前
|
人工智能 算法 开发者
2025年高教社杯E题——AI 辅助智能体测全国大学生数学建模(思路、代码、论文)
2025年高教社杯E题——AI 辅助智能体测全国大学生数学建模(思路、代码、论文)
538 1
|
11月前
|
人工智能 安全 测试技术
本周 AI Benchmark 方向论文推荐
由北京大学和微软亚洲研究院的魏李等人提出的 FEA-Bench,是一个专为评估大型语言模型(LLMs)在代码库级别进行增量开发能力的基准测试。它从 83 个 GitHub 仓库中收集了 1,401 个任务实例,专注于新功能的实现。研究表明,即使是先进的 LLMs 在此任务中的表现仍远低于预期,揭示了仓库级代码开发的重大挑战。
612 0