一周AI最火论文 | 分离听不清的七嘴八舌,只需一张面部快照

简介: 一周AI最火论文 | 分离听不清的七嘴八舌,只需一张面部快照

本周关键词:GANs、Julia+R、AI数据库

本周最火学术研究

FaR-GAN单次面部重现

随着生成模型,尤其是生成对抗网络(GAN),在计算机视觉中的快速发展,人们越来越关注具有挑战性的任务,例如生成逼真的照片,图像到图像翻译,文本到图像翻译以及超分辨率等。

面部重现是这些具有挑战性的任务之一,它需要对面部的几何形状和运动进行3D建模。它在图像编辑,增强和交互式系统中具有许多应用,例如使用自然的人体姿势/表情为屏幕上的主体设置动画。

这篇文章在以下几个方面做出了贡献:

开发一种基于GAN的方法,解决单次面部重现的任务
所提出的的FaR-GAN能够组合外观和表情信息进行有效的面部建模
与对照方法相比,通过本方法产生的重新成像图像具有更高的图像质量

原文:
https://arxiv.org/pdf/2005.06402v1.pdf

JuliaConnectoR:将Julia集成到R中

就像许多考虑使用新编程语言Julia的小组一样,一些程序员也面临着从R访问他们在Julia中开发的算法的挑战。为解决此问题,他们开发了R包JuliaConnectoR。

为了可维护性和稳定性,他们基于TCP,使用优化的二进制格式交换数据。该软件包还专门包含允许在R中方便交互使用的功能。这便于使用Julia轻松开发R扩展或简单地从R中调取Julia软件包。

通过其面向功能的设计,JuliaConnectoR避免了在R工作区中不可见的Julia状态,从而实现了简洁的编程风格。研究人员通过代码示例进一步说明了程序包的功能,并讨论了相比替代程序包JuliaCall和XRJulia的优势。最后,通过使用备受关注的最新深度学习技术领域的神经常微分方程,他们用更广泛的示例来演示了该程序包的用法。该示例还为将Julia的深度学习技术集成到R中提供了更普遍的指导。

Github:
https://github.com/stefan-m-lenz/JuliaConnectoR
原文:
https://arxiv.org/abs/2005.06334v1

实现视听语音分离,你只需要一张静止图像

韩国研究人员在本文中提出了一种新的视听语音增强方法,该方法可以通过使用面部图像表示的条件嵌入,将特定说话者与其他说话者同时产生的语音隔离开来。

与使用视频剪辑上的嘴唇移动或预先注册的演讲者信息作为辅助条件的传统方法不同,该方法只需要目标演讲者的单幅面部图像。

通过自我监督,可以从潜在空间中的面部图像检索说话者,然后将其用于调节语音增强网络。这种方法克服了纯音频源分离中不可避免的置换问题,并始终根据目标身份重建语音。实验结果证实了其在语音增强任务上的有效性。

视频示例:
https://www.youtube.com/watch?v=ku9xoLh62E4&feature=youtu.be
原文:
https://arxiv.org/abs/2005.07074v1

Google AI:发布大型AI数据库

Google AI日前发布了一个大型数据库,这将很有可能成为训练和评估模型的新基准。这个复合型数据集由各种数据集组成,并提出了更为现实的任务。它由10个可公开获得的自然图像(包括ImageNet,CUB-200-2011,Fungi等)、手写字符和涂鸦数据集组成。

这个项目的研究人员尝试了流行的基准和大型数据集上的元学习,以及他们其中的的对抗性方法。他们根据测试任务的各种特征来分析性能,并检查模型利用各种多样化的数据来改善其概括性的能力。他们还提出了一组新的基线,用于增强量化元数据集中的元学习。经过广泛的研究和实验,他们发现了具有重要价值的方向性难点,适用于未来的研究。

演示如何在TensorFlow和PyTorch中使用元数据集的笔记本可以在此处访问:
https://github.com/google-research/meta-dataset/blob/master/Intro_to_Metadataset.ipynb

代码:
https://storage.googleapis.com/meta-dataset-source-code/meta-dataset-iclr2020.tar.gz

原文:
https://openreview.net/attachment?id=rkgAGAVKPr&name=original_pdf

一个通用文本解析模型的软件工具包

此工具包由jiant于3月首次推出,是一种开源工具包,适用于对英语NLU任务进行多任务和转移学习实验。Jiant在最近进行了更新,新版本中提供了一个配置驱动的界面,该界面使用一组包含50多种NLU任务,混合最有效的句子编码器模型以及多任务、多阶段的训练方法,来定义转换学习、演示学习实验等。

此外,开发人员证明了jiant拥有能够实现各种NLU任务上较优的性能。jiant的任务和句子编码器组件的模块化设计,使得用户无需编辑源代码即可快速轻松地尝试大量任务,模型和参数的配置。

jiant的设计还使添加新任务变得容易,并且它的体系结构使扩展jiant来支持新的句子编码器变得更简单。研究人员还证明了,jiant可以在BERT和RoBERTa等各种任务和模型里,实现较优的性能。

jiant代码是开源的,他们邀请贡献者在Github上的jiant项目库中,提交问题或申请提交代码修复问题:
https://github.com/nyu-mll/jiant
原文:
https://arxiv.org/abs/2003.02249v2

其他爆款论文

一个生物医学机器阅读理解的数据库,BIOMRC:
https://arxiv.org/abs/2005.06376v1

一种开放式机器人学习方法, DREAM架构:
https://arxiv.org/abs/2005.06223v1

人工智能和机器人应用中行为树的综合研究:
https://arxiv.org/abs/2005.05842v2

S2IGAN:通过对抗性学习生成语音到图像:
https://arxiv.org/abs/2005.06968v1

规范可能无法解释的深度学习中隐式正则化:
https://arxiv.org/abs/2005.06398v1

AI大事件

全球最复杂的主板,安培(Ampere)为大型AI模型提供动能:
https://www.zdnet.com/article/nvidias-ampere-plus-worlds-most-complex-motherboard-will-fuel-gigantic-ai-models/

Kite开发的的AI自动代码完成工具,现已适用于更多语言:
https://www.zdnet.com/article/javascript-programming-language-developers-this-is-kites-new-free-ai-code-completion-tool/

索尼:创建世界上第一个内置AI的图像传感器:
https://www.bloomberg.com/news/articles/2020-05-14/sony-builds-ai-into-latest-image-sensor

NVIDIA最新的AI超级计算机加入了对抗COVID-19大军:
https://www.engadget.com/nvidia-gtc-2020-ai-health-covid-19-130031390.html

Adobe的Experience Cloud推出了新的智能服务,旨在帮助企业使用AI对数据集进行预测建模:
https://www.zdnet.com/article/adobe-intros-new-intelligent-services-for-experience-cloud/

相关文章
|
4月前
|
人工智能 物联网 调度
边缘大型AI模型:协作部署与物联网应用——论文阅读
论文《边缘大型AI模型:协作部署与物联网应用》系统探讨了将大模型(LAM)部署于边缘网络以赋能物联网的前沿框架。针对传统云端部署高延迟、隐私差的问题,提出“边缘LAM”新范式,通过联邦微调、专家混合与思维链推理等技术,实现低延迟、高隐私的分布式智能。
891 6
边缘大型AI模型:协作部署与物联网应用——论文阅读
|
10月前
|
人工智能 数据可视化 数据挖掘
AI竟能独立完成顶会论文!The AI Scientist-v2:开源端到端AI自主科研系统,自动探索科学假设生成论文
The AI Scientist-v2 是由 Sakana AI 等机构开发的端到端自主科研系统,通过树搜索算法与视觉语言模型反馈实现科学假设生成、实验执行及论文撰写全流程自动化,其生成论文已通过国际顶会同行评审。
723 34
AI竟能独立完成顶会论文!The AI Scientist-v2:开源端到端AI自主科研系统,自动探索科学假设生成论文
|
5月前
|
机器学习/深度学习 人工智能 资源调度
智能家居环境中的AI决策解释:实现以人为中心的可解释性——论文阅读
本文探讨智能家居中AI决策的可解释性,提出以人为中心的XAI框架。通过SHAP、DeepLIFT等技术提升模型透明度,结合用户认知与需求,构建三层解释体系,增强信任与交互效能。
404 19
智能家居环境中的AI决策解释:实现以人为中心的可解释性——论文阅读
|
10月前
|
机器学习/深度学习 人工智能 自然语言处理
还在想开题报告?SurveyGO卷姬:清华开源学术论文AI写作神器,一键生成文献综述
SurveyGO是清华与面壁智能联合开源的AI论文写作工具,采用LLMxMapReduce-V2技术实现文献智能聚合,能根据用户输入主题快速生成结构严谨、引用可靠的学术综述。
1361 1
还在想开题报告?SurveyGO卷姬:清华开源学术论文AI写作神器,一键生成文献综述
|
11月前
|
人工智能 自然语言处理 机器人
今日AI论文推荐:ReCamMaster、PLADIS、SmolDocling、FlowTok
由浙江大学、快手科技等机构提出的ReCamMaster是一个相机控制的生成式视频重渲染框架,可以使用新的相机轨迹重现输入视频的动态场景。该工作的核心创新在于利用预训练的文本到视频模型的生成能力,通过一种简单但强大的视频条件机制。为克服高质量训练数据的稀缺问题,研究者使用虚幻引擎5构建了一个全面的多相机同步视频数据集,涵盖多样化的场景和相机运动。
579 2
今日AI论文推荐:ReCamMaster、PLADIS、SmolDocling、FlowTok
|
5月前
|
机器学习/深度学习 资源调度 算法框架/工具
AI-ANNE: 将神经网络迁移到微控制器的深度探索——论文阅读
AI-ANNE框架探索将深度学习模型迁移至微控制器的可行路径,基于MicroPython在Raspberry Pi Pico上实现神经网络核心组件,支持本地化推理,推动TinyML在边缘设备中的应用。
327 10
|
5月前
|
人工智能 算法 开发者
2025年高教社杯E题——AI 辅助智能体测全国大学生数学建模(思路、代码、论文)
2025年高教社杯E题——AI 辅助智能体测全国大学生数学建模(思路、代码、论文)
538 1
|
11月前
|
人工智能 安全 测试技术
本周 AI Benchmark 方向论文推荐
由北京大学和微软亚洲研究院的魏李等人提出的 FEA-Bench,是一个专为评估大型语言模型(LLMs)在代码库级别进行增量开发能力的基准测试。它从 83 个 GitHub 仓库中收集了 1,401 个任务实例,专注于新功能的实现。研究表明,即使是先进的 LLMs 在此任务中的表现仍远低于预期,揭示了仓库级代码开发的重大挑战。
612 0
|
10月前
|
人工智能 自然语言处理 算法
科研论文翻译神器!BabelDOC:开源AI工具让PDF论文秒变双语对照,公式图表全保留
BabelDOC 是一款专为科学论文设计的开源AI翻译工具,采用先进的无损解析技术和智能布局识别算法,能完美保留原文格式并生成双语对照翻译。
2700 67
科研论文翻译神器!BabelDOC:开源AI工具让PDF论文秒变双语对照,公式图表全保留
|
10月前
|
机器学习/深度学习 人工智能 JSON
这个AI把arXiv变成代码工厂,快速复现顶会算法!Paper2Code:AI论文自动转代码神器,多智能体框架颠覆科研复现
Paper2Code是由韩国科学技术院与DeepAuto.ai联合开发的多智能体框架,通过规划、分析和代码生成三阶段流程,将机器学习论文自动转化为可执行代码仓库,显著提升科研复现效率。
1350 19
这个AI把arXiv变成代码工厂,快速复现顶会算法!Paper2Code:AI论文自动转代码神器,多智能体框架颠覆科研复现