一周AI最火论文 | 讲讲话就能控制UI界面上网冲浪?

简介: 一周AI最火论文 | 讲讲话就能控制UI界面上网冲浪?

本周关键词:机器学习安全性、数据编程、对象再识别

本周最佳学术研究

提升机器学习系统的安全性:了解如何保护机器学习模型

对于任何软件系统来说安全性都至关重要,这也包括机器学习(ML)模型,因为人们可以通过对抗性示例轻松地适应从而攻击该模型。

现在研究界对于探索和发现对抗性攻击已经有了许多文献和复杂的算法,并提出了一些有可能实施的防御措施。例如,近日一些研究人员发表的这篇论文:机器学习究竟在网络安全领域中处于什么位置?

论文链接:
https://medium.com/ai%C2%B3-theory-practice-business/where-does-machine-learning-stand-in-cyber-security-670e3fe1cda2

但是,根据与华盛顿大学合作和Microsoft Research的一组研究人员的说法,之前对于ML模型安全性的研究大多数的研究对象都是独立的神经网络模型。

在这份最新的研究报告中,研究人员们评估了大规模部署的ML软件产品的安全性,希望能够扩大这一领域的研究范围,从而提供一个从系统安全性视角出发改进现有软件产品的方法。它们描述了使用ML组件在软件中实现系统安全的最佳实践,并提出了一系列的短期缓解建议,部署机器学习模块的从业人员可以参考他们的研究来保护软件系统。

原文:
https://arxiv.org/abs/2007.07205v1

将自然语言转化为移动UI操作

在ACL 2020上发表的这篇论文中,谷歌AI研究人员展示了解决自动动作序列映射问题的第一步:创建三个新的数据集,用于训练深度学习模型,将自然语言指令应用于可执行的移动用户界面操作。

他们的这一成果为移动设备上的任务自动化奠定了技术基础,从而减轻了通过UI细节进行操作的需求,这对于视力受损的用户将非常有价值。他们还开源了其模型代码和数据管道,以促进研究界的进一步发展。

Github链接:
https://github.com/google-research/google-research/tree/master/seq2act

原文:
https://arxiv.org/pdf/2005.03776.pdf

基于数据编程的工业图像标签系统

最近发布的这篇论文提出了Inspector Gadget:一种用于分类问题的可伸缩图像标签系统。该系统有效地结合了众包、数据增强和数据编程技术。Inspector Gadget的目标应用是在制造业中对大型工业图像进行部分分析,此前在这一领域很少甚至根本没有标签。

与现有的使用对象检测模型预先将图像转换为结构化数据的数据编程方法不同,Inspector Gadget通过提供众包工作流以利用人类知识来识别人们希望研究的模式来直接标记图像。然后,将图案增强并与其他图像匹配,并生成用于神经网络模型训练的相似性特征。

结果表明,Inspector Gadget优于其他图像标记方法,例如Snuba,GOGGLES以及使用CNN而不进行预训练的自习基准模型。研究人员认为,Inspector Gadget开辟了使用数据编程的新方向。

原文:
https://arxiv.org/pdf/2004.03264v2.pdf

用于通用实例再识别的Pytorch工具箱FastReID

在本文中,研究人员介绍了一个名为FastReID的开源库,该库可用于通用实例再识别。

实验结果证明了FastReID在多种任务上具有通用性和有效性,例如:人员再识别和车辆再识别等。研究人员称,共享FastReID是因为开源研究平台对整个AI社区(包括学术界和工业界的研究和从业人员)的快速进步至关重要。

他们希望通过发布FastReID来继续加速通用实例再识别领域的发展,同时也期待彼此之间的学习合作,以促进计算机视觉领域的发展。

原文:
https://arxiv.org/pdf/2006.02631v4.pdf

用于紧凑3D人脸建模的基于关节的神经装备表示(Neural Rig Representation)

本文提出了一种新的3D人脸表示方法,它使用基于关节的人脸装备(rig)搭建人脸模型。该模型非常紧凑,因此需要使用更小的数量级来保有其强大功能。这一需求可以通过学习神经蒙皮权重(neural skinning weights)来满足。研究人员还通过重新拓扑扫描、BU-3DFE、可视化Azure Kinect和2D图像等来评估模型。

该模型具有可进行人脸蒙皮编辑和装饰的优点。研究人员已经将人脸模型整合到点云和2D图像,因此未来的工作是通过学习神经网络来直接预测人脸模型参数,从而为加速实时应用重建提供可能。

原文:
https://arxiv.org/pdf/2007.06755v2.pdf

其他爆款论文

通过像素级自动图像标记实现语义图像分割,性能超过大部分已有的弱监督方法:
https://arxiv.org/pdf/2007.07415v1.pdf

有关机器学习中隐私攻击的最新调查结果:
https://arxiv.org/pdf/2007.07646v1.pdf

从平均场博弈(MFG)和最佳运输(OT)角度分别理解和分析生成对抗网络(GAN):
https://arxiv.org/abs/2002.04112v2

特征量化助力GAN训练:
https://arxiv.org/pdf/2004.02088v2.pdf

表情符号预测的拓展和基准测试:
https://arxiv.org/abs/2007.07389v1

学习资源

70多个机器学习数据集和项目构想:
https://googleweblight.com/i?u=https://data-flair.training/blogs/machine-learning-datasets/

2020年机器学习项目Top 21:
https://data-flair.training/blogs/machine-learning-project-ideas/

面向初学者的免费机器学习项目构想:
https://www.skyfilabs.com/blog/free-machine-learning-project-ideas-for-beginners

DeepMind与UCL AI中心共同打造深度学习系列讲座:
https://www.youtube.com/playlist?list=PLqYmG7hTraZCDxZ44o4p3N5Anz3lLRVZF

AI大事件

AI芯片初创公司Graphcore开启系统业务,称其比Nvidia经济适用得多:
https://www.zdnet.com/article/ai-chip-startup-graphcore-enters-the-system-business-claiming-economics-vastly-better-than-nvidias/

ICML 2020之Google篇:
https://ai.googleblog.com/2020/07/google-at-icml-2020.html

AI的超强能力能否协助人类外科医生减少医疗错误:
https://www.zdnet.com/article/big-backing-pair-doctors-ai-assist-technology/

相关文章
|
4月前
|
人工智能 物联网 调度
边缘大型AI模型:协作部署与物联网应用——论文阅读
论文《边缘大型AI模型:协作部署与物联网应用》系统探讨了将大模型(LAM)部署于边缘网络以赋能物联网的前沿框架。针对传统云端部署高延迟、隐私差的问题,提出“边缘LAM”新范式,通过联邦微调、专家混合与思维链推理等技术,实现低延迟、高隐私的分布式智能。
891 6
边缘大型AI模型:协作部署与物联网应用——论文阅读
|
7月前
|
机器学习/深度学习 算法 定位技术
Baumer工业相机堡盟工业相机如何通过YoloV8深度学习模型实现裂缝的检测识别(C#代码UI界面版)
本项目基于YOLOv8模型与C#界面,结合Baumer工业相机,实现裂缝的高效检测识别。支持图像、视频及摄像头输入,具备高精度与实时性,适用于桥梁、路面、隧道等多种工业场景。
939 27
|
5月前
|
人工智能 JavaScript 算法
Playwright携手MCP:AI智能体实现自主化UI回归测试
MCP 协议使得 AI 能够通过 Playwright 操作浏览器,其中快照生成技术将页面状态转化为 LLM 可理解的文本,成为驱动自动化测试的关键。该方式适用于探索性测试和快速验证,但目前仍面临快照信息缺失、元素定位不稳定、成本高、复杂场景适应性差以及结果确定性不足等挑战。人机协同被认为是未来更可行的方向,AI 负责执行固定流程,人类则专注策略与验证。
|
10月前
|
人工智能 数据可视化 数据挖掘
AI竟能独立完成顶会论文!The AI Scientist-v2:开源端到端AI自主科研系统,自动探索科学假设生成论文
The AI Scientist-v2 是由 Sakana AI 等机构开发的端到端自主科研系统,通过树搜索算法与视觉语言模型反馈实现科学假设生成、实验执行及论文撰写全流程自动化,其生成论文已通过国际顶会同行评审。
723 34
AI竟能独立完成顶会论文!The AI Scientist-v2:开源端到端AI自主科研系统,自动探索科学假设生成论文
|
5月前
|
机器学习/深度学习 人工智能 资源调度
智能家居环境中的AI决策解释:实现以人为中心的可解释性——论文阅读
本文探讨智能家居中AI决策的可解释性,提出以人为中心的XAI框架。通过SHAP、DeepLIFT等技术提升模型透明度,结合用户认知与需求,构建三层解释体系,增强信任与交互效能。
404 19
智能家居环境中的AI决策解释:实现以人为中心的可解释性——论文阅读
|
10月前
|
机器学习/深度学习 人工智能 自然语言处理
还在想开题报告?SurveyGO卷姬:清华开源学术论文AI写作神器,一键生成文献综述
SurveyGO是清华与面壁智能联合开源的AI论文写作工具,采用LLMxMapReduce-V2技术实现文献智能聚合,能根据用户输入主题快速生成结构严谨、引用可靠的学术综述。
1361 1
还在想开题报告?SurveyGO卷姬:清华开源学术论文AI写作神器,一键生成文献综述
|
5月前
|
存储 消息中间件 人工智能
【04】AI辅助编程完整的安卓二次商业实战-寻找修改替换新UI首页图标-菜单图标-消息列表图标-优雅草伊凡
【04】AI辅助编程完整的安卓二次商业实战-寻找修改替换新UI首页图标-菜单图标-消息列表图标-优雅草伊凡
352 4
|
4月前
|
人工智能 自然语言处理 JavaScript
Playwright MCP在UI回归测试中的实战:构建AI自主测试智能体
Playwright MCP结合AI智能体,革新UI回归测试:通过自然语言驱动浏览器操作,降低脚本编写门槛,提升测试效率与覆盖范围。借助快照解析、智能定位与Jira等工具集成,实现从需求描述到自动化执行的闭环,推动测试迈向智能化、民主化新阶段。
|
11月前
|
人工智能 自然语言处理 机器人
今日AI论文推荐:ReCamMaster、PLADIS、SmolDocling、FlowTok
由浙江大学、快手科技等机构提出的ReCamMaster是一个相机控制的生成式视频重渲染框架,可以使用新的相机轨迹重现输入视频的动态场景。该工作的核心创新在于利用预训练的文本到视频模型的生成能力,通过一种简单但强大的视频条件机制。为克服高质量训练数据的稀缺问题,研究者使用虚幻引擎5构建了一个全面的多相机同步视频数据集,涵盖多样化的场景和相机运动。
579 2
今日AI论文推荐:ReCamMaster、PLADIS、SmolDocling、FlowTok
|
5月前
|
机器学习/深度学习 资源调度 算法框架/工具
AI-ANNE: 将神经网络迁移到微控制器的深度探索——论文阅读
AI-ANNE框架探索将深度学习模型迁移至微控制器的可行路径,基于MicroPython在Raspberry Pi Pico上实现神经网络核心组件,支持本地化推理,推动TinyML在边缘设备中的应用。
325 10