7 Papers & Radios | 华为配置管理研究获SIGCOMM 2022最佳论文;用即插即用模块改进ViT和卷积模型

本文涉及的产品
模型在线服务 PAI-EAS,A10/V100等 500元 1个月
交互式建模 PAI-DSW,每月250计算时 3个月
模型训练 PAI-DLC,5000CU*H 3个月
简介: 7 Papers & Radios | 华为配置管理研究获SIGCOMM 2022最佳论文;用即插即用模块改进ViT和卷积模型

本周主要论文包括MSU 联合 MIT-IBM 提出首个黑箱防御框架;CMU 提出首个快速知识蒸馏的视觉框架等研究。


目录


  1. How to Robustify Black-Box ML Models? A Zeroth-Order Optimization Perspective
  2. Language Models as Knowledge Embeddings
  3. HorNet: Efficient High-Order Spatial Interactions with Recursive Gated Convolutions
  4. Practical Lossless Federated Singular Vector Decomposition over Billion-Scale Data
  5. No Free Lunch Theorem for Security and Utility in Federated Learning
  6. Software-defined network assimilation: bridging the last mile towards centralized network configuration management with NAssim
  7. A Fast Knowledge Distillation Framework for Visual Recognition
  8. ArXiv Weekly Radiostation:NLP、CV、ML 更多精选论文(附音频)


论文 1:How to Robustify Black-Box ML Models? A Zeroth-Order Optimization Perspective


摘要:这是密歇根州立大学 (Michigan State University) 和 MIT-IBM AI 实验室的一篇关于黑箱防御工作的文章,本文被 ICLR 2022 接收为 spotlight paper, 代码和模型均已开源。

本文主要研究了在只使用目标模型的输入和输出的情况下,如何进行黑箱防御。为了解决黑箱防御这个难题,本文将降噪平滑与零阶优化结合起来,提出了有效的且可扩展的 ZO-AE-DS 黑箱防御框架,这个框架有效地减少了零阶梯度估计的方差,进而缩减了零阶优化与一阶优化性能上的差距。

推荐:MSU 联合 MIT-IBM 提出首个黑箱防御框架。

论文 2:Language Models as Knowledge Embeddings


摘要:本文提出了一个将语言模型用作知识嵌入的方法 LMKE(Language Models as Knowledge Embeddings),同时利用结构信息和文本信息,并首次将基于文本的知识嵌入学习建模在对比学习框架下,从而在提升长尾实体表示的同时解决了现有基于文本的知识嵌入方法在表现、效率等方面的不足。相关研究成果现已被 IJCAI 2022 录用。
LMKE 的模型结构(用于三元组分类)

推荐:将语言模型用作知识嵌入:链接预测、三元组分类全部 SOTA,超越基于结构的传统方法。

论文 3:HorNet: Efficient High-Order Spatial Interactions with Recursive Gated Convolutions


摘要:视觉 Transformer 的最新进展表明,在基于点积自注意力的新空间建模机制驱动的各种任务中取得了巨大成功。在本文中,作者证明了视觉 Transformer 背后的关键成分,即输入自适应、长程和高阶空间交互,也可以通过基于卷积的框架有效实现。作者提出了递归门卷积,它用门卷积和递归设计进行高阶空间交互。新操作具有高度灵活性和可定制性,与卷积的各种变体兼容,并将自注意力中的二阶交互扩展到任意阶,而不引入显著的额外计算。
思路展示

推荐:用即插即用模块来改进各种视觉 Transformer 和基于卷积的模型。

论文 4:Practical Lossless Federated Singular Vector Decomposition over Billion-Scale Data


摘要:文章提出了基于随机掩码的奇异值分解方案,应用于多方生物数据分析、多方金融数据建模等场景,在 SVD 任务中,该方案的效率比同态加密提高 10000 倍,误差比差分隐私方案小 10 个数量级,同时提供了安全性分析和实验验证。
FedSVD 的详细工作流。

推荐:10 亿规模数据上的无损联邦奇异值分解。

论文 5:No Free Lunch Theorem for Security and Utility in Federated Learning


摘要:从信息论的角度为联邦学习中隐私泄漏和效用损失的分析提供了一个通用的框架,量化了隐私和效用之间的约束关系,揭示了隐私效用的无免费午餐场景,该论文阐述的框架及分析可以为设计可信联邦学习算法提供有效的指导。
基于贝叶斯推理攻击和隐私效用权衡的 SFL 框架概览。

推荐:联邦学习中隐私与模型性能没有免费午餐定理。

论文 6:Software-defined network assimilation: bridging the last mile towards centralized network configuration management with NAssim


摘要:面向网络基础设施需要吸纳新设备的长期而持续的需求,高效准确获取设备原生配置模型和网络统一配置管理模型的映射关系是一个核心挑战。在 8 月 22 日 - 26 日举办的第 36 届 SIGCOMM 2022 会议上,华为的研究者针对这一难题提出了崭新的思路, 受生物学里的同化作用 Assimilation 的启发,首次提出了 SNA (Software-defined Network Assimilation)的概念。

研究者推出了助力网络配置管理最后一公里的辅助框架 NAssim,把一个现有网络 “消化、理解、吸收” 新设备的过程尽可能进行了自动化,并提出用网络配置语义模型 NetBERT 直接 “读懂” 配置说明书,把运维工程师从繁琐易出错的工作中解放出来,大幅提升网络运维的效率。目前该工作正在华为数通产品线进行落地试点。
设计思路

推荐:理论用于实践,华为配置管理研究获 SIGCOMM 2022 最佳论文奖。

论文 7:A Fast Knowledge Distillation Framework for Visual Recognition


摘要:这是一篇来自卡耐基梅隆大学等单位 ECCV 2022 的一篇关于快速知识蒸馏的文章,用基本的训练参数配置就可以把 ResNet-50 在 ImageNet-1K 从头开始 (from scratch) 训练到 80.1% (不使用 mixup,cutmix 等数据增强),训练速度(尤其是数据读取开销)相比传统分类框架节省 16% 以上,比之前 SOTA 算法快 30% 以上,是目前精度和速度双双最优的知识蒸馏策略之一,代码和模型已全部开源!
FKD 算法框架。

推荐:CMU 提出首个快速知识蒸馏的视觉框架:ResNet50 80.1% 精度,训练加速 30%。


ArXiv Weekly Radiostation

相关文章
|
7月前
|
机器学习/深度学习 编解码 数据可视化
即插即用 | 清华大学提出Focused Linear Attention取代Self-Attention成为ViT的新宠
即插即用 | 清华大学提出Focused Linear Attention取代Self-Attention成为ViT的新宠
253 0
|
机器学习/深度学习 自然语言处理 算法
7 Papers & Radios | 新型Transformer架构解决多智能体强化学习问题;ICRA 2022最佳论文出炉(2)
7 Papers & Radios | 新型Transformer架构解决多智能体强化学习问题;ICRA 2022最佳论文出炉
161 0
7 Papers & Radios | 新型Transformer架构解决多智能体强化学习问题;ICRA 2022最佳论文出炉(2)
|
人工智能 编解码 自然语言处理
7 Papers & Radios | 爆火论文打造《西部世界》雏形;OpenAI终结扩散模型
7 Papers & Radios | 爆火论文打造《西部世界》雏形;OpenAI终结扩散模型
140 0
|
机器学习/深度学习 编解码 人工智能
7 Papers & Radios | Bengio等用GFlowNets统一生成模型;首个黑箱防御框架
7 Papers & Radios | Bengio等用GFlowNets统一生成模型;首个黑箱防御框架
115 0
|
机器学习/深度学习 传感器 人工智能
7 Papers | 英伟达64个A100训练StyleGAN-T;9类生成式AI模型综述
7 Papers | 英伟达64个A100训练StyleGAN-T;9类生成式AI模型综述
283 0
|
机器学习/深度学习 人工智能 编解码
7 Papers & Radios | 谷歌下一代AI架构Pathways论文放出;何恺明组只用ViT做主干进行目标检测(1)
7 Papers & Radios | 谷歌下一代AI架构Pathways论文放出;何恺明组只用ViT做主干进行目标检测
259 0
|
人工智能 编解码 自然语言处理
7 Papers & Radios | 谷歌下一代AI架构Pathways论文放出;何恺明组只用ViT做主干进行目标检测(2)
7 Papers & Radios | 谷歌下一代AI架构Pathways论文放出;何恺明组只用ViT做主干进行目标检测
176 0
|
机器学习/深度学习 编解码 人工智能
7 Papers & Radios | 新型Transformer架构解决多智能体强化学习问题;ICRA 2022最佳论文出炉(1)
7 Papers & Radios | 新型Transformer架构解决多智能体强化学习问题;ICRA 2022最佳论文出炉
506 0
|
机器学习/深度学习 人工智能 自然语言处理
7 Papers & Radios | 无残差连接训练深度transformer;DeepMind写代码AI登Science封面
7 Papers & Radios | 无残差连接训练深度transformer;DeepMind写代码AI登Science封面
128 0
|
机器学习/深度学习 存储 人工智能
7 Papers & Radios | Stable Diffusion采样速度翻倍;MIT解决神经网络百年难题
7 Papers & Radios | Stable Diffusion采样速度翻倍;MIT解决神经网络百年难题
150 0

热门文章

最新文章