大模型如何可靠?IBM等学者最新《基础模型的基础鲁棒性》教程|NeurIPS 2022

简介: 大模型如何可靠?IBM等学者最新《基础模型的基础鲁棒性》教程|NeurIPS 2022



 新智元报道  

作者:专知编辑:Aeneas

【新智元导读】在第36届NeurIPS上,来自IBM研究中心等学者讲述关于大模型的鲁棒性,非常值得关注!

作为当前全球最负盛名的 AI 学术会议之一,NeurIPS 是每年学界的重要事件,全称是 Neural Information Processing Systems,神经信息处理系统大会,通常在每年 12 月由 NeurIPS 基金会主办。

大会讨论的内容包含深度学习、计算机视觉、大规模机器学习、学习理论、优化、稀疏理论等众多细分领域。

今年 NeurIPS 已是第 36 届,于 11 月 28 日至 12 月 9 日举行,为期两周。

第一周将在美国新奥尔良 Ernest N. Morial 会议中心举行现场会议,第二周改为线上会议。

来自IBM研究中心等学者讲述关于大模型的鲁棒性,非常值得关注!

基础模型采用深度学习的方法,在大规模无标签数据上进行预训练,并通过特定任务的监督进行微调,正成为机器学习的主流技术。

虽然基础模型在学习一般表示和跨领域和数据模式的少次/零次泛化方面有很多希望,但同时由于使用了过多的数据量和复杂的神经网络架构,它们在鲁棒性和隐私性方面提出了前所未有的挑战和相当大的风险。

本教程旨在提供一个类似coursera的在线教程,包含全面的讲座,一个实践和交互式的Jupyter/Colab实时编码演示,以及一个关于基础模型中可信性的不同方面的小组讨论。

https://sites.google.com/view/neurips2022-frfm-turotial

目录内容:

  1. Basics in foundation models and robustness
  2. Deep dive on foundation models for computer vision
  3. Deep dive on foundation models for code
  4. Hands-on code walkthrough
  5. Concluding Remarks
  6. Q&A
  7. Panel discussion

讲者:现实世界的机器学习系统需要对分布变化鲁棒——它们应当在与训练分布不同的测试分布上工作良好。诸如资源不足国家的贫困地图 [Xie et al. 2016; Jean et al. 2016]、自动驾驶汽车 [Yu et al. 2020a; Sun et al. 2020a]、医学诊断 [AlBadawy et al. 2018; Dai and Gool 2018] 这样的高风险应用都需要模型良好的泛化到训练数据中没有见过的环境中,例如,测试样例来自不同的国家,处于不同的驾驶条件,或来自不同的医院。先前的工作已经表明:即使是对目前最先进的模型,这些分布变化也会导致性能的大幅下降 [Blitzer et al. 2006; Daumé III 2007;Sugiyama et al. 2007; Ganin and Lempitsky 2015; Peng et al. 2019; Kumar et al. 2020a; Arjovskyet al. 2019; Szegedy et al. 2014; Hendrycks and Dietterich 2019; Sagawa et al. 2020a; Recht et al.2019; Abney 2007; Ruder and Plank 2018; Geirhos et al. 2018; Kumar et al. 2020b; Yu et al. 2020b;Geirhos et al. 2020; Xie et al. 2021a; Koh et al. 2021]。一个基础模型在采样自分布的大量不同的无标签数据集上进行训练,然后可以被适配到许多的下游任务中。

对于每一个下游任务,基础模型在带标签的从训练分布中采样的分布内(in-distribution, ID)训练数据上进行训练,然后在分布外(out-of-distribution, OOD)的测试分布上进行评价。

例如,一个贫困地图预测模型 [Xie et al. 2016; Jean et al. 2016] 可以在全世界的无标签卫星数据中学习所有国家的有用特征,然后在带标签的来自尼日利亚的样例上进行微调,最终在缺乏带标签样例的马拉维上进行评价。我们认为:1)基础模型在鲁棒性方面是一个特别具有前途的方法。现有工作表明了在无标签数据上进行预训练是一种有效的、通用的提高在 OOD 测试分布上准确性的方法,这与限制于有限的分布变化的许多鲁棒性干预措施相反。然而,我们同样讨论了 2)为什么基础模型可能无法总是应对分布变化,例如某些由于伪相关性或随时间改变的分布变化。最后,3)我们概述了几个利用和提高基础模型鲁棒性的研究方向。我们注意到,基础模型提高下游任务性能的一个方法是为适配模型提供归纳偏置(通过模型初始化),这些偏置是在下游训练数据之外的多种数据集上学习得到的。然而,同样的归纳偏置也可能从预训练数据中编码有害关联,并在分布变化的情况下导致表示和分配危害。参考资料:https://mp.weixin.qq.com/s/yuHeCvmSCDNRUbJX1iLhRAhttps://arxiv.org/abs/2108.07258

相关文章
|
7月前
|
人工智能 文件存储 数据中心
Ollama部署本地大模型并通过Infortress APP远程访问保姆级教程
本文介绍如何快速上手本地大模型部署工具Ollama及AI远程访问工具Infortress。通过Ollama,开发者可轻松部署如Llama、Deepseek等主流开源模型,仅需几行命令即可完成安装与运行。结合Infortress,用户能实现对本地大模型的远程访问,支持多设备无缝对接,同时提供便捷的模型切换与知识库管理功能。Infortress更兼具NAS软件特性,成为个人AI数据中心的理想选择。
|
5月前
|
人工智能 数据可视化 数据挖掘
Gemini-2.5-pro大模型专业画常用图表保姆级教程:圆角环形图+柱状图排序图+系列按行和按列排布图,国内直接使用
虚竹哥推出AI数据可视化工具《xuzhu-huatu-plus》,支持多种图表类型,如柱状图、饼图、热力图等,输入指令即可生成图表代码,大幅简化绘图流程。用户仅需访问指定平台,选择智能体并输入需求,AI即自动完成图表设计,助力高效数据分析与展示。提供免费授权码体验,国内可直接使用。
255 9
|
10月前
|
人工智能 API 开发工具
【重磅发布】 免费领取阿里云百炼AI大模型100万Tokens教程出炉,API接口实战操作,DeepSeek-R1满血版即刻体验!
阿里云百炼是一站式大模型开发及应用构建平台,支持开发者和业务人员轻松设计、构建大模型应用。通过简单操作,用户可在5分钟内开发出大模型应用或在几小时内训练专属模型,专注于创新。
3279 89
【重磅发布】 免费领取阿里云百炼AI大模型100万Tokens教程出炉,API接口实战操作,DeepSeek-R1满血版即刻体验!
|
8月前
|
存储 Kubernetes 异构计算
Qwen3 大模型在阿里云容器服务上的极简部署教程
通义千问 Qwen3 是 Qwen 系列最新推出的首个混合推理模型,其在代码、数学、通用能力等基准测试中,与 DeepSeek-R1、o1、o3-mini、Grok-3 和 Gemini-2.5-Pro 等顶级模型相比,表现出极具竞争力的结果。
|
8月前
|
自然语言处理 测试技术 Serverless
Qwen3开源发布:Think Deeper, Act Faster!社区推理、部署、微调、MCP调用实战教程来啦!
Qwen3开源发布:Think Deeper, Act Faster!社区推理、部署、微调、MCP调用实战教程来啦!
2161 22
|
7月前
|
编解码 人工智能
通义万相Wan2.1-VACE开源!业内首个视频编辑统一模型!附推理教程
通义万相Wan2.1-VACE开源!业内首个视频编辑统一模型!附推理教程
1543 7
|
10月前
|
人工智能 开发框架 机器人
AstrBot:轻松将大模型接入QQ、微信等消息平台,打造多功能AI聊天机器人的开发框架,附详细教程
AstrBot 是一个开源的多平台聊天机器人及开发框架,支持多种大语言模型和消息平台,具备多轮对话、语音转文字等功能。
5802 38
AstrBot:轻松将大模型接入QQ、微信等消息平台,打造多功能AI聊天机器人的开发框架,附详细教程
|
8月前
|
人工智能 自然语言处理 测试技术
谷歌AI 多模态 Gemini 2.5 Pro的国内使用教程
在人工智能(AI)的星辰大海中,谷歌再次投下一枚重磅炸弹 💣!他们倾注心血打造的智慧结晶
3687 0
|
机器学习/深度学习 人工智能
IBM推出创新框架用“黑盒”方式,评估大模型的输出
【7月更文挑战第17天】IBM研发的创新框架以“黑盒”方法评估大模型输出的可信度,通过观察输入和输出,不涉及模型内部。采用逻辑回归模型,基于四个特征(输出长度、多样性、一致性和新颖性)来估计可信度。在多个数据集上测试,显示优于其他“黑盒”方法,且具有可解释性。但仅适用于可访问的模型,可能忽略内部细节,不适用于所有场景。[[arXiv:2406.04370](https://arxiv.org/abs/2406.04370)]
283 4