人类将可能操控AI?神经网络语言处理工作原理被破解

简介: 近期,来自麻省理工学院计算机科学人工智能实验室(CSAIL)和卡塔尔计算研究所的研究人员已经通过新的解释技术,来分析神经网络做机器翻译和语音识别的训练过程。

神经网络通过分析大量的训练数据来学习并执行任务,这是近期人工智能领域最令人印象深刻的进展,包括语音识别和自动翻译系统。

然而,在训练过程中,神经网络以甚至其创造者都无法解释的方式来不断调整其内部设置。计算机科学最近的许多工作都聚焦于千方百计的弄清楚神经网络的工作原理。

在最近的几篇论文,来自麻省理工学院计算机科学人工智能实验室(CSAIL)和卡塔尔计算研究所的研究人员已经使用了新开发的解释技术,来分析神经网络做机器翻译和语音识别的训练过程,该新技术已被应用于其他领域。

他们对神经网络的工作原理有了基本认知。例如,这些系统似乎专注于较低级别的任务,如声音识别或部分语音识别,然后再转到更高级别的任务,如转录或语义解释。

但是研究人员也发现了翻译网络处理数据类型的一个惊人的遗漏,他们指出纠正这种遗漏会提高网络的性能。这种改进是适度的,但它指出了对神经网络的分析可能有助于提高人工智能系统的准确性。

 “从历史角度看,在机器翻译里,有一个具有不同层次的金字塔,” CSAIL一位高级研究科学家说。这位科学家在是麻省理工学院电气工程和计算机科学的毕业生,曾参与Yonatan Belinkov项目。”在最低层有文字,表层形式,金字塔的顶层是一种语际表示,在做语法和语义时会达到不同的层次。这是一个非常抽象的概念,意思是你在金字塔中爬得越高,就越容易翻译成一种新的语言,然后你就再往下走。所以Yonata所做的部分工作是找出在神经网络中这种概念的会是什么样的编码。”

近期在国际自然语言处理联合会议上发表了两篇论文。Belinkov是第一作者,Glass是资深作者。另一篇,Belinkov是一个联合作者。

他们都是来自卡塔尔计算研究所的研究人员,包括Lluís Màrquez,Hassan Sajjad,Nadir Durrani,Fahim Dalvi和Stephan Vogel。Belinkov和格拉斯是分析的语音识别系统的唯一作者。这篇文章是Belinkov上周神经信息处理会议上提出的。

分层处理

神经网络之所以得名,是因为它们大致接近人脑的结构。通常,它们被分层,每个层由许多简单的处理单元节点组成,每个节点都连接到上面和下面的层中的几个节点。数据被送入最低层,其节点处理它并将其传递给下一层。层之间的连接具有不同的“权重”,它决定了任何一个节点的输出转化到到下一个节点的计算量是多少。

在训练过程中,节点之间的权重不断调整。在网络被训练后,它的创建者可以确定所有连接的权重,但有成千上万个甚至多个节点,甚至它们之间有更多的连接,推断出这些权重编码的算法几乎是不可能的。

麻省理工和卡塔尔计算研究所研究人员的技术包括训练一个神经网络和使用它的每一层的输出,通过个别的培训案例,培养其他的神经网络来执行特定的任务。这使他们能够确定每个层优化的任务是什么。

在语音识别网络的案例中,Belinkov和Glass使用的单个层输出训练系统识别“语音”,区别于口语的发音单元。例如,“T”的发音在“Tea”“Tree”和“But”,是不同的,但语音识别系统已经把他们都用字母“T”转录。事实上,Belinkov和Glass发现,低层次的网络比高层次网络语言识别能力更强。在那里,可能区别是不重要的。

同样的,Glass, Belinkov和他们卡塔尔计算研究所的同事于去年夏天在语言协会年度大会上发布的文章表明,机器翻译网络的低层善于识别词类和形态,比如时态、数字和共轭。

语义理解

但是在新的论文中,他们表明网络的更高层次在语义标注方面更好。Belinkov解释说,一部分语音标签,能认识到“herself”是一个代词,但这个代词的语义的意义,在句子“she bought the book herself”和“she herself bought the book”是不同的。语义标注会分配不同的标签,给这两句话中的“herself“,就像一个机器翻译系统可能在一个给定的目标语言为它们找到不同的翻译。

最好的机器翻译系统使用所谓的编码解码模式,和麻省理工和卡塔尔计算研究所研究人员的神经网络一样。在这样的系统中,源语言中的输入经过几个被称为编码器的网络层来产生一个向量,一组数字代表某种输入的语义内容。该向量通过多个网络层的解码器来产生目标语言中的译文。

虽然编码器和解码器在一起训练,但它们可以被认为是独立的网络。研究人员发现,奇怪的是,编码器的低层善于区分形态,但解码器的更高层不是。所以Belinkov和卡塔尔计算研究所研究人员在训练网络时,不仅仅根据翻译的准确性,也根据目标语言中的形态分析来判定性能。从本质上讲,他们迫使解码器更好地区分形态。

使用这种技术,他们培训网络将英语翻译成德语,发现其精度提高3%。这不是一个革命性的进步,但这表明,探寻神经网络的本质可能不仅仅是一项学术活动。


原文发布时间为:2017-12-12

本文作者:刘光明 

本文来自云栖社区合作伙伴新智元,了解相关信息可以关注“AI_era”微信公众号

原文链接:人类将可能操控AI?神经网络语言处理工作原理被破解

相关文章
|
7月前
|
机器学习/深度学习 PyTorch TensorFlow
卷积神经网络深度解析:从基础原理到实战应用的完整指南
蒋星熠Jaxonic,深度学习探索者。深耕TensorFlow与PyTorch,分享框架对比、性能优化与实战经验,助力技术进阶。
|
8月前
|
人工智能 Rust 并行计算
AI大模型开发语言排行
AI大模型开发涉及多种编程语言:Python为主流,用于算法研发;C++/CUDA优化性能;Go/Rust用于工程部署;Java适配企业系统;Julia等小众语言用于科研探索。
2296 127
|
机器学习/深度学习 存储 算法
NoProp:无需反向传播,基于去噪原理的非全局梯度传播神经网络训练,可大幅降低内存消耗
反向传播算法虽是深度学习基石,但面临内存消耗大和并行扩展受限的问题。近期,牛津大学等机构提出NoProp方法,通过扩散模型概念,将训练重塑为分层去噪任务,无需全局前向或反向传播。NoProp包含三种变体(DT、CT、FM),具备低内存占用与高效训练优势,在CIFAR-10等数据集上达到与传统方法相当的性能。其层间解耦特性支持分布式并行训练,为无梯度深度学习提供了新方向。
777 1
NoProp:无需反向传播,基于去噪原理的非全局梯度传播神经网络训练,可大幅降低内存消耗
|
7月前
|
存储 人工智能 JSON
揭秘 Claude Code:AI 编程入门、原理和实现,以及免费替代 iFlow CLI
本文面向对 AI Coding 感兴趣的朋友介绍 Claude Code。通过此次分享,可以让没有体验过的快速体验,体验过的稍微理解其原理,以便后续更好地使用。
3385 18
揭秘 Claude Code:AI 编程入门、原理和实现,以及免费替代 iFlow CLI
|
8月前
|
机器学习/深度学习 人工智能 算法
卷积神经网络深度解析:从基础原理到实战应用的完整指南
蒋星熠Jaxonic带你深入卷积神经网络(CNN)核心技术,从生物启发到数学原理,详解ResNet、注意力机制与模型优化,探索视觉智能的演进之路。
745 11
|
8月前
|
Web App开发 人工智能 自然语言处理
快速掌握Dify+Chrome MCP:打造网页操控AI助手
本文教你如何快速搭建一个能操作浏览器的AI助手:通过Dify和Chrome MCP结合,只需三步配置,即可实现自动填表、数据抓取和网页操控,无需编写代码,用自然语言就能指挥AI完成各类网页任务。
|
8月前
|
人工智能 搜索推荐 安全
AI智能体终极指南:从核心原理到未来应用,一篇文章讲透所有疑问
AI智能体正引领一场“行动革命”。它不仅是聊天工具,更是能自主规划、调用工具、主动执行任务的智能系统。从订机票、写代码,到分析数据、辅助科研,AI智能体已渗透多个领域。本文带你全面了解AI智能体的核心原理、应用场景与未来趋势,看清这场从“人找工具”到“工具主动服务人”的智能变革。
2572 2
|
10月前
|
机器学习/深度学习 人工智能 PyTorch
零基础入门CNN:聚AI卷积神经网络核心原理与工业级实战指南
卷积神经网络(CNN)通过局部感知和权值共享两大特性,成为计算机视觉的核心技术。本文详解CNN的卷积操作、架构设计、超参数调优及感受野计算,结合代码示例展示其在图像分类、目标检测等领域的应用价值。
568 7
|
11月前
|
机器学习/深度学习 传感器 人工智能
AI与智能驾驶的关系和原理:技术融合与未来展望-优雅草卓伊凡
AI与智能驾驶的关系和原理:技术融合与未来展望-优雅草卓伊凡
429 3
AI与智能驾驶的关系和原理:技术融合与未来展望-优雅草卓伊凡
|
12月前
|
存储 人工智能 供应链
AI Agent智能体:底层逻辑、原理与大模型关系深度解析·优雅草卓伊凡
AI Agent智能体:底层逻辑、原理与大模型关系深度解析·优雅草卓伊凡
4056 3
AI Agent智能体:底层逻辑、原理与大模型关系深度解析·优雅草卓伊凡

热门文章

最新文章