今年英语高考,CMU用重构预训练交出134高分,大幅超越GPT3(3)

简介: 今年英语高考,CMU用重构预训练交出134高分,大幅超越GPT3

高考实验:迈向人类水平的 AI

该研究收集了 10 份高考英语试卷,包括 2018 年国考 I/III、2019 年国考 I/II/III、2020 年国考 I/II/III、2021 年全国卷 A/B。这些试卷遵循相同的题型,他们将所有考试题型分为以下七个子类别,如表 7 所示:


每篇高考英语试卷满分 150 分。听力、完形填空、阅读、写作分别占 30、45、40、35。通常,写作部分是主观的,需要人工评估,而其他部分是客观的,可以自动评分。如表 8 所示:


使用表 1 中所示的重构工程循环来构建高考英语 AI 系统,即 Qin。整个过程如图 14 所示:


该研究使用以下 prompt 将原始信号元组转换为 prompt 样本,如表 9 所示:


实验结果如表 10-11 所示,我们可以得出以下结论:在每一份英语试卷中,RST 在两套听力考试中取得了最高的总分,平均分数为 130.6 分;与 T0pp 相比,RST 的性能要远远优于相同模型大小下的 T0pp。在所有设置中,RST 获得的总分平均比 T0pp 高出 54.5 分,最高差距为 69 分(占总分的 46%);与 GPT3 相比,RST 可以在模型大小小 16 倍的情况下取得明显更好的结果。在所有考虑的设置中,RST 获得的总分平均比 T0pp 高 14.0 分,最高为 26 分(占总分的 17%);对于 T0pp,使用黄金和语音转文本成绩单获得的听力分数差异很大,平均为 4.2 分。相比之下,GPT3 和 RST 分别为 0.6 和 0.45,表明 T0pp 的性能对文本质量很敏感。



该研究进行了细粒度分析,以了解不同模型在不同问题子类别上的表现。在图 15-(a) 中,很明显 RST 和 GPT3 在每个问题子类别上都优于 T0pp。

图 15-(b)为近年来模型的表现和学生在全国试卷上的平均表现。很明显,T0pp 在 9/10 试卷上的总分低于学生的平均水平,而 RST 和 GPT3 的表现则超过了学生的平均水平。尤其是这十份试卷中有五份,RST 的总分超过了 130(通常被认为是学生争取的目标分数)。


2022 年高考 - 英语考试(2022.06.08)刚刚结束,了解到模型在最近一年的高考试卷中的表现。该研究用 GPT3 和 RST 进行实验。结果显示 RST 总分达到 134,远高于 GPT3 达到的 108 分。


论文最后还有三个彩蛋,更多详细内容,请查看原论文。

相关文章
|
前端开发 JavaScript API
promise基础语法
promise基础语法
133 0
|
算法 数据可视化 数据挖掘
【数据挖掘】密度聚类DBSCAN讲解及实战应用(图文解释 附源码)
【数据挖掘】密度聚类DBSCAN讲解及实战应用(图文解释 附源码)
1430 1
|
存储 人工智能 PyTorch
【AI系统】张量并行
在大模型训练中,单个设备难以满足需求,模型并行技术应运而生。其中,张量并行(Tensor Parallelism, TP)将模型内部的参数和计算任务拆分到不同设备上,特别适用于大规模模型。本文介绍了张量并行的基本概念、实现方法及其在矩阵乘法、Transformer、Embedding和Cross Entropy Loss等场景中的应用,以及通过PyTorch DeviceMesh实现TP的具体步骤。
1174 11
【AI系统】张量并行
|
Kubernetes Cloud Native 前端开发
Kubernetes入门指南:从基础到实践
Kubernetes入门指南:从基础到实践
342 0
|
机器学习/深度学习 监控 算法
【机器学习】农田智能监控系统的实践探索
【机器学习】农田智能监控系统的实践探索
263 0
|
移动开发 网络协议 前端开发
SpringBoot——SpringBoot集成WebSocket实现简单的多人聊天室
SpringBoot——SpringBoot集成WebSocket实现简单的多人聊天室
1314 1
SpringBoot——SpringBoot集成WebSocket实现简单的多人聊天室
|
开发工具 git
单片机:Keil的安装教程
单片机:Keil的安装教程
246 0
单片机:Keil的安装教程
C#编程-111:文件操作之获取基本信息
C#编程-111:文件操作之获取基本信息
131 0
C#编程-111:文件操作之获取基本信息
|
编解码 数据可视化 API
微软行星云计算Planetary Computer——可视化数据集有哪些?
微软行星云计算Planetary Computer——可视化数据集有哪些?
255 0
微软行星云计算Planetary Computer——可视化数据集有哪些?
|
存储 弹性计算 安全
企业上云如何选择及操作注意事项(企业上云选择阿里云是绝对没错的)
面对云市场内众多的云厂商,企业应该如何选择呢?
345 0