ICLR 2023 | PromptPG：当强化学习遇见大规模语言模型（2）-阿里云开发者社区

ICLR 2023 | PromptPG：当强化学习遇见大规模语言模型（2）

2023-05-25 271

版权

本文内容由阿里云实名注册用户自发贡献，版权归原作者所有，阿里云开发者社区不拥有其著作权，亦不承担相应法律责任。具体规则请查看《阿里云开发者社区用户服务协议》和《阿里云开发者社区知识产权保护指引》。如果您发现本社区中有涉嫌抄袭的内容，填写侵权投诉表单进行举报，一经查实，本社区将立刻删除涉嫌侵权内容。

简介： ICLR 2023 | PromptPG：当强化学习遇见大规模语言模型

在如下的例子中，模型被要求理解一个税收报告，并计算扣税后的工资。

以下展示了 PromptPG 对多选题问题的正确预测。给定的表格一共有 9 行和 6 列。模型成功地定位到了表格中的目标单元格，并进行多步推理以预测正确答案。

在以下的例子中，模型需要比较预算和总成本，以验证 Ariana 是否有足够的钱。

预测失败的例子

以下展示了 PromptPG 对自由文本问题的错误预测。模型检索到了错误的玫瑰石英价格，从而错误计算了三个物品的成本总和。

在以下的例子中，问题提供了一个抽象的茎叶表。模型无法理解这个特定领域的表格，并且缺乏高级逻辑推理能力从而得到了错误的答案。

以下的例子表明，现有的模型似乎不具有对数字排序的能力。

在以下的例子中，表格中没有出现与问题提到的当前时间完全一致的时间，因此模型无法准确定位到下一站的出发时间。

以下的例子中，模型很难准确完成一长串数字的算术运算。

4、结论与展望

作者提出了 TabMWP，这是第一个针对表格语境的数学问题求解的大规模数据集。TabMWP 包含了 38,431 个开放领域的问题，其中包括两种问题类型和五种答案类型，每个问题都标注了多步的解答过程。作者使用了最先进的 QA 和 TableQA 方法，在预训练和微调设置下对 TabMWP 进行了全面的实验，以及使用大型预训练语言模型 GPT-3 进行评估。作者进一步提出了一种全新的强化学习方法 PromptPG，该方法利用 Policy Gradient 学习从训练数据中选择最优的实例用于提示用于 GPT-3 模型。实验结果表明，与随机选择相比，PromptPG 的性能明显优于现有的基线，并且减少了预测中的性能不稳定性。

主要参考文献：

[1] Pan Lu, Liang Qiu, Wenhao Yu, Sean Welleck, and Kai-Wei Chang. A survey of deep learning for mathematical reasoning. arXiv preprint arXiv:2212.10535, 2022b.[2] Gabriel Barth-Maron, Matthew W Hoffman, David Budden, Will Dabney, Dan Horgan, Dhruva Tb, Alistair Muldal, Nicolas Heess, and Timothy Lillicrap. Distributed distributional deterministic Policy Gradients. arXiv preprint arXiv:1804.08617, 2018.[2] Tom Brown, Benjamin Mann, Nick Ryder, Melanie Subbiah, Jared D Kaplan, Prafulla Dhariwal, Arvind Neelakantan, Pranav Shyam, Girish Sastry, Amanda Askell, et al. Language models are few-shot learners. Advances in Neural Information Processing Systems (NeurIPS), 33:1877–1901, 2020[3] Jacob Devlin, Ming-Wei Chang, Kenton Lee, and Kristina Toutanova. Bert: Pre-training of deep bidirectional transformers for language understanding. arXiv preprint arXiv:1810.04805, 2018.[4] Daniel Khashabi, Sewon Min, Tushar Khot, Ashish Sabharwal, Oyvind Tafjord, Peter Clark, and Hannaneh Hajishirzi. Unifiedqa: Crossing format boundaries with a single qa system. In Findings of the Association for Computational Linguistics (EMNLP), pp. 1896–1907, 2020.[5] Takeshi Kojima, Shixiang Shane Gu, Machel Reid, Yutaka Matsuo, and Yusuke Iwasawa. Large language models are zero-shot reasoners. arXiv preprint arXiv:2205.11916, 2022.[6] Qian Liu, Bei Chen, Jiaqi Guo, Morteza Ziyadi, Zeqi Lin, Weizhu Chen, and Jian-Guang Lou. Tapex: Table pre-training via learning a neural sql executor. In International Conference on Learning Representations (ICLR), 2022b.[7] Jason Wei, Xuezhi Wang, Dale Schuurmans, Maarten Bosma, Ed Chi, Quoc Le, and Denny Zhou. Chain of thought prompting elicits reasoning in large language models. arXiv preprint arXiv:2201.11903, 2022.

ICLR 2023 | PromptPG：当强化学习遇见大规模语言模型（2）

热门文章

最新文章

相关电子书

探索云世界

热门

云计算

大数据

云原生

人工智能

数据库

开发与运维

活动广场

任务中心

训练营

直播

乘风者计划

下载

镜像站

技术资料

ICLR 2023 | PromptPG：当强化学习遇见大规模语言模型（2）

热门文章

最新文章

相关电子书