文档备案控制台

开发者社区问答正文

GPT-3的数据集是如何构建的？

GPT-3的数据集是如何构建的？

展开

收起

夹心789 2024-05-30 13:53:02 225 版权

版权声明：本文内容由阿里云实名注册用户自发贡献，版权归原作者所有，阿里云开发者社区不拥有其著作权，亦不承担相应法律责任。具体规则请查看《阿里云开发者社区用户服务协议》和《阿里云开发者社区知识产权保护指引》。如果您发现本社区中有涉嫌抄袭的内容，填写侵权投诉表单进行举报，一经查实，本社区将立刻删除涉嫌侵权内容。

1 条回答

写回答

取消提交回答

芯在这

GPT-3的数据集构建过程包括：使用之前的reddit数据作为正例，Common Crawl作为负例训练二分类器来过滤掉不好的网页；使用lsh算法去重；增加已知的高质量数据，如BERT、GPT1、GPT2的数据集；在真实采样时赋予一定权重进行采样，因为Common Crawl数据集仍然较脏。

2024-05-30 14:36:03

赞同 2 展开评论

问答标签：

GPT构建 GPT数据集

问答地址：

开发者社区 > 云计算 > 问答

相关问答

GPT-2的数据集是什么？

171

1

0

想用 ModelScope的openai在线微调gpt-4v，怎么用图片做数据集？

187

0

0

ModelScope open-orca-gpt4数据集练下来需要多久？

250

0

0

ModelScope通过GPT-3中文2.7B模型在诗词生成数据集上二次开发训练

637

2

0

gpt3做finetune的数据集需要什么格式，需要怎么一个处理？

367

1

0

ModelScope gpt-3（2.7B）如果二次训练，数据集6条左右，所需计算资源和成本怎么计算

610

1

0

训练GPT-3模型使用的数据集可以包含tgt_txt字段吗？

1999

1

0

如何实例化一个聊天模型，并指定使用GPT-4？

289

1

0

训练一个GPT-3模型大概需要多少计算量和算力？

2645

3

0

在GPT等大模型的加持下，新必应带来了哪些变革？

202

2

0

问答排行榜

最热

最新

【大咖问答】对话PostgreSQL 中国社区发起人之一，阿里云数据库高级专家德哥

据说在家办公的程序员是这样写代码的？

如何升级配置

【藏经阁一起读（27）】本周推荐《Apache Flink案例集（2022版）》，你有哪些心得？

【精品问答】python技术1000问(1)

我用qoder 和 codex+deepseek 及claude + qwen 3.7同时解题目

阿里云服务器多少钱一年？支持40个连接的配置

阿里云服务器多少钱一年企业用？公司用什么配置？

阿里云服务器多少钱一年？企业用的配置费用价格

阿里云服务器多少钱一年？学生用的配置价格

相关解决方案

更多

主动式智能导购 AI 助手构建

构建面向应用日志的实时监控

构建视频直播系统

高效构建全球网络服务性能观测体系

RDS 与 ClickHouse 构建一站式 HTAP

还有其他疑问?