开发者社区> 问答> 正文

GPT-3的数据集是如何构建的?

GPT-3的数据集是如何构建的?

展开
收起
夹心789 2024-05-30 13:53:02 40 0
1 条回答
写回答
取消 提交回答
  • GPT-3的数据集构建过程包括:使用之前的reddit数据作为正例,Common Crawl作为负例训练二分类器来过滤掉不好的网页;使用lsh算法去重;增加已知的高质量数据,如BERT、GPT1、GPT2的数据集;在真实采样时赋予一定权重进行采样,因为Common Crawl数据集仍然较脏。

    2024-05-30 14:36:03
    赞同 2 展开评论 打赏
问答标签:
问答地址:
问答排行榜
最热
最新

相关电子书

更多
低代码开发师(初级)实战教程 立即下载
冬季实战营第三期:MySQL数据库进阶实战 立即下载
阿里巴巴DevOps 最佳实践手册 立即下载

相关实验场景

更多