文档备案控制台

开发者社区问答正文

为什么大规模样本下特征总量轻易超过千亿量级会影响了算法效果？

为什么大规模样本下特征总量轻易超过千亿量级会影响了算法效果？

展开

收起

罗鹏大佬 2022-04-20 10:20:16 633 版权

来自：阿里技术

版权声明：本文内容由阿里云实名注册用户自发贡献，版权归原作者所有，阿里云开发者社区不拥有其著作权，亦不承担相应法律责任。具体规则请查看《阿里云开发者社区用户服务协议》和《阿里云开发者社区知识产权保护指引》。如果您发现本社区中有涉嫌抄袭的内容，填写侵权投诉表单进行举报，一经查实，本社区将立刻删除涉嫌侵权内容。

1 条回答

写回答

取消提交回答

Dons

传统的特征编号方法需要消耗极多的机器资源和耗费很长的计算时间来完成特征编号，而且对新出现的特征也难以及时进行编号。从资源消耗和时间消耗上看，特征序列化编号方法已经是不可承受的步骤。此外，采用类似TensorFlow里通过string_to_hash_bucket的方法将特征映射到固定范围的做法，虽然保证固定了tensor的shape，减少了参数总量，但是在特征总数巨大的时候则又引入了大量的哈希冲突，影响了算法效果。

2022-04-20 13:12:47

赞同展开评论

问答分类：

算法

问答标签：

算法特征特征算法算法大规模算法样本大规模算法

问答地址：

开发者社区 > 阿里技术 > 问答

相关问答

机器学习PAI这种在线学习的算法是把从评估结果来看，是把负样本没学进去吗？

247

2

0

有没有什么算法可以实现分析组件的输入和输出的特征，优化采集任务的执行效率？

92

0

0

在B端算法发展的背景下，为什么需要引入用户实时特征？

83

1

0

通义听悟应用是如何利用大规模语言模型（LLM）进行基础算法探索和应用落地的？

210

1

0

机器学习PAI-Designer算法组件特征离散如何选择离散方式

330

1

0

使用JPEG算法对一个8x8图像块进行压缩编码它的重构样本是什么样？

1120

1

0

D2C 智能化技术体系，算法工程中的样本生成有什么作用？

587

1

0

KNN算法的核心思想说K个最相似的样本是什么意思呀？

586

1

0

数据挖掘中分类算法按照样本数据里有没有特殊的一列可以分为什么？

468

1

0

商品算法大规模是怎么助力招商选品链路自动化升级的？

691

1

0

收录在圈子:

阿里技术

7055

+ 订阅

问答排行榜

最热

最新

【大咖问答】对话PostgreSQL 中国社区发起人之一，阿里云数据库高级专家德哥

据说在家办公的程序员是这样写代码的？

如何升级配置

【藏经阁一起读（27）】本周推荐《Apache Flink案例集（2022版）》，你有哪些心得？

【精品问答】python技术1000问(1)

如何在阿里云服务器上部署网站？2026年阿里云服务器怎么选？

部署OpenClaw多少钱？2026年阿里云 OpenClaw（Clawdbot）怎么部署及收费标准

阿里云百炼Coding Plan是什么意思？

有传言通义灵码不再增加新功能了，是这样吗？

OpenClaw（原Clawdbot）阿里云一键部署后，2026年有哪些应用场景可用到？

相关文章

为什么你的RAG总是答非所问？文档切分的艺术决定了检索效果

七种常见虫子的图像识别数据集分享（适用于目标检测任务）

OpenCV Python技术文档

SWE-bench破解AI编程能力：测试的价值不在脚本，在判断

OpAgent：登顶WebArena的多模态Web GUI Agent

还有其他疑问?