文本分类达到0.717的准确率,发文庆祝

简介: 一直在关注文本分类的动态,直到最近找到了应用场景才开始真正动手。AI很火,但是泡沫终将远去,在AI技术成本昂贵的今天,我们的投资在多年后能留下多少一定是技术本身带来的商业价值。

一直在关注文本分类的动态,直到最近找到了应用场景才开始真正动手。AI很火,但是泡沫终将远去,在AI技术成本昂贵的今天,我们的投资在多年后能留下多少一定是技术本身带来的商业价值。

方案的选择

还是老规矩,先上方案选型。路很多,正确的选择一条适合自己的路其实比怎么做更重要。少走弯路,结合长期运营布局。
文本分类的方法很多,SVM, TextCNN, IDF和本文的FastText ,之所以选择了FastText是有现成的代码测试了一下效果,发现速度很快,处理几万条文本几乎不占CPU。
考虑到SVM太基础,可能无法应对复杂的语料环境。
IDF可能也可以,只是没能来得及试验。
TextCNN涉及到Tensorflow或者PyTorch等神经网络高计算量工具,作为最后的选择。

关键经验

  • 其实按照fasttext官网一步步走下来就很顺利。
  • 计算平台目前只有linux和mac, 我用centos7 都是直接make安装,不到10分钟装好。虚机上也能非常快。
  • 语料的准备是重中之重,不论采用哪种方式进行文本分类,都需要训练集和测试集。我是手工准备了1万条记录作为标准语料。后续会进入自我学习的循环,依靠用户体验,不断更新语料的正确分类,作为训练的输入。语料一定要做常规的处理:尽可能裁剪掉不必要的信息,添加自定义分词词典,去掉自定义的停用词。
  • 调优的工作能达到不错的效果,其实调优就是调整下参数,最简单的一步。如果计算速度快,调优也很快。
目录
相关文章
|
3月前
|
人工智能 算法 数据安全/隐私保护
无表情人脸预测政治信仰,AI准确率惊人!斯坦福研究登国际顶刊
【8月更文挑战第10天】斯坦福大学的研究揭示了面部识别技术的新应用:通过分析无表情人脸图片预测政治倾向。研究在《American Psychologist》发表,表明人类评估者与AI均能在控制人口统计学特征的情况下准确预测政治取向,相关系数分别为0.21和0.22。利用年龄、性别和种族信息时,算法准确性提升至0.31。研究还发现保守派倾向于有更大的下半部面部。尽管成果引人注目,但其局限性和潜在的隐私问题仍需审慎考量。
139 62
|
2月前
|
机器学习/深度学习 人工智能 芯片
牛津光计算论文登Nature正刊,分析帕金森患者步态准确率达92.2%
【9月更文挑战第23天】牛津大学研究人员在《自然》杂志上发表了一篇关于光计算的重要论文,展示了一种利用光的局部相干性增强光子计算并行性的新方法。该技术通过部分相干光与重建方法结合,提高了处理效率和并行性,同时降低了对相移器和微环谐振器的依赖,展示了在光子张量核心中的应用潜力,并在实际计算任务中实现了高准确率。这项突破有望推动光子处理器在人工智能领域的广泛应用。
40 5
|
4月前
|
存储 测试技术 计算机视觉
开源视频版GPT-4o?快速记忆,实时问答,拿下CVPR'24长视频问答竞赛冠军
【7月更文挑战第24天】Flash-VStream, 一款模拟人脑记忆的视频语言模型,实现实时长视频流理解和问答,夺得CVPR'24竞赛桂冠。它采用动态记忆技术,高效存储检索信息,大幅降低推理延迟与显存消耗,超越现有模型。虽有资源限制及复杂查询处理难题,仍展现卓越通用性及先进性能。[详细论文](https://arxiv.org/abs/2406.08085)。
84 17
|
存储 JSON 人工智能
送给大模型的「高考」卷:442人联名论文给大模型提出204个任务,谷歌领衔
送给大模型的「高考」卷:442人联名论文给大模型提出204个任务,谷歌领衔
168 0
送给大模型的「高考」卷:442人联名论文给大模型提出204个任务,谷歌领衔
|
JSON 自然语言处理 API
北大、西湖大学等开源「裁判大模型」PandaLM:三行代码全自动评估LLM,准确率达ChatGPT的94%
北大、西湖大学等开源「裁判大模型」PandaLM:三行代码全自动评估LLM,准确率达ChatGPT的94%
439 0
|
机器学习/深度学习 数据采集 人工智能
还不如GAN!谷歌、DeepMind等发文:扩散模型直接从训练集里「抄」
还不如GAN!谷歌、DeepMind等发文:扩散模型直接从训练集里「抄」
259 0
还不如GAN!谷歌、DeepMind等发文:扩散模型直接从训练集里「抄」
|
机器学习/深度学习 人工智能 测试技术
爆火的「GPT-4 MIT本科数学满分」论文作弊,数据集本身有问题
爆火的「GPT-4 MIT本科数学满分」论文作弊,数据集本身有问题
|
存储 机器学习/深度学习 SQL
今年英语高考,CMU用重构预训练交出134高分,大幅超越GPT3
今年英语高考,CMU用重构预训练交出134高分,大幅超越GPT3
|
人工智能
今年英语高考,CMU用重构预训练交出134高分,大幅超越GPT3(3)
今年英语高考,CMU用重构预训练交出134高分,大幅超越GPT3
|
机器学习/深度学习 存储 算法
顶会最强的前20%!电影情感效应预测论文拿下ACMMM Oral收录!
顶会最强的前20%!电影情感效应预测论文拿下ACMMM Oral收录!
207 0
下一篇
无影云桌面