带你读《2022技术人的百宝黑皮书》——ACL2022 自监督文本表示新框架ArcCSE(5)

简介: 带你读《2022技术人的百宝黑皮书》——ACL2022 自监督文本表示新框架ArcCSE(5)

带你读《2022技术人的百宝黑皮书》——ACL2022  自监督文本表示新框架ArcCSE(4) https://developer.aliyun.com/article/1243560?groupCode=taobaotech



SentEval 任务


image.png

表2. 文本表示在SentEval迁移任务的性能



表2结果表明基于ArcCSE产生的文本表示向量在应用于下游的文本分类、情感分析等任务时取得了较好的效果,平均准确率优于SimCSE及其他经典模型。


总结


论文提出一种新的自监督文本表示框架ArcCSE,其通过引入angular margin构建了一个新的对比学习目标,可增强文本语义判别能力,同时提出了一个新的自监督任务对文本的语义偏序关系进行建模。在STS语义相似度判别任务和SentEval迁移任务上的实验表明ArcCSE效果优于SOTA算法。该方案已在淘系内容理解业务中落地应用,如点淘、闲鱼业务场景中话题及内容的检索聚合等。


Reference


image.pngimage.png


团队介绍


大淘宝技术内容理解团队依托淘系内容数据资产,建设了内容场景下的结构化标签、检索、审核、互动与生产等技术体系。支持淘宝直播、逛逛和点淘等十余个核心业务。我们持续以技术驱动产品和商品创新,不断探索和衍生颠覆型互联新技术,获得过国家科技进步二等奖,在NIPS、CVPR、ACL、TPAMI、TIP等会议及期刊上发表10余篇机器视觉和自然语言相关的论文。

相关文章
|
Web App开发 C# 数据库
Razor入门
    在学习MVC的时候,创建控制器总会看到默认的Razor:          然后,我们就可以在创建的视图里面这样写:       @* @Html.
1182 0
|
5天前
|
人工智能 JSON 监控
Claude Code 源码泄露:一份价值亿元的 AI 工程公开课
我以为顶级 AI 产品的护城河是模型。读完这 51.2 万行泄露的源码,我发现自己错了。
4077 12
|
16天前
|
人工智能 JSON 机器人
让龙虾成为你的“公众号分身” | 阿里云服务器玩Openclaw
本文带你零成本玩转OpenClaw:学生认证白嫖6个月阿里云服务器,手把手配置飞书机器人、接入免费/高性价比AI模型(NVIDIA/通义),并打造微信公众号“全自动分身”——实时抓热榜、AI选题拆解、一键发布草稿,5分钟完成热点→文章全流程!
11647 137
让龙虾成为你的“公众号分身” | 阿里云服务器玩Openclaw
|
4天前
|
人工智能 数据可视化 安全
王炸组合!阿里云 OpenClaw X 飞书 CLI,开启 Agent 基建狂潮!(附带免费使用6个月服务器)
本文详解如何用阿里云Lighthouse一键部署OpenClaw,结合飞书CLI等工具,让AI真正“动手”——自动群发、生成科研日报、整理知识库。核心理念:未来软件应为AI而生,CLI即AI的“手脚”,实现高效、安全、可控的智能自动化。
1422 7
王炸组合!阿里云 OpenClaw X 飞书 CLI,开启 Agent 基建狂潮!(附带免费使用6个月服务器)
|
6天前
|
人工智能 自然语言处理 数据挖掘
零基础30分钟搞定 Claude Code,这一步90%的人直接跳过了
本文直击Claude Code使用痛点,提供零基础30分钟上手指南:强调必须配置“工作上下文”(about-me.md+anti-ai-style.md)、采用Cowork/Code模式、建立标准文件结构、用提问式提示词驱动AI理解→规划→执行。附可复制模板与真实项目启动法,助你将Claude从聊天工具升级为高效执行系统。
|
5天前
|
人工智能 定位技术
Claude Code源码泄露:8大隐藏功能曝光
2026年3月,Anthropic因配置失误致Claude Code超51万行源码泄露,意外促成“被动开源”。代码中藏有8大未发布功能,揭示其向“超级智能体”演进的完整蓝图,引发AI编程领域震动。(239字)
2338 9