带你读《2022技术人的百宝黑皮书》——ACL2022 自监督文本表示新框架ArcCSE(1)

简介: 带你读《2022技术人的百宝黑皮书》——ACL2022 自监督文本表示新框架ArcCSE(1)

作者:钰皓

出品:大淘宝技术


学习高质量文本表示是NLP的基础任务之一,可应用于大量的下游任务。尽管像BERT之类的预训练语言模型获得了巨大成功的,但在文本语义相似任务中,直接用其获取的文本表征往往效果欠佳。最近一些基于对比学习的文本表示建模方法取得了不错的效果,但这些方法更多关注于正负表征对的构建,对训练目标优化不足。如先前工作普遍采用的NT-Xent loss,判别能力不足且无法建模文本间的语义偏序关系。因此,本文提出一种新的自监督文本表示算法ArcCSE,通过设计新的对比学习目标并建模文本间语义偏序关系,增强模型对样本语义的区分能力。实验表明,该方法在STS和SentEval多个文本语义相关性及下游迁移任务上超过此前的自监督文本表示模型。相关文章“A Contrastive Framework for Learning Sentence Representations from Pairwise and Triple-wise Perspective in Angular Space”已被ACL 2022录用。


基于BERT[1]等预训练语言模型获取文本表征向量时,若不经finetune直接采用[CLS] embedding或输出层embedding的均值作为表征,常常无法得到较好的效果,有时效果甚至不如非结合上下文语境的embedding方法如GloVe。有鉴于此,近期一些自监督文本表征算法陆续提出,这些方法往往侧重于采用不同的文本数据增强方法或不同的模型结构来获取文本表征正样本对,并通过对比学习方法来对模型进行优化。已有工作对训练目标本身探索较少,因此本文从对比学习损失函数构建和文本间语义偏序关系建模角度出发,提出了一种新的自监督文本表示算法,相较已有算法表现出更好的语义判别力,如图1。


image.png

图1. 文本表示向量可视化, 将三个相关文本分别经过BERT、SimCSE和ArcCSE多次获取多个表示向量,再用t-SNE降维进行可视化


方法


ArcCSE算法框架主要包含pairwise文本关系建模和triple-wise文本关系建模,算法框架如下图所示。


image.png

图2. ArcCSE算法框架



带你读《2022技术人的百宝黑皮书》——ACL2022  自监督文本表示新框架ArcCSE(2) https://developer.aliyun.com/article/1243562?groupCode=taobaotech

相关文章
|
Java
Java | 使用 StopWatch 优雅打印执行耗时
Java | 使用 StopWatch 优雅打印执行耗时
2122 0
|
消息中间件 JSON Java
Kafka如何修改分区Leader | 文末送书8本
Kafka如何修改分区Leader | 文末送书8本
506 0
Kafka如何修改分区Leader | 文末送书8本
|
5天前
|
人工智能 JSON 监控
Claude Code 源码泄露:一份价值亿元的 AI 工程公开课
我以为顶级 AI 产品的护城河是模型。读完这 51.2 万行泄露的源码,我发现自己错了。
4077 12
|
16天前
|
人工智能 JSON 机器人
让龙虾成为你的“公众号分身” | 阿里云服务器玩Openclaw
本文带你零成本玩转OpenClaw:学生认证白嫖6个月阿里云服务器,手把手配置飞书机器人、接入免费/高性价比AI模型(NVIDIA/通义),并打造微信公众号“全自动分身”——实时抓热榜、AI选题拆解、一键发布草稿,5分钟完成热点→文章全流程!
11647 137
让龙虾成为你的“公众号分身” | 阿里云服务器玩Openclaw
|
4天前
|
人工智能 数据可视化 安全
王炸组合!阿里云 OpenClaw X 飞书 CLI,开启 Agent 基建狂潮!(附带免费使用6个月服务器)
本文详解如何用阿里云Lighthouse一键部署OpenClaw,结合飞书CLI等工具,让AI真正“动手”——自动群发、生成科研日报、整理知识库。核心理念:未来软件应为AI而生,CLI即AI的“手脚”,实现高效、安全、可控的智能自动化。
1422 7
王炸组合!阿里云 OpenClaw X 飞书 CLI,开启 Agent 基建狂潮!(附带免费使用6个月服务器)
|
6天前
|
人工智能 自然语言处理 数据挖掘
零基础30分钟搞定 Claude Code,这一步90%的人直接跳过了
本文直击Claude Code使用痛点,提供零基础30分钟上手指南:强调必须配置“工作上下文”(about-me.md+anti-ai-style.md)、采用Cowork/Code模式、建立标准文件结构、用提问式提示词驱动AI理解→规划→执行。附可复制模板与真实项目启动法,助你将Claude从聊天工具升级为高效执行系统。
|
5天前
|
人工智能 定位技术
Claude Code源码泄露:8大隐藏功能曝光
2026年3月,Anthropic因配置失误致Claude Code超51万行源码泄露,意外促成“被动开源”。代码中藏有8大未发布功能,揭示其向“超级智能体”演进的完整蓝图,引发AI编程领域震动。(239字)
2338 9

热门文章

最新文章