ICASSP 2022 论文分享:基于 HRR 的非对齐序列多模态情感分析

简介: ICASSP 2022 论文分享:基于 HRR 的非对齐序列多模态情感分析

ICASSP (International Conference on Acoustics, Speech, and Signal Processing) 是国际声学、语音和信号处理会议,亦为IEEE信号处理协会组织的年度旗舰会议。历届ICASSP会议都备受语音AI领域研究学者的热议和关注。

本届ICASSP 2022,阿里巴巴达摩院语音实验室总共有 14 篇论文被大会接收,包含语音识别,语音合成,语音前端处理,声纹识别,语音唤醒,多模态建模等研究方向。

文章介绍在非对齐序列的多模态情感分析场景中,一种基于 holographic reduced representation 的表征融合方法。

/ICASSP收录论文/

Mutimodal Sentiment Analysis On Unaligned Sequences Via Holographic Embedding

/作者/

马煜坤 马斌

|| 背景

多模态情感分析一直是语音理解任务中的一个重要的子任务。不同于传统的基于文本或者语音的单模态情感分析任务,多模态情感分析需要同时考虑多个模态(语音/文本/图像)的输入特征。

这个任务的核心是要把多个模态输入的特征进行有效的融合和利用。常见的多模态情感的分析场景中,输入是视频流,包含文本、图像和语音的三个特征序列。

根据多模态序列是否对齐,任务可以进一步细分为:1)对于对齐序列的多模态分析;2)对于非对齐序列的多模态分析。目前的研究针对对齐/非对齐序列的特征融合主要依靠使用多层网络结构(例如transformer layer)来完成。

|| 方法

我们针对非对齐序列的多模态表征融合提出一种基于 holographic reduced representation 的融合方法。这种融合方法可以用于表示任意两个模态的表征的高阶相关性(high-order correlation)。具体是通过 circular convolution layer来实现的。

如上图所示,circular convolution 可以被看做是一个压缩版本的向量外积,并可以通过 fast fourier transformation 来保证较高效率。下图展示我们提出的跨模态HRR的一个block:

第一层是 circular convolution 层用于表示两个模态序列 step-wise 的高阶相关性;

第二层 cross attention 层根据 X->Y 或者 Y->X 的方向对两个模态特征进行融合;

第三层 self-attention 层,根据融合过后的序列进行进一步的序列中的信息融合;

第四层 Linear 层对融合过后的表征进行进一步的变换。

考虑到效率,我们采取了将跨模态 HRR block 和 transformer block 混合的网络结构。只利用比较浅(1-3层)的 HRR 对多模态表征进行高阶融合,然后利用 transformer 层进行 task specific adaptation。我们试验了不同的混合策略(见下图,从左到右)分别对应 early fusion/intermediate fusion/late fusion.

|| 实验结果

我们在两个 CMU 的多模态情感分析数据集(下图左 CMU MOSI,下图右 MOSEI)上做了对比实验。对比了目前针对非对齐多模态序列的 SOTA 方法。结果显示在大多数评价指标上,我们的融合方法都实现了提升。

另一方面,我们比较了不同的与 transformer 层的混合方法的效率,我们发现在达到上面表格报告效果的前提下,使用 late fusion 和 early fusion 可以获得更好的 inference 效率。主要的原因是 late 和 early fusion 需要更少的 transformer 层。


|| Future Work在这个工作中,我们探索了利用HRR来进行跨模态的特征融合,并证明了在非对齐序列情感理解任务上的有效性。目前,我们利用HRR来对跨模态特征进行融合时,还是通过遍历所有的特征来实现的。针对下一步的探索方向,我们可以尝试将HRR和跨模态图模型进行结合,利用HRR来表示不同模态间存在联系的节点。

相关文章
|
机器学习/深度学习 算法
【基础回顾】在回归任务中常见的损失函数比较(mse、mae、huber)
【基础回顾】在回归任务中常见的损失函数比较(mse、mae、huber)
2124 0
【基础回顾】在回归任务中常见的损失函数比较(mse、mae、huber)
|
8月前
|
传感器 边缘计算 人工智能
2025大模型应用平台选型指南:从个人助手到企业级智能体,5大平台场景化拆解
本文深度评测五大主流大模型平台,结合金融、医疗、制造实战案例,解析Open WebUI、Dify、Ragflow、FastGPT与n8n的定位与优势,提供选型决策树与混合架构实例,助你精准匹配业务需求,避开“全能平台”陷阱,实现高效智能化落地。
|
缓存 前端开发 Java
在Java项目中实现跨域资源共享(CORS)
在Java项目中实现跨域资源共享(CORS)
|
小程序
【边做边学】uniapp里面的生命周期钩子函数
【边做边学】uniapp里面的生命周期钩子函数
664 0
|
搜索推荐 关系型数据库 MySQL
不引入ES,如何利用MySQL实现模糊匹配?
【8月更文挑战第23天】在数据处理和查询优化的日常工作中,我们常常面临需要执行模糊匹配的场景,比如搜索用户姓名、商品标题等。虽然Elasticsearch(ES)等搜索引擎提供了高效且强大的文本搜索能力,但在某些轻量级或资源受限的环境中,直接利用MySQL数据库实现模糊匹配也是一个经济且可行的选择。下面,我将分享几种在MySQL中实现模糊匹配的技术方法。
799 0
|
存储 人工智能 安全
计算机的发展历程与未来趋势
计算机的发展历程与未来趋势
|
存储 Linux 文件存储
[开源] 分享导出博客园文章成本地 Markdown 文件存储的工具
此文主要分享了如何将自己博客园的文章自动导出到 Markdown 文档进行存储,以便在本地进行归档管理,程序中也对文章的分类、tag、代码块以及文章中的图片进行了保存处理,以便上传到自己的图。 整理后的 Markdown 可以在本地整理成册或者发布到自己的个人博客上,比如我使用 Markdown 书写的 个人博客 。
2205 0
|
Web App开发 API
如何使用Postman 录制请求?
如何使用Postman 录制请求?
392 0
|
SQL 数据可视化 数据挖掘
Hive窗口函数详细介绍
Hive窗口函数详细介绍
674 0
|
小程序 容器
小程序view标签内数字/字母显示不换行
小程序view标签内数字/字母显示不换行
809 0

热门文章

最新文章