每日学术速递2.14

简介: 尽管最近几个两阶段的原型网络在少有的命名实体识别(NER)任务中取得了成功,但在跨度检测阶段检测出的错误跨度过大以及在类型分类阶段原型不准确和不稳定仍然是具有挑战性的问题。在本文中,我们提出了一个新颖的类型感知分解框架

CV - 计算机视觉 |  ML - 机器学习 |  RL - 强化学习 | NLP 自然语言处理


Subjects: cs.CL


1.Type-Aware Decomposed Framework for Few-Shot Named Entity Recognition

adc074dc7c781444cadb88243aa9a1cc.png

标题:识别少数命名实体的类型感知分解框架

作者:Yongqi Li, Tieyun Qian

文章链接:https://arxiv.org/abs/2302.06397v1

项目代码:https://github.com/liyongqi2002/TadNER

7620441e639f7cb9d0241e9f11ee17fe.png

摘要:

       尽管最近几个两阶段的原型网络在少有的命名实体识别(NER)任务中取得了成功,但在跨度检测阶段检测出的错误跨度过大以及在类型分类阶段原型不准确和不稳定仍然是具有挑战性的问题。在本文中,我们提出了一个新颖的类型感知分解框架,即TadNER,来解决这些问题。我们首先提出了一个类型感知的跨度过滤策略,通过去除那些在语义上远离类型名称的跨度来过滤掉错误的跨度。然后,我们提出了一种类型意识的对比学习策略,通过共同利用支持样本和类型名称作为参考,构建更准确和稳定的原型。在各种基准上进行的大量实验证明,我们提出的TadNER框架产生了新的最先进的性能。

42e12a47dd072c3224f254e4ba74b589.png

d02294ec8f98e35cb687152b16157f6a.png

d04dbbfdd285c52a545535141db14d56.png

Subjects: cs.CV


2.Adjacent-level Feature Cross-Fusion with 3D CNN for Remote Sensing Image Change Detection

76e0d129b1fa0b80e4a0d06a1e3ce970.png

标题:用三维CNN进行遥感图像变化检测的相邻级特征交叉融合

作者:Yuanxin Ye, Mengmeng Wang, Liang Zhou, Guangyang Lei, Jianwei Fan, Yao Qin

文章链接:https://arxiv.org/abs/2302.05109v1

项目代码:https://github.com/wm-githuber/afcf3d-net

a315264b857249a11f29c483b654937d.png

摘要:

       近年来,利用遥感图像进行基于深度学习的变化检测受到越来越多的关注。然而,如何有效地提取和融合双时空图像的深层特征以提高变化检测的准确性仍是一个挑战。为了解决这个问题,本文提出了一种新型的具有三维卷积的邻接级特征融合网络(名为AFCF3D-Net)。首先,通过三维卷积的内部融合特性,我们设计了一种新的特征融合方式,可以同时提取和融合双时态图像的特征信息。然后,为了弥补低级特征和高级特征之间的语义差距,我们提出了相邻级特征交叉融合(AFCF)模块,以聚合相邻级之间互补的特征信息。此外,引入密集跳过连接策略,以提高像素级预测的能力和结果中变化对象的紧凑性。最后,提出的AFCF3D-Net在三个具有挑战性的遥感变化检测数据集上得到了验证。武汉建筑数据集(WHU-CD)、LEVIR建筑数据集(LEVIR-CD)和中山大学(SYSU-CD)。定量分析和定性比较的结果表明,与其他最先进的变化检测方法相比,提出的AFCF3D-Net取得了更好的性能。

ffc93fb9960598ad4244b1649a9a4052.png

73e1e93ae83db978d10062a54184ee7d.png

c5262a58bdcc2efcbfc4c3173f4f15f6.png

3.CEN-HDR: Computationally Efficient neural Network for real-time High Dynamic Range imaging

4086b699bb9054ecaa0ca66507640a80.png

标题:CEN-HDR:用于实时高动态范围成像的计算效率神经网络

作者:Steven Tel, Barthélémy Heyrman, Dominique Ginhac

文章链接:https://arxiv.org/abs/2302.05213v1

项目代码:https://github.com/steven-tel/cen-hdr

000fcec64827e7a82729fa30f088ddb7.png

摘要:

       高动态范围(HDR)成像仍然是现代数字摄影中的一项挑战性任务。最近的研究提出了提供高质量采集的解决方案,但其代价是非常多的操作和缓慢的推理时间,这使得这些解决方案无法在轻量级实时系统上实施。在本文中,我们提出了CEN-HDR,一个新的计算效率高的神经网络,通过提供一个基于光注意机制和亚像素卷积操作的新型架构,用于实时HDR成像。我们还通过使用知识蒸馏法进行网络压缩,提供了一种高效的训练方案。我们进行了广泛的定性和定量比较,表明我们的方法在图像质量方面产生了有竞争力的结果,同时比最先进的解决方案更快,使其能够在实时限制下实际部署。实验结果表明,我们的方法在Kalantari2017数据集上获得了43.04 mu-PSNR的分数,使用Macbook M1 NPU的帧速率为33 FPS。

88f4c02d63f470f63cb44fd5fbb7e9ba.png

23d762d3d96f7101553310f389146d41.png

60caaf4af5cd84bd02796fe2a35b12ad.png

目录
相关文章
|
机器学习/深度学习 自然语言处理 算法
每日学术速递2.21
大规模文本到图像 (T2I) 模型令人难以置信的生成能力已经证明了学习复杂结构和有意义的语义的强大能力。然而,仅仅依靠文本提示并不能充分利用模型学到的知识,尤其是在需要灵活准确的结构控制时。在本文中,我们的目标是“挖掘”出 T2I 模型隐式学习的能力,然后显式地使用它们来更细粒度地控制生成。
113 0
|
机器学习/深度学习 人工智能 自然语言处理
每日学术速递4.3
最近在语言引导图像生成领域取得的突破取得了令人瞩目的成就,能够根据用户指令创建高质量和多样化的图像。尽管合成性能令人着迷,但当前图像生成模型的一个重大限制是它们在图像中生成连贯文本的能力不足,特别是对于像汉字这样的复杂字形结构。为了解决这个问题,我们引入了 GlyphDraw,这是一个通用的学习框架,旨在赋予图像生成模型生成嵌入连贯文本的图像的能力。据我们所知,这是图像合成领域第一个解决汉字生成问题的工作。
145 0
每日学术速递4.3
|
机器学习/深度学习 编解码 人工智能
每日学术速递4.28
神经辐射场 (NeRF) 在 3D 场景建模和合成高保真新颖视图方面取得了显著成功。然而,现有的基于 NeRF 的方法更侧重于充分利用图像分辨率来生成新颖的视图,而较少考虑在有限的输入分辨率下生成细节。类似于图像超分辨率的广泛使用
184 0
|
机器学习/深度学习 自然语言处理 机器人
每日学术速递4.26
我们介绍了 CLaMP:对比语言-音乐预训练,它使用音乐编码器和文本编码器通过对比损失联合训练来学习自然语言和符号音乐之间的跨模态表示。为了预训练 CLaMP,我们收集了 140 万个音乐文本对的大型数据集。它采用文本丢失作为数据增强技术和条形修补来有效地表示音乐数据,从而将序列长度减少到不到 10%。此外,我们开发了一个掩码音乐模型预训练目标,以增强音乐编码器对音乐背景和结构的理解。
106 0
|
机器学习/深度学习 人工智能 自然语言处理
每日学术速递4.4
我们对 Embodied AI 的预训练视觉表示 (PVR) 或视觉“基础模型”进行了最大、最全面的实证研究。首先,我们策划了 CortexBench,它由 17 项不同的任务组成,涵盖运动、导航、灵巧和移动操作。接下来,我们系统地评估现有的 PVR,发现没有一个具有普遍优势。为了研究预训练数据规模和多样性的影响
109 0
|
机器学习/深度学习 人工智能 自然语言处理
每日学术速递5.8
最近的 AI 助理代理,例如 ChatGPT,主要依靠带有人工注释的监督微调 (SFT) 和来自人类反馈的强化学习 (RLHF) 来使大型语言模型 (LLM) 的输出与人类意图保持一致,确保它们是乐于助人、合乎道德且可靠。然而,由于获得人工监督的高成本以及质量、可靠性、多样性、自我一致性和不良偏见等相关问题
168 0
|
机器学习/深度学习 自然语言处理 算法
每日学术速递5.10
由于对各种可能的自然语言问题进行概括的挑战,基于知识库的问答被认为是一个难题。此外,不同知识库之间知识库模式项的异质性通常需要对不同知识库问答 (KBQA) 数据集进行专门培训。为了使用统一的免训练框架处理各种 KBQA 数据集的问题,我们提出了 KB-BINDER,它首次实现了对 KBQA 任务的少样本上下文学习
199 0
|
机器学习/深度学习 自然语言处理 算法
每日学术速递5.6
大型语言模型的最新进展引发了思维链中的推理,使模型能够以类似人类的方式分解问题。虽然这种范式提高了语言模型中的多步推理能力,但它受到单峰性的限制,主要应用于问答任务
104 0
|
机器学习/深度学习 自然语言处理 计算机视觉
每日学术速递4.18
我们介绍了 Delta Denoising Score (DDS),这是一种用于基于文本的图像编辑的新颖评分函数,可引导对输入图像进行最小程度的修改以实现目标提示中描述的内容。DDS 利用文本到图像扩散模型的丰富生成先验,可用作优化问题中的损失项,以将图像引导至文本指示的所需方向。DDS 利用分数蒸馏采样 (SDS) 机制来进行图像编辑。我们表明,仅使用 SDS 通常会由于嘈杂的梯度而产生不详细和模糊的输出。
191 0
|
机器学习/深度学习 存储 自然语言处理
每日学术速递4.17
扩散模型已被证明在生成高质量图像方面非常有效。然而,使大型预训练扩散模型适应新领域仍然是一个开放的挑战,这对于实际应用至关重要。本文提出了 DiffFit,这是一种参数高效策略,用于微调大型预训练扩散模型,从而能够快速适应新领域。DiffFit 非常简单,仅微调特定层中的偏差项和新添加的缩放因子
132 0