计算机前沿技术-人工智能算法-大语言模型-最新论文阅读-2024-09-19
1. SAM4MLLM: Enhance Multi-Modal Large Language Model for Referring Expression Segmentation
Authors: Yi-Chia Chen, Wei-Hua Li, Cheng Sun, Yu-Chiang Frank Wang, Chu-Song Chen
SAM4MLLM: 增强多模态大型语言模型以进行指代表达式分割
摘要:
本文介绍了一种创新方法SAM4MLLM,它将Segment Anything Model (SAM)与多模态大型语言模型(MLLMs)相结合,用于像素级感知任务。该方法使MLLMs能够学习像素级位置信息,而无需对现有模型架构进行大量修改或添加专门的标记。通过基于询问的方法,可以有效地找到SAM进行分割的提示点。该方法结合了详细的视觉信息和大型语言模型的强大表达能力,以统一的基于语言的方式进行,无需额外的计算开销。在公共基准测试上的实验结果证明了该方法的有效性。
创新点:
- 提出了一种简单的解决方案,通过不改变MLLM模型架构、引入新标记或使用额外损失函数,增强MLLM对像素级细节的理解。
- 引入了一种新的方法,通过主动查询语言系统来获取SAM的提示点线索。
- 在各种RES基准测试中,包括RES数据集、GRES和ReasonSeg,验证了SAM4MLLM的有效性,并展示了其在处理复杂像素感知任务中的优越性能。
算法模型:
SAM4MLLM方法通过将MLLMs与SAM无缝集成来增强MLLM的视觉能力。它采用了一种简单的策略,将像素级信息引入训练数据集,而不改变原始MLLM架构。该方法使用文本交叉熵损失进行训练,与流行的LLMs使用的相同。此外,提出了两种解决方案来获取SAM的提示点:直接生成提示点的Prompt-Point Generation (PPG)和通过查询-回答机制间接获取提示点的Proactive Query of Prompt-Points (PQPP)。
实验效果:
- 在refCOCO数据集上,SAM4MLLM-PQPP在val和testB上分别达到了77.1和80.9的准确率,超过了大多数最近的基于LLM的方法。
- 在gRefCOCO数据集上,SAM4MLLM-PQPP在Test Set B上达到了70.54的准确率,略低于GSVA但优于其他7B模型。
- 在ReasonSeg数据集上,SAM4MLLM-PQPP在val上达到了46.7的准确率,优于LISA-7B和其他方法。
- 在VQA数据集上,使用SAM4MLLM微调后,模型的VQA得分从78.2提高到了78.7。
推荐阅读指数: ★★★★★
推荐理由:
这篇论文提出了一种创新的方法,通过结合SAM和MLLMs来处理指代表达式分割任务。该方法在保持模型简单性的同时,显著提高了分割的准确性,且在多个基准测试上都取得了优异的性能。此外,该研究还探索了如何有效地结合不同模型的优势来解决复杂的多模态问题,这对于计算机视觉和自然语言处理领域的研究人员和实践者来说都是极具价值的。
2. Language Models and Retrieval Augmented Generation for Automated Structured Data Extraction from Diagnostic Reports
Authors: Mohamed Sobhi Jabal, Pranav Warman, Jikai Zhang, Kartikeye Gupta, Ayush Jain, Maciej Mazurowski, Walter Wiggins, Kirti Magudia, Evan Calabrese
使用开放权重大型语言模型和检索增强生成进行诊断报告中自动化结构化数据提取:方法和参数评估
摘要:
目的:开发并评估一个自动化系统,利用开放权重大型语言模型(LMs)和检索增强生成(RAG),从非结构化的放射学和病理学报告中提取结构化临床信息,并评估模型配置变量对提取性能的影响。
方法和材料:研究使用了两个数据集:7,294份放射学报告,标注了脑肿瘤报告和数据系统(BT-RADS)评分,以及2,154份病理学报告,标注了异柠檬酸脱氢酶(IDH)突变状态。开发了一个自动化流程,用于基准测试各种LMs和RAG配置的性能。系统评估了模型大小、量化、提示策略、输出格式化和推理参数的影响。
结果:最佳性能模型在从放射学报告中提取BT-RADS评分的准确率超过98%,在从病理学报告中提取IDH突变状态的准确率超过90%。表现最好的模型是医学微调的llama3。较大、更新和领域微调的模型持续优于旧的和较小的模型。模型量化对性能影响最小。少量提示显著提高了准确性。RAG提高了复杂病理报告的性能,但对较短的放射学报告没有提高。
结论:开放LMs展示了从非结构化临床报告中自动提取结构化临床数据的显著潜力,具有本地隐私保护应用的前景。模型选择、提示工程和使用标注数据的半自动优化对于最佳性能至关重要。这些方法可能足够可靠,可供研究工作流程中实际使用,突出了医疗数据提取中人机协作的潜力。
创新点:
- 利用开放权重的大型语言模型和检索增强生成(RAG)来自动化从非结构化医疗报告中提取结构化数据。
- 系统地评估了模型大小、量化、提示策略、输出格式化和推理参数对提取性能的影响。
- 通过少量提示和领域特定的微调,显著提高了模型在特定医疗数据提取任务中的准确性。
算法模型:
研究中使用了多种开放权重的大型语言模型(LMs),包括不同大小、量化水平、训练数据、发布日期和医学微调的模型,如Llama3、openbiollm Llama3、Llama2和Medllama2等。此外,研究还探索了RAG在提高复杂病理报告提取性能方面的潜力。
实验效果:
- 在放射学报告数据集上,最佳模型(openbiollm-llama3 70B Q_4)达到了98.68%的准确率。
- 在病理学报告数据集上,最佳模型(openbiollm-llama-3 70B Q_4)达到了90.02%的准确率。
- 较大、更新和领域微调的模型在提取任务中表现更佳。
- 模型量化对性能的影响不显著。
- 少量提示显著提高了模型的准确性。
推荐阅读指数: ★★★☆☆
推荐理由:
这篇论文针对医疗报告中结构化数据的自动化提取提出了一种创新方法,通过细致的实验评估了多种模型配置对性能的影响。研究结果对于医疗领域的数据管理和分析具有重要的实际应用价值,尤其是在提高数据处理效率和准确性方面。此外,论文还探讨了人机协作在医疗数据处理中的潜力,为未来相关技术的发展提供了有价值的参考。
3. Exploring Fine-tuned Generative Models for Keyphrase Selection: A Case Study for Russian
Authors: Anna Glazkova and Dmitry Morozov
探索针对俄语关键短语选择的微调生成模型:以俄语科学文本为例
摘要:
关键短语选择在学术文本领域扮演着核心角色,有助于有效信息检索、摘要和索引。本研究探索了如何将微调的基于生成器的变换器模型应用于俄语科学文本中的关键短语选择任务。实验涉及四种不同的生成模型,包括ruT5、ruGPT、mT5和mBART,并在领域内和跨领域设置中评估了它们的性能。实验在来自数学与计算机科学、历史、医学和语言学四个领域的俄语科学摘要文本上进行。使用生成模型,尤其是mBART,在领域内性能上(在BERTScore上高达4.9%,在ROUGE-1上高达9.0%,在F1分数上高达12.2%)超过了俄语的三个关键短语提取基线。尽管跨领域使用的结果显著较低,但在某些情况下仍显示出超越基线性能的能力,突显了在该研究领域进一步探索和改进的潜力。
创新点:
- 将微调的生成器变换器模型应用于俄语科学文本的关键短语选择任务。
- 在领域内和跨领域设置中对模型进行了系统评估,探索了不同模型在特定语言和领域中的应用效果。
- 特别关注了mBART模型在关键短语生成任务中的性能,发现其在领域内设置中表现尤为出色。
算法模型:
研究中使用了四种预训练的基于变换器的模型:ruT5、ruGPT、mT5和mBART。这些模型在训练集上进行了微调,以生成关键短语。输入文本的处理方式根据模型的不同而有所差异,例如ruGPT使用了特殊的标记来指示关键短语的开始和结束。生成模型没有限制生成关键短语的数量,而是由模型自行确定每个文本的最佳关键短语数量。
实验效果:
- 在领域内设置中,mBART模型在所有考虑的领域中均获得了最佳性能,BERTScore、ROUGE-1和F1分数均有所提高。
- 在跨领域设置中,尽管性能普遍下降,但mBART在大多数领域中的BERTScore和F1分数仍然超过了基线结果。
- 实验结果表明,生成模型能够产生原文本中未明确提及的关键短语,且无需人为设置关键短语的数量和长度限制。
推荐阅读指数: ★★★★☆
推荐理由:
这篇论文针对俄语科学文本的关键短语选择任务,提供了一种新颖的基于深度学习的解决方案。研究结果表明,通过微调的生成模型,尤其是mBART,能够在关键短语生成任务中取得显著的性能提升。这对于自然语言处理领域的研究人员和实践者来说,尤其是在处理非英语文本时,提供了有价值的参考。此外,论文还探讨了跨领域应用的挑战和潜力,为未来在这一领域的研究提供了方向。
4. Improving Multi-candidate Speculative Decoding
Authors: Xiaofan Lu, Yixiao Zeng, Feiyang Ma, Zixu Yu, Marco Levorato
改进多候选推测性解码
计算机前沿技术-人工智能算法-大语言模型-最新论文阅读-2024-09-20(下)+https://developer.aliyun.com/article/1628801