在人工智能领域,多模态大模型的发展一直备受关注。最近,由字节跳动、华东师范大学和华中科技大学联合研究团队提出的TextSquare模型,在文字多模态视觉问答(VQA)任务上取得了令人瞩目的成绩。
TextSquare模型是一种基于大规模语言模型的文本中心视觉问答模型。它通过使用一种名为Square-10M的大规模、高质量指令微调数据集,实现了在视觉问答任务上的突破。该数据集的构建过程包括自我提问、回答、推理和评估四个步骤,利用了闭源的大规模语言模型进行数据生成。
研究团队在OCRBench等10个文本中心的视觉问答基准上对TextSquare模型进行了评估。结果显示,TextSquare模型在6个基准上的性能超过了当前最先进的模型,如GPT4V和Gemini。这表明TextSquare模型在处理文本中心的视觉问答任务上具有出色的能力。
此外,研究团队还发现,视觉问答推理数据在提供特定问题的全面上下文洞察方面起着至关重要的作用。这些数据不仅可以提高模型的准确性,还可以显著减少模型的幻觉现象。在四个通用的视觉问答和幻觉评估数据集上,TextSquare模型的平均得分为75.1%,超过了先前最先进的模型。
然而,尽管TextSquare模型在视觉问答任务上取得了显著的进展,但仍存在一些挑战和局限性。首先,尽管TextSquare模型在指令微调数据集上进行了大规模的训练,但在处理一些复杂的、不常见的问题时,仍可能存在性能下降的情况。其次,由于视觉问答任务的复杂性和多样性,模型的泛化能力仍然是一个需要进一步研究的问题。