在计算机科学领域,如何让AI像人类一样自然理解并检索包含文字、图片等多种形式的混合内容,一直是备受关注的难题。近日,一支来自国内高校的研究团队在该问题上取得重要进展,其研发的AI系统展现出处理复杂信息的能力,为智能信息检索带来新思路。
传统AI系统在面对混合内容时存在明显短板。多数系统要么将文字与图片分开处理,如同让人闭眼读书、捂耳看画,难以把握整体信息;要么仅用文字搜索图片,如同凭声音找电影,常遗漏关键内容。更重要的是,这些系统忽略了文字与图片在同一页面中的空间位置和逻辑联系,导致对内容完整含义的理解出现偏差。
为攻克这一难题,研究团队开发了名为Nyx的AI系统。该系统如同一位“超级图书管理员”,不仅能解读文字,还能“看懂”图片,更能理解图文混合时表达的完整信息。这种能力被团队称为“通用检索增强生成”,旨在满足现实世界中常见且复杂的信息处理需求。
构建这样一个系统,首要挑战是缺乏合适的训练材料。现实中的网页内容丰富多样,但要让AI学会处理,需要大量标注好的问答对作为“教材”。为此,团队设计了一套四步骤的自动化流程,打造了NyxQA数据集。
第一步是从真实网页中筛选内容。团队从OBELICS数据集中选取真实网页文档,这些文档包含各种图文组合方式。他们将每个文档切分成不超过200个文字标记的片段,同时保持语义完整,最终构建了包含46741个文档片段的混合模态语料库。该语料库真实反映了网络内容的多样性,涵盖纯文字、单独图片、图文配对及图文交错等复杂格式。
第二步是生成问答对。团队从语料库中挑选10000个代表性片段,使用视觉语言模型作为“AI老师”,为每个片段生成最多五个问答对。对于纯文字文档,AI老师专注于文本内容提问;对于含图片的文档,则特别关注视觉信息。为确保问题准确性,团队设计了特殊标记系统,明确图片与问题的对应关系。
第三步是质量把控。团队设计了三重过滤机制:错误过滤阶段清除明显错误,如依赖上下文的问题或图片标签错误;问答精炼阶段优化表达,去除冗余信息,提高清晰度;选项生成阶段为每个问题生成三个合理但错误的干扰选项,提升AI的判断精确性。经过处理,最终获得了高质量的NyxQA数据集。
第四步是“硬核”负样本挖掘。为让Nyx学会精准检索,团队对每个问题确定正确文档作为“正样本”,再从语料库中搜索最相关的前10个文档,从中选取5个作为“硬负样本”。这些样本与问题高度相关但非正确答案,通过对比学习,Nyx学会了在海量信息中精准定位关键内容。
Nyx的训练采用两阶段策略。第一阶段是预训练,团队将NyxQA数据集与多个公开检索数据集结合,进行大规模对比学习训练,并融入Matryoshka表示学习技术,平衡检索效果与计算效率。同时,为增强文本理解能力,团队还加入了纯文本数据集。第二阶段是监督微调,团队设计了一种基于视觉语言模型反馈的微调方法。对于每个查询,先使用预训练的Nyx检索候选文档,再输入视觉语言模型生成答案,根据答案质量确定正负样本,使检索器更好配合生成模型。
Nyx的架构基于成熟的视觉语言模型改造而成。系统将不同模态内容映射到同一向量空间,使相似内容彼此靠近。为处理不同输入,团队在查询前添加指令字符串,确保统一处理图文混合内容。训练目标采用InfoNCE损失函数配合Matryoshka表示学习,提升模型性能。
为验证Nyx的性能,团队进行了全面实验。在文本检索任务中,尽管对比模型拥有庞大参数,Nyx仍凭借轻量级架构取得显著优势。在多模态任务中,Nyx的表现更为突出,在多个数据集上实现了性能跃升。统计测试结果也证明了各改进步骤的有效性。
深入分析发现,训练数据规模与模型性能呈对数线性关系,继续增加高质量数据仍能提升性能。增加输入文档数量可提升检索器表现,但收益递减,Nyx在各种设置下均表现优异。Nyx还展现出跨生成器泛化能力,且Matryoshka表示学习技术使其能适应不同资源约束环境。
通过具体案例对比,Nyx的优势更加明显。在一个多模态问答案例中,对比模型或遗漏关键信息,或缺乏视觉证据,而Nyx不仅识别了查询实体,还检索到包含关键图片的文档,为生成准确答案提供了充分依据。
研究还发现,生成模型“偏好”的文档可能与人工标注的黄金文档不同。通过反馈学习,Nyx发现了更能帮助生成正确答案的文档,这一发现挑战了传统检索评估方式,提示应更关注检索结果的实用性。
目前,研究团队已将Nyx的代码开源,为开发者和研究人员提供了基础。这项技术有望在未来集成到搜索引擎、智能助手等应用中,让信息获取变得更加高效便捷。











