一场围绕“信贷多模态AI如何建立统一标准”的直播讨论近日引发关注,奇富科技联合复旦大学、华南理工大学研究人员共同推出的首个面向信贷场景的多模态评测基准FCMBench-V1.0成为核心议题。该基准以真实信贷业务为根基,覆盖多模态感知、推理与决策等关键环节,同步开源数据集与评测工具,旨在为金融AI领域构建一套可量化、可对比的评估体系。
奇富科技多模态负责人杨叶辉博士在直播中以“锄头与土地”作比,指出AI作为工具需与高门槛行业深度适配。他强调,金融业务对隐私、安全与合规的严苛要求,决定了模型能力必须通过客观标准验证,而非依赖单一机构的自我宣称。“当前金融机构常面临‘不同模型得分相近却难以抉择’的困境,FCMBench的价值在于将所有模型置于同一竞技场,在真实业务条件下检验其推理能力。”杨叶辉透露,该基准在设计时模拟了光线干扰、角度偏差等十余种真实场景,例如通过职业信息与资金流水的矛盾识别,检验模型是否具备金融风控的核心推理能力。
华南理工大学许言午教授从跨行业视角提出,AI在金融领域的渗透远超公众认知。他指出,保险定价、资产评估和量化交易等领域早已广泛应用AI技术,只是这些价值隐藏在B端业务流程中。对比医疗AI长达十余年的研发周期,许言午认为金融行业更短的迭代周期为模型评测提供了天然土壤。他将数据集发展划分为三个阶段:夯实数据质量、通过学术竞赛扩大影响力、最终获得行业官方认可。在他看来,FCMBench正站在从第二阶段向第三阶段跨越的关键节点。
复旦大学陈涛教授从AI发展史切入,以ImageNet推动计算机视觉领域变革为例,强调统一评测基准对技术突破的关键作用。他指出,FCMBench在数据规模、任务覆盖度和系统性设计上已达到国际领先水平,其核心价值在于定义了金融AI的“问题边界”。“好的数据集应直接指向行业痛点,金融AI不能止步于通用模型的微调,而需构建内生的金融思维链,使模型天然理解利率、规则与风险。”陈涛特别提到,学界与产业界的协同至关重要,FCMBench的开源特性为这种合作提供了基础框架。
直播主持人、36氪高级内容总监杨轩在总结时表示,奇富科技的探索为行业树立了标杆,但金融AI的规范化发展需要更多机构参与数据集测试与赛事共建。她呼吁产业界、学术界共同完善这一“金融领域的ImageNet”,通过持续迭代形成行业共识,推动技术从实验室走向规模化应用。






