蚂蚁数科于今日上午正式揭晓了其最新研发的金融推理大模型——Agentar-Fin-R1。该模型根植于Qwen3技术框架,通过一系列金融领域的评测基准,如Fineval1.0和FinanceIQ,展现出了超越同尺寸开源通用大模型及金融专用大模型DeepSeek-R1的实力。
Agentar-Fin-R1提供了多样化的参数版本,包括32B和8B两个主要推理版本,以及非推理版本的14B和72B,旨在满足金融机构在不同应用场景下的具体需求。蚂蚁数科还推出了一款基于百灵大模型的混合专家(MoE)架构模型,进一步提升了推理速度。
为了推动金融大模型的发展和应用,蚂蚁数科不仅发布了Agentar-Fin-R1,还开源了两个重要资源:Finova评测基准和Agentar-Deepfinance-100K金融领域训练数据集。Finova是一个针对复杂推理和金融智能体任务的评测基准,旨在全面评估金融模型在实际业务中的表现。
蚂蚁数科首席技术官王维指出,Agentar-Fin-R1的成功得益于其“可靠、可控、可优化”的三大核心特点。可靠性方面,该模型通过构建涵盖6大类66小类的金融任务体系,确保了模型在银行、证券、保险等全场景中的适用性。通过可信数据合成和长思维链的精标链路,蚂蚁数科成功打造了100K大规模训练集,使Agentar-Fin-R1在激活能力上与通用大模型比肩,并在金融推理能力上脱颖而出。
在可控性方面,Agentar-Fin-R1通过主动学习的实践,针对模型的薄弱项进行有针对性的数据合成和动态调节,不仅提升了训练效率,还避免了大规模遗忘的问题。这一特性使得Agentar-Fin-R1在仅用不到一半数据的情况下,实现了更优的模型能力,并在多任务均衡训练中显著降低了微调阶段所需的数据和算力。
王维还强调,Agentar-Fin-R1将持续进化,通过建立高频敏捷的迭代机制,密切追踪实际数据和金融动态,确保模型能够及时发现并修复问题和缺陷。蚂蚁数科将通过训练和评测联动以及高效生成的训练数据,推动Agentar-Fin-R1不断贴合金融业务需求。
蚂蚁数科联合中国工商银行、宁波银行、北京前沿金融监管科技研究院等机构,共同推出了Finova评测基准。该基准涵盖了意图识别、工具调用和结构化表现等金融行业的全方位测评环节,旨在推动金融大模型在实际业务中的广泛应用。
蚂蚁数科还首次公开了其高复杂度的金融推理问题库,该数据库源于蚂蚁多年积累的真实业务数据,经过严格筛选和长思维链的精标链路处理,形成了一套全面评估真实业务能力的评测集。同时,蚂蚁数科还全面开源了Agentar-Deepfinance-100K大规模金融领域训练数据集,为金融大模型的发展提供了有力支持。