随着大模型技术的迅猛发展,大众对AI能力的期待值不断攀升,然而,在产业界的实际应用中,这一领域的现状与大众预期之间却存在着明显的差距。在日常生活场景中,大模型的迭代速度以周为单位,不断刷新着各类评测指标,展现出了超越人类的能力。然而,当这些模型进入工业制造、医疗健康、金融等专业领域时,却遭遇了前所未有的挑战。
在工业界,许多专家指出,尽管大模型在某些单点应用上取得了突破,但要实现大规模铺开,尤其是在ToB领域打造出爆款应用,仍有很长的路要走。这一困境的根源在于,专业场景对AI模型的可靠性要求极高,远非当前通用模型所能满足。这种差距,就如同让一个通识教育优秀的本科生去担任临床医生,虽然有一定的基础,但缺乏必要的专业深度和实践经验。
为了提升大模型在专业领域的可靠性,业界已经尝试了多种方法,如微调、检索增强、知识库等,但效果并不尽如人意。产业界普遍感到,大模型的可信应用仍然是一个亟待破局的问题。
近日,在WAIC论坛上,蚂蚁集团旗下蚂蚁密算提出了一个新的解决方案——基于高阶程序(High-Order Program)的大模型可信应用技术框架。这一框架借鉴了人类智能在处理高可靠性要求场景时的经验,通过结合专家经验、领域知识和多重核验,从工程化层面确保大模型的执行准确性。
蚂蚁集团副总裁、蚂蚁密算董事长韦韬用新能源车来比喻大模型在产业中的应用。他认为,大模型就像新能源车的电机系统,是通用的智力引擎,但要确保整个系统的可靠性,还需要依赖电控部分。高阶程序,正是这样一个有效的控制体系,能够承担起行业AI应用电控部分的智能。
在工业制造领域,AI的应用面临着极高的安全性、精准性、时效性和泛化能力要求。一旦AI的结果不准确,就可能干扰和影响工业领域的正常生产运转,甚至引发安全事故。同样,在医疗领域,由于大语言模型的推理过程是算法“黑盒”,医疗大模型在实际应用中通常面临可解释性和可靠性等问题。这些问题,都成为了大模型在产业端应用的绊脚石。
业界认为,大模型应用遭遇的可靠性不足,既与大模型固有的幻觉问题有关,也与模型对用户输入指令的遵循存在不确定性有关。为了解决这些问题,业界开始探索智能化与工程化相结合的路径。
浙江大学教授、区块链与数据安全全国重点实验室主任陈纯指出,模型的幻觉其实是人工智能系统智能水平发展到一定高度的产物。若消除所有幻觉,大模型将退化为机械的检索工具。因此,可靠性的突破不在于消灭“智力特征”,而在于构建工程化保障框架。
在这一理念的驱动下,蚂蚁密算展开了大模型可信应用的系列探索,并推出了HOP大模型可信应用技术框架。这一框架通过分解、核验和实测三步,从工程化层面确保模型执行结果的可靠性。它结合了编程语言和自然语言的优点,既避免了自然语言的歧义和模糊性,又降低了编程语言的使用门槛。
具体来说,HOP框架通过程序化表达业务逻辑、构建场景知识图谱和受控工具链三个核心组件来完成可靠性保障。这一框架不仅能够承载垂直领域的关键知识和实践,还能通过标准作业程序和检查清单等机制确保大模型实现专业应用的可靠性。
目前,高阶程序技术框架已经在金融风控全链路、网络入侵检测、医疗重复计费等多个行业场景中初步应用,取得了显著的效果。在金融风控领域,传统风控体系高度依赖人工干预,导致流程冗长、响应缓慢。而应用HOP技术框架后,能够将复杂的SOP转化为可执行的流程与代码,实现风控全链路的智能化编排与自动化执行,大大提高了效率和一致性。
尽管高阶程序技术框架为大模型在产业端的应用提供了新的解决方案,但韦韬也指出,这并不意味着一劳永逸。每个具体场景都需要通过这个技术框架来解决问题,智能与工程的融合、智能与专家知识的融合都是行业性的命题。蚂蚁密算希望通过开源这一技术框架,与各行业专家共同构建生态,推动大模型在专业领域中规模化应用。