社交媒体上,一款名为GPT Image2的图像生成工具凭借惊人的效果迅速走红,其背后的研发团队也由此进入公众视野。这支仅有13人的核心团队,在短短四个月内完成了底层架构的全面重构,将图像生成技术推向了新的高度。研究负责人陈博远虽未公开具体技术细节,但将其定义为“图像领域的GPT”,暗示该模型在通用性上实现了重大突破。
团队灵魂人物陈博远的学术与职业经历堪称传奇。高中时期参加科研营时,他甚至尚未掌握Python编程,但凭借天赋与努力,在读博期间便提出了“Diffusion Forcing”等创新理论,并在谷歌参与开发了被Gemini2.0采用的指令微调技术。加入OpenAI后,他主导了GPT图像模型的训练工作,同时作为Sora视频生成团队的核心成员,通过生成包含中文、韩文、孟加拉文等多种语言的海报,展现了模型卓越的语言处理能力。
在理解复杂指令与世界知识方面,GPT Image2同样表现优异。中科大博士Jianfeng Wang负责的模块解决了传统生图AI的长期难题:例如,过去模型生成的时钟几乎总是停留在10:10,而新模型已能精准呈现任意时间点及复杂空间布局。他表示,团队的目标是消除用户创作意图与最终成果之间的差距,让技术真正服务于人类想象力。
生产力工具化是GPT Image2的另一大亮点。来自浙大竺可桢学院的Yuguang Yang演示了将长篇论文自动转化为高精度PPT和信息图表的功能。这一突破源于团队对多模态理解、混合专家模型(MoE)架构及长程引导技术的深度整合,为学术研究与商业应用提供了高效解决方案。
这支成员平均年龄极低、背景多元的团队中,不乏2025年刚毕业的博士生。从DALL-E到GPT Image2,他们完成了从“生成图像”到“精准呈现”的技术跃迁。有趣的是,团队成员近期纷纷将社交头像换为极简日系贴纸风格,这种带有自嘲意味的举动,或许正是这群信奉“涌现式研究”的年轻科学家以独特方式表达对技术突破的庆祝。











