OpenAI研究科学家陈博远近日在知乎平台发布文章,以第一视角介绍了其主导训练的GPT生图模型最新进展。这位负责图像模型研发的核心成员透露,团队成功突破中文渲染技术瓶颈,使模型能够精准处理中文排版、分段及复杂信息图生成任务。
相较于传统图像生成工具在中文处理上的明显缺陷,新一代模型展现出惊人的语言理解能力。测试案例显示,该系统不仅能正确书写中文,还可生成包含多国语言文字的漫画、在米粒尺寸的微观空间刻写汉字、甚至通过视觉化方式证明数学定理。这些突破标志着AI在结构化视觉表达领域迈出关键一步。
陈博远的研究轨迹呈现出独特的技术追求。从麻省理工学院电子工程与计算机科学博士毕业,并辅修哲学的学习经历,塑造了其关注模型本质理解的研究理念。在谷歌DeepMind和OpenAI工作期间,他持续探索图像与语言的深层关联,致力于构建能模拟真实世界运行规律的"世界模型"。这种研究取向在其主导的Diffusion Forcing项目中得到充分体现——通过融合逐步生成与整体约束机制,解决了长内容生成的结构稳定性难题。
团队开发的SpatialVLM系统则开创性地将三维空间推理能力引入视觉模型。该技术使AI能够理解物体间的空间关系,突破了传统模型仅能识别图像内容的局限。这种技术演进方向在最新发布的模型中得到验证:系统可自主生成包含嵌套结构的漫画,在黑板图像中通过几何图形演绎数学公式,展现出超越像素处理的认知能力。
研究团队特别设计了系列挑战性测试场景。在中文彩蛋漫画案例中,模型需同时处理漫画分镜、多语种文字及微观尺度文字渲染;黑板视觉证明任务则要求系统将抽象数学关系转化为具象图形结构。这些测试验证了模型在复杂场景下的结构一致性保持能力,标志着视觉生成技术从"形似"向"意达"的质变。
这个由十余名跨领域专家组成的研发团队,汇聚了视觉理解、生成机制、系统架构等方向的顶尖人才。值得注意的是,核心成员中包含多位华裔科学家,他们在模型评估、数据优化及生成训练等环节发挥关键作用。陈博远特别强调,项目成功源于工程实现、艺术审美与市场传播的深度协同,最终呈现的每个案例都经过多轮技术验证与视觉设计打磨。
在专业研究之外,陈博远展现出鲜活的技术人文气质。其知乎账号"MIT奶茶店长"记录着对珍珠奶茶的趣味研究,曾以奶茶店分布为标准对美国高校进行另类排名。这种将复杂问题简化的思维特质,与其在模型研究中拆解本质问题的路径形成有趣呼应。当被问及模型代号"布基胶带"的由来时,他以香蕉贴墙的经典艺术案例幽默回应,彰显出技术理想主义者的独特浪漫。










