科技领域迎来新突破,苹果公司近期发表的一篇AI研究论文引发关注。该论文聚焦于生成式AI在App界面开发中的应用,提出了一种创新方法,使经过特定调整的Qwen3-Coder模型在UI生成能力上超越了GPT-5。
论文由苹果UICoder团队完成,核心目标是探索如何更高效地将生成式AI融入App开发流程。研究指出,当前主流的“人类反馈强化学习”(RLHF)在UI设计领域存在明显局限性。传统RLHF依赖人类对AI生成结果的简单“点赞/点踩”或排序,这种二元评价体系无法捕捉设计背后的复杂逻辑,也无法反映设计师的实际工作流程。AI仅能感知结果的好坏,却无法理解具体缺陷或改进方向。
为突破这一瓶颈,研究团队邀请21位具有2至30年经验的专业设计师参与实验。与以往评分模式不同,设计师需通过撰写详细评论、绘制草图或直接修改代码的方式优化AI生成的界面。团队共收集1460条深度注释数据,并将“修改前”与“修改后”的对比样本输入奖励模型。该模型通过学习界面截图与自然语言描述,逐步掌握了人类设计师对UI美观性与功能性的判断标准。
实验结果表明,基于“草图反馈”训练的模型表现尤为突出。令人意外的是,仅用181个草图注释进行微调,该模型便实现了对GPT-5的超越。研究团队强调,这一发现证明专家级的高质量反馈可使小参数模型在特定领域展现出超越大型模型的潜力,为AI训练提供了新思路。
研究还发现设计审美具有显著主观性。在单纯排序任务中,研究人员与设计师的观点一致率仅49.2%,近乎随机选择。但当设计师通过草图或直接编辑表达意图后,双方一致率分别提升至63.6%和76.1%。数据表明,具体的视觉修改比抽象评分更能形成共识,这为AI辅助设计工具的开发指明了关键方向——通过可视化交互而非数值评价来优化设计流程。










