深夜时分,OpenAI首席执行官又一次在社交平台为新产品造势。与以往强调技术参数不同,这次宣传重点转向用户反馈,直言正在针对产品短板进行优化。这种转变背后,是GPT-5系列推出后遭遇的尴尬处境——本应被替代的前代产品4o,因用户粘性过高被迫延长服务周期。
当测试者将官方展示的指令遵循案例投入实测时,新版本立即暴露出问题。要求输出六个汉字的测试中,系统连续给出五个字符的答案,即便切换英文提示词仍出现同样偏差。更令人困惑的是,在限制使用特定汉字的文本生成测试里,系统持续输出繁体字内容,直到取消限制才恢复正常。作为对比,竞品模型在相同测试中表现稳定。
情感交互能力的升级承诺同样遭遇质疑。官方宣称新版本"更具温度与对话感",但实际测试显示,当用户询问情感问题时,新旧版本的回应存在明显代差。前代产品会通过共情表达和鼓励性语言建立情感连接,而新版本更倾向于给出分析性解答,被测试者形容为"像在查阅心理学教材"。这种差异在二次测试中进一步放大,新版本甚至省略了基础的情感回应。
自适应计算优化成为为数不多的亮点。传统AI模型在处理不同难度问题时,消耗的计算资源缺乏弹性,新引入的动态调整机制使简单问题的响应速度提升40%。在编程类复杂问题测试中,虽然旧版本更快给出答案,但经核查发现其结果存在错误,而新版本通过延长思考时间给出了正确解法。这项改进对API调用用户具有实际价值,可在保证质量的前提下降低计算成本。
个性化功能更新带来意外收获。系统新增的七种角色设定中,"吐槽达人"模式引发关注。该模式下AI会主动质疑不合理的指令,对PUA式提问表现出明显抵触。测试显示,当要求AI无偿完成复杂任务时,该模式会直接指出指令的不合理性,这种反套路表现颠覆了传统AI的顺从形象。不过角色切换时的语境衔接仍显生硬,需要用户适应其独特的表达方式。
市场数据印证着产品面临的挑战。第三方机构统计显示,该系列市场占有率持续下滑,用户使用时长被多个新兴模型分流。曾经依赖的技术先发优势正在减弱,部分用户开始将日常查询转向其他平台。这种转变在开发者社区尤为明显,代码生成等核心场景的迁移速度超出预期。











