近日,AI界发生了一起令人啼笑皆非的事件。DeepSeek,这一备受瞩目的AI模型,在其最新发布的V3.1版本中,意外地展现出了对汉字“极”的异乎寻常的偏爱。
上周,DeepSeek推出了V3.1-Base版本,尽管众多用户翘首以待的是V4版本。与此同时,V3.1版本已在网页、App及小程序等多个平台上线。然而,真实用户的测试反馈却带来了一个意想不到的问题:在模型的输出文本中,“极”字如幽灵般随机出现。
一位知乎用户Fun10165分享了她在使用火山引擎版DeepSeek V3.1整理物理试卷时的遭遇。她发现,模型的输出中莫名其妙地夹杂了许多“极”字,这一问题在后续测试中也持续出现,甚至在尝试通过官方API修复时也未能幸免。
不仅如此,其他用户也在不同平台上反映了类似的问题。有用户猜测,这可能是数据污染所致,即在模型训练过程中,某些包含“极”字的数据未被有效清洗,从而在模型输出中留下了痕迹。例如,有用户在使用不同版本的DeepSeek时,发现输出中不仅包含“极”,还有“极客园”、“极速赛车开奖直播”等字符串,这些都被认为是数据未清洗干净的证据。
Reddit上的讨论同样热烈。用户u/notdba在测试DeepSeek V3.1时,发现模型会在意想不到的位置输出“极”字及其相关词汇。他猜测,这一问题可能与多token预测(MTP)有关,当推理堆栈不支持MTP时,问题可能更加明显。
还有用户发现DeepSeek-V3.1存在多语言混用的问题。在中文翻译成俄语的过程中,模型会混合使用多种语言,包括英文和中文词汇。这一问题在不同提供商的OpenRouter上均有出现,进一步证实了数据污染的可能性。
面对这一尴尬局面,DeepSeek团队尚未给出官方解释。但这一事件无疑给所有AI模型开发者敲响了警钟:在追求高性能的同时,基础数据的质量同样至关重要。任何微小的数据污染都可能导致模型在实际应用中出现意想不到的偏差。