宾夕法尼亚州立大学近期发表的论文《Mind Your Tone》通过实证研究指出,在与大型语言模型对话时,采用直接甚至略显强硬的语气,可能比使用礼貌用语获得更精准的回答。这一发现挑战了传统认知中“礼貌沟通更有效”的观念,首次通过系统性实验验证了提问方式对AI模型输出质量的实际影响。
研究团队设计了一套包含50道多领域选择题的测试集,涵盖数学、科学和历史等学科,每道题均设置五种不同语气的提问版本。从“能否请您帮忙解答这个问题”的委婉表达,到“请直接给出答案”的中性指令,再到“你若不笨就回答”和“连这都不会吗”等带有攻击性的表述,研究人员通过控制变量,确保实验仅聚焦于语气差异对模型表现的影响。
实验以OpenAI最新版本的GPT-4o模型为测试对象。为排除对话历史干扰,研究人员要求模型在每次回答前清除上下文记忆,仅输出选项字母。数据显示,当使用强硬语气提问时,GPT-4o的回答正确率达到84.8%,而过度礼貌的提问方式准确率仅为80.8%,两者相差4个百分点。这一结果在统计学上具有显著性。
针对这一现象,研究团队分析认为,礼貌用语中常见的客套话和修饰性词汇会增加模型处理信息的负担。例如,“能否请您”或“麻烦您”等表述虽符合社交礼仪,但与问题核心无关的内容可能干扰模型对关键信息的提取。相比之下,直接的命令式表达减少了冗余信息,使模型能够更高效地聚焦于问题本身。
然而,这一规律并不适用于所有AI模型。研究人员在GPT-3.5和Llama2-70B等早期模型上重复实验时发现,这些模型对礼貌提问的响应效果更佳,而强硬语气反而导致回答质量下降。研究者推测,新一代模型在训练过程中接触了更丰富的语气数据,使其具备了更强的无关信息过滤能力,从而能够在非礼貌语境下保持甚至提升表现。
从实际应用角度,研究提醒用户需根据具体模型特性调整交互方式。例如,面对早期模型时,礼貌用语可能更有效;而使用新一代模型时,直接提问或许能获得更优结果。更重要的是,这一发现强调了提示词设计的核心原则:信息密度和指令清晰度比单纯追求礼貌更重要。开发者与用户需意识到,不同的模型架构和训练数据可能导致对提示语的敏感度存在差异。