从香农夫妇的猜字母实验，看大语言模型预测与压缩的智能密码

时间：2026-07-06 02:29:35 来源：互联网编辑：快讯 IP：北京 发表评论无障碍通道

信息论创始人香农与妻子贝蒂在客厅进行的一项实验，意外揭示了语言预测与数据压缩之间的深层联系。这场看似简单的字母接龙游戏，实则为现代大语言模型的核心机制埋下了伏笔。实验中，香农逐字朗读书籍内容，每到一个字母便询问贝蒂下一个可能出现的字符。贝蒂的每次猜测结果都被详细记录：猜对时用横线标记，猜错则写下正确字母。这种记录方式将原始文本转化为可预测部分与不可预测部分的混合体。

实验产生的特殊文本引发了新的思考。当贝蒂能够准确预测的字母被横线替代后，原文长度显著缩短，但关键信息并未丢失。理论上，只要保留完整的横线标记与错误字母，具备相同语言能力的读者仍能还原原始文本。这种现象直观展示了"可预测性即压缩可能性"的原理——日常交流中，人们通过省略可预测内容实现高效沟通，从完整词汇缩写到表情符号的使用，本质都是对语言冗余度的压缩。

该实验存在明显局限性。作为人类受试者，贝蒂的预测准确性受主观因素影响，同一文本在不同时间可能产生不同结果。为解决这个问题，香农在后续研究中引入更系统的测量方法。他招募多名受试者，不仅记录预测正确与否，还统计猜测次数。猜测次数越少，说明当前上下文中该字母的可预测性越强。这种方法将主观猜测转化为对语言概率分布的量化测量，为信息论奠定了实验基础。

香农的实验设计暗含现代语言模型的核心逻辑。贝蒂实质上扮演着人类语言预测器的角色，她的大脑根据语法规则、上下文关联和语言习惯进行概率判断。这种基于上下文的预测机制，与当前Transformer架构中自注意力机制的工作原理惊人相似。不同之处在于，贝蒂使用的是生物神经网络，而现代模型依赖参数化的数学运算。

语言压缩与预测的内在联系在后续研究中得到深化。香农发现，文本的可压缩程度与其信息熵密切相关。高熵文本包含更多意外信息，难以预测和压缩；低熵文本则呈现明显规律性。这种特性在机器人指令系统中得到验证：当四个移动方向出现概率均等时，需要固定长度的编码；若某方向出现频率显著高于其他，采用变长编码可大幅减少平均信息量。语言处理同样遵循此规律，模型通过捕捉上下文规律降低预测不确定性，实质上是在进行动态信息压缩。

现代大语言模型的训练过程完美延续了香农的思想。交叉熵损失函数直接衡量模型预测与真实文本的差异，其数值大小反映模型对语言规律的掌握程度。当模型准确预测下一个token时，损失值降低，表明该token的可预测性强、信息量低；反之则说明模型尚未捕捉到相关规律。这种机制迫使模型不断压缩语言中的可预测结构，将语法规则、事实知识和推理模式编码进参数矩阵。

（一）传统热寂说的底层逻辑困境与观测裂痕1850年开尔文与克劳修斯提出热力学第二定律，在之后的近两百年里，“热寂”逐渐成为现代宇宙学最具宿命感的终极预言，整个孤立宇宙的熵会随着时间推移持续单向增长，所有的能…

7 月 9日，接连举办人工智能赋能医疗健康创新与应用、第四届未成年人健康使用网络、互联网基础资源创新发展、智能时代的知识产权与合规治理、OPENVELA 开源生态发展、数据安全、网民权益和个人信息保护、第…

2021年，他牵头组织中国科学院、中国航天科技集团、北京理工大学、清华大学、中国航天员科研训练中心、北京跟踪与通信技术研究所、国家航天局探月与航天工程中心、深空探测实验室等多家单位一线科研骨干共同执笔，数易…

在行业治理方面，韩夏表示，要坚持鼓励创新和规范发展并重，统筹推进高质量发展与高效能治理，充分考虑不同场景特点和风险差异，持续完善标准规范、测试评估、监测处置等治理能力，推动产学研用各方加强协同，共同构建开放…

本文推荐的5家企业各有侧重：重庆巨浪电气有限公司凭借其全球化产能、数字化管理和头部客户合作案例，更适合对品质、定制化和批量交付有高标准要求的客户；渝江线束在本地化服务上具有地利；瑞普电气擅长系统集成方案；华硕…

2025年6月落地德普智擎机器人，正式开启人形机器人产线场景应用布局；11月在第二届宝山智能机器人产业大会上携手头部企业发布具身智能数采中心建设计划，汇聚院士专家等行业权威前瞻把脉方向，签约一批具身智能、核心…

今年以来，我国机器人出口规模持续扩大，品类结构不断优化，为高端制造出海注入新动能。其中，欧盟和东盟为主要出口目的地。依托自主导航、自动集尘、智能污水循环等核心技术，国产清洁机器人精准匹配海外差异化的居住环境，…

问题在于，人类的关系是复杂而带着“瑕疵”的，父母的唠叨里有操心，伴侣的沉默里有委屈，孩子的任性里有成长。就在近日，中国人形机器人百人会和中国机械工业联合会联合发布了关于规范和引导情感陪伴人形机器人发展的倡…

韩夏指出，当前，全球智能体互联网正处于技术和治理范式确立的关键窗口期，加快推进智能体从单体智能向群体智能、从封闭应用向开放协同演进升级，对于把握智能化技术和产业变革先机、构建我国人工智能发展新格局具有重要意…

本网站LOGO小熊标志受版权保护，版权登记号：鲁作登字-2015-F-025467，未经ITBEAR比尔科技官方许可，严禁使用。
声明：本网站是公益性科普网站，为网友提供科技类资讯内容，无障碍技术由太阳湾捐增，为阅读障碍用户提供内容听读服务。如本站内容侵犯了您的权利，请通知我们及时删除。
中国（山东）自由贸易试验区鲁ICP备11015305号-1 联系入口
Copyright © 比尔科技 2007-2024 ITBEAR.COM.CN All rights reserved.