近日,社交媒体X(原推特)上一则关于AI巨头Anthropic的爆料引发了广泛关注。消息称,该公司正在大规模购入数百万本书籍,在进行数字化扫描后立即将其销毁。这一举动被指与科幻作家弗诺·文奇在20年前的小说《彩虹尽头》中的情节惊人相似,引发了公众对AI公司获取训练数据手段的激烈讨论。
“巴拿马项目”浮出水面:从盗版到“洗白”的代价
根据2026年初曝光的法庭文件,这项代号为“巴拿马项目”(Project Panama)的行动由Anthropic内部秘密推进。该计划的核心目标是获取“世界上所有的书”。为此,公司聘请了曾参与Google Books项目的资深高管,并投入巨额资金从二手书零售商和实体书店大量采购图书。
其操作流程极具冲击力:工作人员将采购回来的实体书运往仓库,通过切掉书脊的方式进行“破坏性扫描”,将其转化为高清PDF文件。随后,残留的纸质残骸被直接送往回收公司销毁。这种做法引发了伦理争议,但在法律层面上,Anthropic辩称这符合“首次销售原则”和“合理使用”:既然已经合法购买了副本,且扫描件仅用于内部训练而不对外分发,销毁原件是为了确保不会造成版权副本的非法二次流转。
15亿美元的法律代价:版权博弈下的新策略
“巴拿马项目”的曝光并非偶然。此前,Anthropic因涉嫌从盗版电子书网站LibGen获取数据而遭到多名作家起诉。其首席执行官曾坦言,与出版商进行逐一授权谈判在商业和实践上都极具挑战。
为了应对法律风险,Anthropic在2025年支付了约15亿美元的和解金以平息针对早期盗版数据集的集体诉讼。随后,公司开始转向“巴拿马项目”这种成本更高但法律风险更低的实体书采购模式。法官目前倾向于认为,这种“合法购买+扫描训练”的模式具有较强的辩护基础。
真相与边界:被放大的“文化灾难”
尽管该事件在网络上被描述为“蒸馏人类知识库”或“古籍浩劫”,但实际情况并非如此极端。据调查,被销毁的书籍主要是市场上流通量较大的普通二手书,并非珍稀古籍或文化遗产。受影响最大的群体主要是认为版权受损的作家和出版协会,而非文博单位。
目前,关于AI训练是否构成“合理使用”在美国法律界仍无最终定论,包括meta和OpenAI在内的其他巨头也深陷类似的法律泥潭。Anthropic这种将百万实体书化为“数字灰烬”的做法,虽然在技术逻辑上完成了高质量数据的迭代,但其背后的道德成本与法律边界,依然是AI时代亟待解答的命题。






