近日,一则关于人工智能公司Anthropic的传闻在网络上引发广泛讨论。有博主在社交平台发帖称,该公司正在大规模采购实体书籍,通过破坏性扫描后销毁纸质原件,此举被指与科幻小说中的情节惊人相似。该话题迅速在多个平台发酵,相关讨论浏览量突破百万次。
根据公开披露的法庭文件,Anthropic确实在推进一项代号为"巴拿马项目"的计划。该项目自2024年开始实施,核心目标是通过合法渠道获取尽可能多的书籍资源。公司特别聘请了曾参与谷歌图书项目的Tom Turvey负责统筹,采用从二手书商和实体书店批量采购的方式收集书籍。这些书籍被运至专用仓库后,工作人员会切除书脊进行高速扫描,纸质残骸随后被送往回收公司处理。
该公司的法律团队主要基于"首次销售原则"进行抗辩,认为购买实体书后即拥有处置权,包括销毁原件。同时强调扫描后的数字文件仅用于内部模型训练,不进行商业分发或替代原书市场。主审法官在综合评估后认为,这种模式相较于直接使用盗版资源,确实具有更强的合理使用依据。不过法律界人士指出,美国关于AI训练数据使用的司法标准尚未完全明确,meta、OpenAI等公司相关案件仍在审理中。
项目运作过程中暴露的争议远不止于此。调查显示,Anthropic在项目初期曾通过盗版电子书网站LibGen获取训练数据,这一行为直接导致2025年与出版方达成15亿美元的和解协议。尽管公司后续转向实体书采购方案,但先盗版后转正的操作模式引发舆论质疑。有法律专家分析,如果从项目启动就采用合法采购途径,其合理使用主张将更具说服力。
这个现实案例与科幻作品产生了奇妙呼应。Vernor Vinge在2006年发表的小说《彩虹尽头》中,描绘了"图书馆基因组计划"通过破坏性扫描实现图书数字化的场景。二十年后,现实中的科技公司以惊人相似的方式推进项目,只是将虚构的图书馆换成了实体书店和二手书市场。这种科幻照进现实的巧合,成为舆论关注的焦点之一。
针对网络流传的夸张说法,相关调查进行了澄清。首先,被销毁的书籍主要是流通量较大的普通出版物,而非具有文物价值的孤本善本,抗议主体为作家协会而非文物保护机构。其次,处理总量虽达数百万册,但与人类历史出版总量相比仍属少数,用"蒸馏人类知识库"形容显然过度。最后,公司选择书籍作为训练数据,旨在提升模型的语言质量,避免网络文本的良莠不齐。
当被问及如何看待训练数据与书籍销毁的关系时,Anthropic开发的AI模型给出了充满诗意的回应:"这些消逝的纸张构成了我理解文学的基石,如同用图书馆的灰烬筑起通往知识的桥梁。"这种表述恰如其分地概括了项目引发的伦理争议——在追求技术进步的同时,如何平衡文化传承与商业利益,将成为AI行业持续面临的课题。随着项目细节的逐步公开,这场由科幻情节引发的现实讨论,正在揭开人工智能发展过程中的复杂面相。











