近日,人工智能领域的一桩法庭案件揭示了Anthropic公司在训练其AI助手Claude时采取的非常规手段。据外媒报道,Anthropic为获取训练数据,斥巨资将大量实体图书拆解并扫描成数字文件,而这些图书在扫描完成后即被丢弃。
这一行为的核心在于AI训练对海量优质文本的需求。为了构建大语言模型,研究人员需要将数以亿计的词语输入神经网络,并通过反复训练来建立词语与概念之间的联系。编辑过的书籍和文章因其高质量,成为提升AI语言能力的关键资源。
然而,获取这些出版内容的授权往往耗时费力。于是,Anthropic选择了绕过版权的捷径。据法庭文件披露,该公司曾大量购入二手图书,通过拆封、裁剪、整批扫描的方式,将其转化为机器可读的PDF文件。这一过程耗资巨大,且图书在扫描完成后即被废弃。
值得注意的是,美国的“首次销售原则”为这种购买后自行处理的行为提供了一定的法律空间。但Anthropic的做法仍然引发了版权争议。早期,公司甚至考虑过使用盗版电子书,直到2024年因法律考虑才开始寻求更安全的替代方案。
在长达32页的判决书中,还披露了Anthropic雇佣Tom Turvey的细节。Turvey曾负责Google Books项目的合作事务,他的加入显然是为了复制谷歌曾被法院认定为合理使用的图书数字化模式。然而,尽管法官最终裁定Anthropic的扫描方式构成合理使用,理由包括图书的合法购买、扫描后的即刻销毁以及数字文件的内部使用,但早期的盗版行为仍然削弱了其合法性。
事实上,非破坏性扫描技术早已存在。例如,Internet Archive就开发出了一种可以保留原书的数字化手段。本月早些时候,OpenAI和微软也宣布与哈佛大学图书馆合作,计划使用近百万本公版书籍来训练AI,而这些书籍在被数字化的同时依旧得到了妥善保存。
相比之下,Anthropic的“破坏式扫描”不仅造成了资源的浪费,也引发了关于AI伦理和可持续性的讨论。随着AI技术的不断发展,如何在尊重版权、保护环境的前提下获取高质量的训练数据,成为了一个亟待解决的问题。