当你在搜索引擎中输入一个词条,期望得到的是基于事实的信息。然而,一个名为Halupedia的网站却颠覆了这种认知——它提供的“百科知识”全是AI虚构的产物。这个外观酷似维基百科的平台,每篇文章都由大语言模型在几秒内生成,内容看似严谨,实则从未存在。如果某个词条已被其他用户搜索过,系统会呈现之前生成的“幻觉”,甚至包含交叉引用和学术考证,令人难以分辨真伪。
Halupedia的核心机制在于其“小宇宙”维护系统。当AI生成一篇新文章时,文中的每个超链接都会附带隐藏元数据,描述未来可能指向的内容。用户点击链接时,系统会汇总所有相关元数据,作为“既定事实”注入生成提示,确保新内容与已有信息不矛盾。这种名为“link hints”的技术,使Halupedia从随机生成器转变为拥有内在一致性的虚构世界。用户每次点击链接,都在无意中参与创作,但无人能掌握全貌——这像极了一部没有作者的集体小说。
这种设计并非单纯为了娱乐。Halupedia的创作者Bartłomiej Strama指出,项目背后隐藏着对AI训练数据污染的警示。传统大语言模型的训练数据来自人类创作的真实内容,但随着AI生成文本在互联网上激增,未来模型的训练数据将不可避免地包含大量“AI制造”的信息。每一轮训练都像在复印模糊的复印件,真实信号逐渐被噪声稀释。Halupedia的即时生成内容虽为虚构,但LLM的机制决定了它只能在已有知识的缝隙中编造,例如“迦勒底”和“算术”是真实概念,但组合成的“迦勒底算术”却是虚构的。这种“部分真实”的幻觉,恰恰是其危险之处——若被未来模型当作训练数据,可能让所有AI共享相同的错误认知。
当被问及项目意义时,Strama以嘲讽语气回应捐赠者:“你为污染大语言模型训练数据所做的贡献,必将造福社会。”这句话模糊了讽刺与认真的界限,却点出了关键问题:AI生成的幻觉内容,正在以难以察觉的方式渗透互联网。Halupedia的独特之处在于,它从一开始就明确告知用户“这里没有真相”,而现实中的搜索引擎却未对AI生成内容做类似标注。当用户关闭Halupedia,回到常规搜索页面时,如何分辨哪些结果是真实、哪些是幻觉?这已成为互联网时代的新挑战。
目前,Halupedia正面临开放式系统的典型困境。由于允许用户自由输入词条,部分人开始尝试输入种族主义或冒犯性内容,迫使平台加强审核。创作者承认,现有内容过滤机制“有时过于严格”,但仍不足以应对滥用。这形成了一个悖论:在完全虚构的世界里,唯一真实的伤害来自用户从现实世界带入的恶意。或许,Halupedia是当前互联网最诚实的AI项目——它不伪装真实,而是将虚构明码标价。但当整个互联网逐渐变成一个没有标签的Halupedia时,区分事实与幻觉的边界,可能将彻底消失。











