搜集世间一切书籍——AI时代的亚历山大图书馆能长存吗?

搜集世间一切书籍——AI时代的亚历山大图书馆能长存吗?

本文发表于《中国科学报》 (2026-04-23 第3版 综合),标题改为AI能读“世间一切书籍”了,人类还要读书吗,发表时有删改且分了小节,此处贴原稿:

大约在公元前295年,托勒密一世委托希腊学者德米特里乌斯在亚历山大城兴建宏伟的图书馆和缪斯宫(学术机构),德米特里乌斯提出了”搜集世间一切书籍”的宏大构想,并得到了托勒密王室的持续支持。前三世托勒密王前赴后继,不断扩大这一工程,并且持续了150年,一直到托勒密八世才终止。为了搜集书籍,他们手段尽出,一方面斥巨资派遣专人去世界各地“淘书”,另一方面强令停靠港口的所有船只交出随船携带的所有书籍,由抄写员抄录后送还副本,把原本纳入收藏。

这些书籍促成了希腊科学的集大成,并且和来自埃及和巴比伦的知识碰撞和融合,促成了古代科学的无数璀璨成就。包括以欧几里得为代表的受托勒密一世招揽和资助的初代学者;以阿基米德为代表的访问学者;阿里斯塔克(日心说提出者)、埃拉托色尼(地理学之父)、阿波罗尼奥斯(圆锥曲线研究)等杰出学者;一直到罗马时代继续受学术传统影响的希罗(机械学家、蒸汽机发明者)、天文学家托勒密(活跃在公元2世纪),一直到标志着希腊学术终结的女科学家希帕提娅。他们都是亚历山大城的图书馆的受益者。可惜和任何古代文明的黄金时代一样,随着战乱、政权更迭和宗教冲突,无数图书最终散佚。只有少数最顶尖的成就得以流传后世。不过,集大成者的成就过高也加速了许多图书的散佚——因为图书传抄不便,有了更完善更系统的版本,旧的书籍更容易失传。例如欧几里得的工作使得之前的大量希腊几何学著作都失传了,而托勒密的天文学体系让之前的许多天文学工作失传了。

这是古代学术的通病——在一些奇迹般的黄金时代里,学者们百家争鸣,各种思想和知识大量涌现,最后在黄金时代末期得到汇总和整理,创造出一些标志着人类智识高峰的煌煌巨作,然后那些活泼的、多元的但却不够完善或过于另类的学说逐渐失传,而那些曾经伟大的巨作渐渐变成僵化的教条,失去了演进更新的活力。只能等待下一个奇迹时代被复兴起来。

在托勒密三世时期达到鼎盛的古代西方学术经历了一轮轮衰落和复兴——在罗马人、在阿拉伯人那里、在12世纪的欧洲,都有过或长或短的复兴,现代人所说的“文艺复兴”并不是第一次学术复兴,毋宁说是最后一次,这一次学术复兴之后再也没有衰落下去。因为这次的复兴不再是因为某个国王或某个王国的偶然支持,而是因为有了新的社会环境(市民社会的崛起和资本主义的萌芽)和媒介装备(活字印刷机)。

到了16世纪,瑞士学者康拉德·格斯纳致力于编纂第一部综合性的《书目大全》,试图罗列谷登堡印刷术百年之内出版的一切拉丁语、希腊语和希伯来语著作。他收录了约 1800 位作者的 10000 个条目,并且按照学科和主题编制了30000多条索引,还在不断增补。当然,同时代许多出版商也在努力搜集所有的手抄本书籍,汇编校订,以便刊印成册。整个文艺复兴和随后的科学革命,都受益于印刷术带来的知识汇聚。

《书目大全》总结了印刷时代以前的人类既有知识,而随着印刷时代之后书籍出版量以指数级暴增,后人再也不能编纂一部索引一切书籍的书目大全了。在对古代知识集大成之后,文艺复兴时代又开始了新一轮百家争鸣。

由印刷书和邮政网络组成的跨国学术交流圈取代了原本局限于一时一地的学术圣地,珍贵的文本也不再依赖塞拉皮斯神庙之类的固定场所来保存,书籍不再害怕因为传抄困难而造成的散佚和讹误,即便是非主流的学说也可能流传于世 。

再之后,人类的学术再也没有失传和衰退,但仍然在一定程度上存在“分久必合合久必分”的阶段特征。现代早期的百花齐放在牛顿那里完成了一次综合,在牛顿死后,欧洲进入了启蒙时代,百科全书派是这个时代的代表,他们继续整合已有著作,汇聚和整理印刷时代以来人类所积累的一切知识。

启蒙时代之后,学术进入了专业化的时代,配合现代教育制度的逐渐成熟,科学成为了“分科之学”,学者们在越来越细分的专门领域中探索,顶多在某一学科之内汇聚和整理,再也难以把人类的一切知识统一在一起了。

真的如此吗?“搜集一切书籍”的宏愿过时了吗?在手抄书时代,托勒密王做到了极致,在印刷书时代,格斯纳空前绝后,那么再有一次媒介革命之后呢?在信息时代,这一宏愿又有了新的形式。

电子版的书籍不再需要宏伟的书架,今天的一部普通的智能手机就足以存储下五座亚历山大图书馆,即便是一座当代的图书馆最多也无非是几块硬盘罢了。这使得“搜集世间一切书籍”重新成为可能。

1996年建立互联网档案馆(Internet Archive)的布鲁斯特·卡尔直接致敬亚历山大图书馆,甚至号称自己做的就是“亚历山大图书馆2.0”(the library of Alexandria version 2)。他延续并改造了托勒密王的宏愿,口号是“普遍通达一切知识(Universal Access to All Knowledge)”,因为亚历山大图书馆有地理空间的局限和访问门槛,只能允许极少数的学者从中获取知识,而互联网档案馆不但要搜集一切知识,还要让它们对每个人都是开放可及的。

几年后,谷歌图书(Google Books)启动了“搜集世间一切书籍”的计划,并在2010年估算出世间所有语言的已出版图书大约有1.3亿种,并宣称要把它们全部扫描成电子版。

不过它们的雄心都遭遇了挫折,特别是陷入到漫长的版权诉讼之中,互联网档案馆应诉失败,被迫删除了几十万版权书籍,但仍然继续搜集事业,而谷歌虽然赢了官司,但慢慢冷淡下来,缩减了项目而且只提供图书片段的检索功能,而不提供阅读。

为了突破版权制约,一些人转向了海盗平台,sci-hub和Z-Library都是例子,在Z-Library被查封后,Anna’s Archive成为海盗平台的集大成者,它搜集了来自Library Genesis、Sci-Hub、Z-Library以及互联网档案馆的数千万书籍和上亿论文,提供所有人免费下载。并且也启动了“搜集世间一切书籍”的宏愿,计划搜罗7亿册图书。

无论是互联网档案馆的合作模式,还是安娜档案的海盗模式,人类确实在数字世界打造了新的亚历山大图书馆,并且初见成效。那么接下来的问题是,这些书要怎么读?互联网帮助人们把海量的书籍被搜集起来,但是另一方面,也是互联网,正在降低人类的阅读能力。特别是互联网时代成长起来的年轻人,他们花在短视频上的时间远远超过阅读,即便是阅读文字,也越来越倾向于短篇的消息,而不是整部整部的书籍。而学者们,他们的阅读内容也越来越偏重论文,而非著作。

亚历山大图书馆的藏书和缪斯宫招揽的学者配合,促成了知识的繁荣;文艺复兴后的印刷书市场让新兴的艺术家、科学家和发明家们获益。但互联网上的亚历山大2.0能吸引到怎样的读者呢?

2025年2月,Meta公司诉讼中的内部邮件被解封,揭示出扎克伯格授权其公司通过Anna’s Archive下载了超过81 TB的数据用于训练AI模型。最终法院偏向Meta公司,认为AI训练是合理使用,且没有证据证明会破坏版权方的利益。

Meta只是做得最明显的一家,事实上其它AI公司恐怕也不例外。2025年12月,一群作家对六大AI巨头提起版权诉讼,指控Anthropic、Google、OpenAI、Meta、xAI和Perplexity使用盗版书籍训练大语言模型,西方主流大模型都在其列。

这可以说是AI的“原罪”——用以训练大模型的原始数据,往往是从人类文明的精华中不告而取或强行征用的——这和托勒密王对书籍的巧取豪夺异曲同工。

正所谓“窃钩者诛,窃国者侯”,孔乙己偷书遭人耻笑,但托勒密王偷书则成就佳话,毕竟他们确实缔造了人类知识的盛世,给人类文明留下了更深远的宝藏。

人类早就不可能通览世界一切书籍了,但AI真的可以做到,数字化的书籍不但能被集中起来,而且可以被通览、被综述。我们发现,在许多方面AI已经表现得比人类最顶尖的学者还要厉害,特别是旁征博引驾驭海量文献的能力,以及进行跨专业、跨学科综合的能力。

不过,AI一方面使得人类文明沉淀下来的无数书籍发挥了作用,但另一方面似乎正在进一步削弱人类阅读的需求,甚至连传统的学校教育都变得无关紧要了。正如有了计算器,心算能力就没用了;有了手机地图,认路能力就没用了;而有了随时能对任何问题给出精妙回答的AI,人类整个大脑的用处也要大打折扣了。

我对AI的发展是颇为乐观的,我相信AI会颠覆整个学术和教育体系,打通专业壁垒,把人类知识推向新的盛世。不过,如果看得更长远一些——盛世之后呢?如何确保AI革命像文艺复兴那样把人类带入持续的进步,而不是像托勒密王朝那样,在鼎盛之后走向衰退?

自文艺复兴以来500年,人类已经习惯了持续进步,而忘记了盛极而衰才是历史的主旋律。但为什么能够持续进步呢?在某种意义上,一个最简单的理由就是:因为书籍不再容易散佚了。印刷术结合开放的市场环境,使得人类的知识可以不断积累,后人永远可以站在前人的肩膀上继续推进。

但是这种局面在印刷书被数据库取代之后,还能继续吗?我们看到,初代AI确实能够站在全人类的肩膀之上集知识之大成,但是由AI创造出来的新信息仍然能够构成下一代AI的“肩膀”吗?

对此,学界已有许多研究,证实了所谓“模型崩塌(Model Collapse)”的现象,就是说不加人工筛选地使用模型生成的内容来训练AI反而会让模型变坏——趋于平庸化和加剧幻觉。即便数据集中只是混杂了很小一部分AI自己生成的样本,也会让训练效果变糟。要让模型不断进步,就必须引入人类的判断力,即不断输入人类创造的信息,以及经过人类筛选和组织的AI生成信息。

随着AI能力的进一步提升,这一现象会消失吗?也就是说,AI能够脱离人类自己训练自己而不断提升吗?在我看来至少可预见的未来这是不可能的。因为AI缺乏人类的个体性和有限性。而人类的思维被局限于一个个独立的身体之内,有生老病死,有个体边界,因而更容易发展出差异化的兴趣和追求。而AI没有个体的欲望,只能根据大数据的公约数来确定追求的方向,因此它有集大成的能力,但缺乏另辟蹊径和别出心裁的动机。

所以,在生产力方面,人类大可以让AI取代自己,但是人类不能放弃欣赏者和评选者的角色。AI也许比人类更善于 “读书” ,但“选书”的责任仍然落在人类身上。

在AI时代,人类仍然需要读书,不是为了掉书袋或生产力,而是为了保持和培养兴趣和品位,从而能够引导AI读哪些书。

发表回复

您的邮箱地址不会被公开。 必填项已用 * 标注

这个站点使用 Akismet 来减少垃圾评论。了解你的评论数据如何被处理