
互联网档案馆(Internet Archive)是世界上最大的数字档案馆之一,致力于保存和提供免费访问全球互联网上的文化遗产。
自 1996 年成立以来,Internet Archive 始终致力于其使命:Universal access to all knowledge. 让所有知识可以被所有人访问。
Internet Archive 收藏范围极其广泛,主要包括:
- 网页存档(Wayback Machine):Internet Archive 最知名的工具,用户可以输入任何网址,查看其历史版本。也可以对任何网址进行存档。
- 数字图书馆(Open Library):数百万本公共领域书籍的免费下载和在线阅读,支持多种格式如PDF、EPUB和Kindle。
- 多媒体库:包括老式广播电台(Old Time Radio)、78 RPM 唱片、经典电影及 Prelinger 档案馆。
- 软件库(Software Library):通过浏览器即可运行的复古游戏、DOS 软件和早期操作系统
根据最新的统计数据,Internet Archive 的存储总量已突破 100 PB (100,000 TB),一些关于Internet Archive 的数据:
- 网页存档 (Wayback Machine):于 2025 年 10 月正式突破 1 万亿 (1 Trillion) 个网页抓取快照。
- 数字图书与文本:约 4,800 万 册。
- 视频资料:约 1,500 万 个(涵盖电视新闻、电影、原始素材等)。
- 音频录音:约 1,300 万 个(包括现场音乐、播客、78 RPM 唱片)。
- 软件与游戏:约 130 万 个(从 DOS 游戏到早期的操作系统镜像)。
可以说Internet Archive 是互联网的“活化石”,也是全球最大规模的开放数据集之一。
为了更好地利用 Internet Archive 的资源以及实现类似的功能,开发者们推出了一系列工具,汇总一下这些不错的工具:
Internet Archive 官方应用
Internet Archive 官方提供了 iOS/Android APP,Chrome/Firefox/Safari/Edge扩展,Wayback Machine API 。
Heritrix:
http://crawler.archive.org/index.html
Internet Archive 的核心网页爬虫软件
Brozzler
https://github.com/internetarchive/brozzler
Internet Archive 开发的分布式网页爬虫,使用Chrome来解析包含JavaScript和嵌入式媒体的动态网页内容。与yt-dlp集成,能更好地保存视频和音频。
在线存档服务
Archive.today
最新地址可以访问:https://en.wikipedia.org/wiki/Archive.today
第三方在线网页快照服务,与Internet Archive无关系。对于WSJ、Bloomberg 等订阅服务的文章,经常有付费用户用Archive.today 存档,其他人可以直接在 Archive.today 输入原付费文章地址,绕过付费墙。也是众多绕过付费墙的手段之一。
CachedView
Wayback Machine/Archive.today/Library of Congress/Perma.cc/Live Version 存档一站式查看工具
Archive Viewer
在线存档聚合查看器,支持Internet Archive等众多档案库的在线查看
开源自托管版Internet Archive
汇总一些实现类似Internet Archive 功能,实现自托管网页存档功能的第三方工具:
ArchiveBox
开源的自托管网页归档工具,能从浏览器历史、书签或URL列表中保存HTML、JS、PDF和媒体内容。它适合个人用户创建本地档案,支持Docker部署
Webrecorder
开源工具套件,用于创建和回放网页档案。包括ArchiveWeb.page(用于捕获)和ReplayWeb.page(用于回放)
浏览器扩展
SingleFile:
https://www.getsinglefile.com/
个人网页存档的最佳伴侣,强烈推荐。能将网页完整打包为单一 HTML 文件,配合 Internet Archive 的存档功能,实现“双重保险”。
SingleFile的那些事:https://yeeach.com/596/
Internet Archive Downloader:
https://github.com/elementdavv/internet_archive_downloader
开源的浏览器插件,支持从 Internet Archive 和 HathiTrust 批量下载已借阅的图书为 PDF 或高清晰度图像(JPEG/PNG),非常适合学术研究。
移动端应用
Archivist Browser:
https://apps.apple.com/gb/app/archivist-browser/id6756570654
https://play.google.com/store/apps/details?id=com.monodivision.archivist
Internet Archive 资源浏览器,畅享互联网档案馆海量资源