最新消息:

互联网档案馆 Internet Archive 工具汇总

佳软 yeeach 782浏览 0评论

 

互联网档案馆(Internet Archive)是世界上最大的数字档案馆之一,致力于保存和提供免费访问全球互联网上的文化遗产。

自 1996 年成立以来,Internet Archive 始终致力于其使命:Universal access to all knowledge. 让所有知识可以被所有人访问。

Internet Archive 收藏范围极其广泛,主要包括:

  • 网页存档(Wayback Machine):Internet Archive 最知名的工具,用户可以输入任何网址,查看其历史版本。也可以对任何网址进行存档。
  • 数字图书馆(Open Library):数百万本公共领域书籍的免费下载和在线阅读,支持多种格式如PDF、EPUB和Kindle。
  • 多媒体库:包括老式广播电台(Old Time Radio)、78 RPM 唱片、经典电影及 Prelinger 档案馆。
  • 软件库(Software Library):通过浏览器即可运行的复古游戏、DOS 软件和早期操作系统

根据最新的统计数据,Internet Archive 的存储总量已突破 100 PB (100,000 TB),一些关于Internet Archive 的数据:

  • 网页存档 (Wayback Machine):于 2025 年 10 月正式突破 1 万亿 (1 Trillion) 个网页抓取快照。
  • 数字图书与文本:约 4,800 万 册。
  • 视频资料:约 1,500 万 个(涵盖电视新闻、电影、原始素材等)。
  • 音频录音:约 1,300 万 个(包括现场音乐、播客、78 RPM 唱片)。
  • 软件与游戏:约 130 万 个(从 DOS 游戏到早期的操作系统镜像)。

可以说Internet Archive 是互联网的“活化石”,也是全球最大规模的开放数据集之一。

 

为了更好地利用 Internet Archive 的资源以及实现类似的功能,开发者们推出了一系列工具,汇总一下这些不错的工具:

Internet Archive 官方应用

Internet Archive 官方提供了 iOS/Android APP,Chrome/Firefox/Safari/Edge扩展,Wayback Machine API

 

Heritrix:

http://crawler.archive.org/index.html 

Internet Archive 的核心网页爬虫软件

 

 

Brozzler

https://github.com/internetarchive/brozzler

Internet Archive 开发的分布式网页爬虫,使用Chrome来解析包含JavaScript和嵌入式媒体的动态网页内容。与yt-dlp集成,能更好地保存视频和音频。

在线存档服务

Archive.today 

https://archive.ph/

最新地址可以访问:https://en.wikipedia.org/wiki/Archive.today

第三方在线网页快照服务,与Internet Archive无关系。对于WSJ、Bloomberg 等订阅服务的文章,经常有付费用户用Archive.today 存档,其他人可以直接在 Archive.today 输入原付费文章地址,绕过付费墙。也是众多绕过付费墙的手段之一。

 

 

CachedView

https://cachedview.nl/

Wayback Machine/Archive.today/Library of Congress/Perma.cc/Live Version 存档一站式查看工具

 

 

Archive Viewer

https://archiveviewer.org/

在线存档聚合查看器,支持Internet Archive等众多档案库的在线查看

 

 

开源自托管版Internet Archive

汇总一些实现类似Internet Archive 功能,实现自托管网页存档功能的第三方工具:

ArchiveBox

https://archivebox.io/

开源的自托管网页归档工具,能从浏览器历史、书签或URL列表中保存HTML、JS、PDF和媒体内容。它适合个人用户创建本地档案,支持Docker部署

 

 

Webrecorder

https://webrecorder.net/

开源工具套件,用于创建和回放网页档案。包括ArchiveWeb.page(用于捕获)和ReplayWeb.page(用于回放)

 

 

浏览器扩展

SingleFile

https://www.getsinglefile.com/

个人网页存档的最佳伴侣,强烈推荐。能将网页完整打包为单一 HTML 文件,配合 Internet Archive 的存档功能,实现“双重保险”。

SingleFile的那些事:https://yeeach.com/596/

 

 

Internet Archive Downloader:

https://github.com/elementdavv/internet_archive_downloader

开源的浏览器插件,支持从 Internet Archive 和 HathiTrust 批量下载已借阅的图书为 PDF 或高清晰度图像(JPEG/PNG),非常适合学术研究。

 

 

移动端应用

Archivist Browser:

https://apps.apple.com/gb/app/archivist-browser/id6756570654

https://play.google.com/store/apps/details?id=com.monodivision.archivist

Internet Archive 资源浏览器,畅享互联网档案馆海量资源

 

 

 

更多电子书工具

 

 

发表我的评论
取消评论
表情

Hi,您需要填写昵称和邮箱!

  • 昵称 (必填)
  • 邮箱 (必填)
  • 网址