archive.orgで指定されたウェブサイトのすべてのファイルを取得したいのですが。理由は以下のようなものが考えられます
- 原作者が自分のサイトをアーカイブしておらず、オフラインになってしまったので、そこから公開キャッシュを作りたいと思っています
- 私はどこかのサイトの元の作者で、いくつかのコンテンツを失ってしまいました。復旧したいのですが、どうすればいいでしょうか?
- …
どうすればいいの?
archive.org のウェイバックマシンが非常に特殊であることを考慮して、ウェブページのリンクはアーカイブそのものを指しているのではなく、もはや存在しないかもしれないウェブページを指しています。リンクの更新にはクライアント側で JavaScript を使用していますが、再帰的な wget のようなトリックは機能しません
105 user36520 2014-10-20
私はサイトをダウンロードするための様々な方法を試してみましたが、最終的に私はwayback machine downloaderを見つけました – それは以前にHartatorによって言及されていましたが(だから、すべてのクレジットは彼に行ってください)、私は単に質問に対する彼のコメントに気づかなかっただけです。時間を節約するために、ここに別の回答として wayback_machine_downloader gem を追加することにしました
http://www.archiveteam.org/index.php?title=Restoring にあるサイトでは、archive.org からダウンロードする方法として、以下のような方法が挙げられています
- Wayback Machine Downloader, Wayback Machine から任意のウェブサイトをダウンロードするための Ruby の小さなツールです。フリーでオープンソースです。私の選択!
- ワリック – メインサイトがダウンしているようです
- ウェイバックダウンローダ 、ウェイバックマシンからサイトをダウンロードし、Wordpress用のプラグインを追加するサービスです。無料ではありません
77 Comic Sans 2015-08-14
これは、a bash シェルスクリプトと wget
を組み合わせて行うことができます
ウェイバックマシンのURL機能の一部を利用しようというものです
http://web.archive.org/web/*/http://domain/*
はhttp://domain/
から保存されたすべてのページを再帰的にリストアップします。ダウンロードするページのインデックスを構築したり、ウェブページ内のリンクを検出するためのヒューリスティックを回避したりするために使用することができます。各リンクには、最初のバージョンと最後のバージョンの日付も表示されますhttp://web.archive.org/web/YYYYMMDDhhmmss*/http://domain/page
はYYYY年のhttp://domain/page
の全バージョンをリストアップします。そのページの中で、バージョンへの特定のリンクを見つけることができます(正確なタイムスタンプ付き)http://web.archive.org/web/YYYYMMDDhhmmssid_/http://domain/page
は、与えられたタイムスタンプで変更されていないページhttp://domain/page
を返します。id_トークンに注目してください
これらは、与えられたドメインからすべてをダウンロードするためのスクリプトを構築するための基本です
19 user36520 2014-10-20
この目的のために特別に設計されたツールがあります、ワリック。https://code.google.com/p/warrick/
メメントのプロトコルに基づいています
5 Nemo 2015-01-21
wget
で簡単にできます
wget -rc --accept-regex '.*ROOT.*' START
ここで、ROOT
はウェブサイトのルートURL、START
は開始URLです。例えば、以下のようになります
wget -rc --accept-regex '.*http://www.math.niu.edu/~rusin/known-math/.*' http://web.archive.org/web/20150415082949fw_/http://www.math.niu.edu/~rusin/known-math/
なお、START
のURLについては、Webアーカイブのラッピングフレームを迂回する必要があります。ほとんどのブラウザでは、ページを右クリックして「このフレームのみを表示」を選択することができます
4 jcoffland 2019-07-21