アーカイブ – archive.org Wayback Machineからウェブサイトをダウンロードするには?

archiving web

archive.orgで指定されたウェブサイトのすべてのファイルを取得したいのですが。理由は以下のようなものが考えられます

  • 原作者が自分のサイトをアーカイブしておらず、オフラインになってしまったので、そこから公開キャッシュを作りたいと思っています
  • 私はどこかのサイトの元の作者で、いくつかのコンテンツを失ってしまいました。復旧したいのですが、どうすればいいでしょうか?

どうすればいいの?

archive.org のウェイバックマシンが非常に特殊であることを考慮して、ウェブページのリンクはアーカイブそのものを指しているのではなく、もはや存在しないかもしれないウェブページを指しています。リンクの更新にはクライアント側で JavaScript を使用していますが、再帰的な wget のようなトリックは機能しません

  105  user36520  2014-10-20


ベストアンサー

私はサイトをダウンロードするための様々な方法を試してみましたが、最終的に私はwayback machine downloaderを見つけました – それは以前にHartatorによって言及されていましたが(だから、すべてのクレジットは彼に行ってください)、私は単に質問に対する彼のコメントに気づかなかっただけです。時間を節約するために、ここに別の回答として wayback_machine_downloader gem を追加することにしました

http://www.archiveteam.org/index.php?title=Restoring にあるサイトでは、archive.org からダウンロードする方法として、以下のような方法が挙げられています

  • Wayback Machine Downloader, Wayback Machine から任意のウェブサイトをダウンロードするための Ruby の小さなツールです。フリーでオープンソースです。私の選択!
  • ワリック – メインサイトがダウンしているようです
  • ウェイバックダウンローダ 、ウェイバックマシンからサイトをダウンロードし、Wordpress用のプラグインを追加するサービスです。無料ではありません

77  Comic Sans  2015-08-14


これは、a bash シェルスクリプトと wget を組み合わせて行うことができます

ウェイバックマシンのURL機能の一部を利用しようというものです

  • http://web.archive.org/web/*/http://domain/*http://domain/から保存されたすべてのページを再帰的にリストアップします。ダウンロードするページのインデックスを構築したり、ウェブページ内のリンクを検出するためのヒューリスティックを回避したりするために使用することができます。各リンクには、最初のバージョンと最後のバージョンの日付も表示されます
  • http://web.archive.org/web/YYYYMMDDhhmmss*/http://domain/pageはYYYY年のhttp://domain/pageの全バージョンをリストアップします。そのページの中で、バージョンへの特定のリンクを見つけることができます(正確なタイムスタンプ付き)
  • http://web.archive.org/web/YYYYMMDDhhmmssid_/http://domain/pageは、与えられたタイムスタンプで変更されていないページhttp://domain/pageを返します。id_トークンに注目してください

これらは、与えられたドメインからすべてをダウンロードするためのスクリプトを構築するための基本です

19  user36520  2014-10-20


この目的のために特別に設計されたツールがあります、ワリック。https://code.google.com/p/warrick/

メメントのプロトコルに基づいています

5  Nemo  2015-01-21


wgetで簡単にできます

wget -rc --accept-regex '.*ROOT.*' START

ここで、ROOTはウェブサイトのルートURL、STARTは開始URLです。例えば、以下のようになります

wget -rc --accept-regex '.*http://www.math.niu.edu/~rusin/known-math/.*' http://web.archive.org/web/20150415082949fw_/http://www.math.niu.edu/~rusin/known-math/

なお、STARTのURLについては、Webアーカイブのラッピングフレームを迂回する必要があります。ほとんどのブラウザでは、ページを右クリックして「このフレームのみを表示」を選択することができます

4  jcoffland  2019-07-21


タイトルとURLをコピーしました