====== 01 Wget ====== ===== Wgetとは? ===== WgetとはUNIX上で使えるダウンロード支援ツールであり、ホームページ自動巡回ツールでもある。 この種のツールはWindowsとかにはいっぱいあるが、UNIXには少ない。 Windownsのダウンロード支援ツールではIria、DCさくら、ReGet、GetRight、FlashGet…、などがある。ホームページ自動巡回ツールもいっぱいあるらしい…。 ===== ソースの取得 ===== Wgetを配布しているFTPサイトは(一部つながらないところもあるが) ・ftp://ring.jaist.ac.jp/pub/ 大学系は回線太く速いです。北陸先端大のRingサーバです。 ・ftp://ftp.media.kyoto-u.ac.jp/pub/ 大学系は回線太く速いです。京都大学のMediaセンターのFTPです。 ・ftp://sunsite.sut.ac.jp/pub/archives/gnu/ SUNサイトのミラーです。理科大なので大学系は回線が太く速いです。 ・ftp://prep.ai.mit.edu/pub/gnu/ GNUの元のサイト。重い(普通の人がアクセスすると重くなる)のであまり使わない方がいい。 ・ftp://gnjilux.cc.fer.hr/pub/unix/util/wget/ Wgetのメンテナンスサイト。Wgetの最新バージョンや開発バージョンなど、いろいろ手にはいるらしい。 ===== ソース展開とインストール ===== > tar zxvf wget-1.5.3.tar.gz > cd wget-1.5.3 > ./configure > make これだけでコンパイルできる(筆者はFreeBSD4.10で確認済み)。なお、srcディレクトリの下にwgetができます。 あと、コンパイラさえあればWindowsでもコンパイルできるらしいですが、ちょっと難しいらしいので、ネット上で探して見てください。実際、検索サーバとかで見つかりました。 ===== 簡単な使い方 ===== ○基本1 wget http://flateight.com/~matsui/index.html http://flateight..../index.htmlのみをダウンロードする。 ○基本2 wget -r http://flateight.com/~matsui/index.html http://flateight..../index.htmlから再帰回収(-r)でホームページをダウンロードする。 つまり、ホームページをまるごと自分のディスクに持って来る。 また、深さはデフォルトの5まで回収する。 これを実行すると、実行したディレクトリにホスト名と同様(ここではflateight.com)のディレクトリができる。 その下にダウンロード先と同じようなディレクトリ構造ができる。 ===== 応用的使い方 ===== ○応用1 wget -r -L -l 10 http://flateight.com/~matsui/index.html http://flateight....を再帰回収(-r)で相対リンクだけ(-L)をたどり 深さ10まで(-l 10)でダウンロードする。 HTTP(ホームページ)の場合はこの使い方が一般的。 ○応用2 wget -r -A .jpg,.gif -nd http://flateight.com/~matsui/index.html http://...にリンクしてあるjpgやgifといった画像ファイル(このページをブラウザで開くと表示する画像) だけ(-A .jpg,.gif)をカレントディレクトリ(-nd)にダウンロードする。 なおこの場合、深さは自動的に1(指定ページのリンクだけ)となる。(画像ファイルにリンクはないので、当然) ○応用3 wget -r -np ftp://seagull.cs.uec.ac.jp/pub/foo/ ftp://seagull.cs.uec.ac.jp/のpub/foo/ディレクトリ以下だけ (-npにより親ディレクトリを回収しなくする)を再帰回収(-r)する。(深さはデフォルトの5)~ FTPの場合はこのやり方が一般的。 また、ある一つのホームページ(HTTP)だけをまるごとダウンロードするのにも便利。 ○応用4 wget -e HTTP_PROXY=xx.xx.xx.xx.xx:3128 http://xxxx --proxy-user=user --proxy-passwd=userpass Proxy経由でwget