WgetとはUNIX上で使えるダウンロード支援ツールであり、ホームページ自動巡回ツールでもある。
この種のツールはWindowsとかにはいっぱいあるが、UNIXには少ない。 Windownsのダウンロード支援ツールではIria、DCさくら、ReGet、GetRight、FlashGet…、などがある。ホームページ自動巡回ツールもいっぱいあるらしい…。
Wgetを配布しているFTPサイトは(一部つながらないところもあるが)
・ftp://ring.jaist.ac.jp/pub/
大学系は回線太く速いです。北陸先端大のRingサーバです。
・ftp://ftp.media.kyoto-u.ac.jp/pub/
大学系は回線太く速いです。京都大学のMediaセンターのFTPです。
・ftp://sunsite.sut.ac.jp/pub/archives/gnu/
SUNサイトのミラーです。理科大なので大学系は回線が太く速いです。
・ftp://prep.ai.mit.edu/pub/gnu/
GNUの元のサイト。重い(普通の人がアクセスすると重くなる)のであまり使わない方がいい。
・ftp://gnjilux.cc.fer.hr/pub/unix/util/wget/
Wgetのメンテナンスサイト。Wgetの最新バージョンや開発バージョンなど、いろいろ手にはいるらしい。
> tar zxvf wget-1.5.3.tar.gz > cd wget-1.5.3 > ./configure > make
これだけでコンパイルできる(筆者はFreeBSD4.10で確認済み)。なお、srcディレクトリの下にwgetができます。
あと、コンパイラさえあればWindowsでもコンパイルできるらしいですが、ちょっと難しいらしいので、ネット上で探して見てください。実際、検索サーバとかで見つかりました。
○基本1
wget http://flateight.com/~matsui/index.html
http://flateight..../index.htmlのみをダウンロードする。
○基本2
wget -r http://flateight.com/~matsui/index.html
http://flateight..../index.htmlから再帰回収(-r)でホームページをダウンロードする。 つまり、ホームページをまるごと自分のディスクに持って来る。
また、深さはデフォルトの5まで回収する。 これを実行すると、実行したディレクトリにホスト名と同様(ここではflateight.com)のディレクトリができる。 その下にダウンロード先と同じようなディレクトリ構造ができる。
○応用1
wget -r -L -l 10 http://flateight.com/~matsui/index.html
http://flateight….を再帰回収(-r)で相対リンクだけ(-L)をたどり 深さ10まで(-l 10)でダウンロードする。 HTTP(ホームページ)の場合はこの使い方が一般的。
○応用2
wget -r -A .jpg,.gif -nd http://flateight.com/~matsui/index.html
http://...にリンクしてあるjpgやgifといった画像ファイル(このページをブラウザで開くと表示する画像) だけ(-A .jpg,.gif)をカレントディレクトリ(-nd)にダウンロードする。 なおこの場合、深さは自動的に1(指定ページのリンクだけ)となる。(画像ファイルにリンクはないので、当然)
○応用3
wget -r -np ftp://seagull.cs.uec.ac.jp/pub/foo/
ftp://seagull.cs.uec.ac.jp/のpub/foo/ディレクトリ以下だけ (-npにより親ディレクトリを回収しなくする)を再帰回収(-r)する。(深さはデフォルトの5)~
FTPの場合はこのやり方が一般的。 また、ある一つのホームページ(HTTP)だけをまるごとダウンロードするのにも便利。
○応用4
wget -e HTTP_PROXY=xx.xx.xx.xx.xx:3128 http://xxxx --proxy-user=user --proxy-passwd=userpass
Proxy経由でwget