目次

01 Wget

Wgetとは?

WgetとはUNIX上で使えるダウンロード支援ツールであり、ホームページ自動巡回ツールでもある。
この種のツールはWindowsとかにはいっぱいあるが、UNIXには少ない。 Windownsのダウンロード支援ツールではIria、DCさくら、ReGet、GetRight、FlashGet…、などがある。ホームページ自動巡回ツールもいっぱいあるらしい…。

ソースの取得

Wgetを配布しているFTPサイトは(一部つながらないところもあるが)
ftp://ring.jaist.ac.jp/pub/
大学系は回線太く速いです。北陸先端大のRingサーバです。

ftp://ftp.media.kyoto-u.ac.jp/pub/
大学系は回線太く速いです。京都大学のMediaセンターのFTPです。

ftp://sunsite.sut.ac.jp/pub/archives/gnu/
SUNサイトのミラーです。理科大なので大学系は回線が太く速いです。

ftp://prep.ai.mit.edu/pub/gnu/
GNUの元のサイト。重い(普通の人がアクセスすると重くなる)のであまり使わない方がいい。

ftp://gnjilux.cc.fer.hr/pub/unix/util/wget/
Wgetのメンテナンスサイト。Wgetの最新バージョンや開発バージョンなど、いろいろ手にはいるらしい。

ソース展開とインストール

 > tar zxvf wget-1.5.3.tar.gz
 > cd wget-1.5.3
 > ./configure
 > make

これだけでコンパイルできる(筆者はFreeBSD4.10で確認済み)。なお、srcディレクトリの下にwgetができます。
あと、コンパイラさえあればWindowsでもコンパイルできるらしいですが、ちょっと難しいらしいので、ネット上で探して見てください。実際、検索サーバとかで見つかりました。

簡単な使い方

○基本1

 wget http://flateight.com/~matsui/index.html 

http://flateight..../index.htmlのみをダウンロードする。
○基本2

 wget -r http://flateight.com/~matsui/index.html 

http://flateight..../index.htmlから再帰回収(-r)でホームページをダウンロードする。 つまり、ホームページをまるごと自分のディスクに持って来る。
また、深さはデフォルトの5まで回収する。 これを実行すると、実行したディレクトリにホスト名と同様(ここではflateight.com)のディレクトリができる。 その下にダウンロード先と同じようなディレクトリ構造ができる。

応用的使い方

○応用1

 wget -r -L -l 10 http://flateight.com/~matsui/index.html

http://flateight….を再帰回収(-r)で相対リンクだけ(-L)をたどり 深さ10まで(-l 10)でダウンロードする。 HTTP(ホームページ)の場合はこの使い方が一般的。
○応用2

 wget -r -A .jpg,.gif -nd http://flateight.com/~matsui/index.html 

http://...にリンクしてあるjpgやgifといった画像ファイル(このページをブラウザで開くと表示する画像) だけ(-A .jpg,.gif)をカレントディレクトリ(-nd)にダウンロードする。 なおこの場合、深さは自動的に1(指定ページのリンクだけ)となる。(画像ファイルにリンクはないので、当然)

○応用3

 wget -r -np ftp://seagull.cs.uec.ac.jp/pub/foo/ 

ftp://seagull.cs.uec.ac.jp/のpub/foo/ディレクトリ以下だけ (-npにより親ディレクトリを回収しなくする)を再帰回収(-r)する。(深さはデフォルトの5)~
FTPの場合はこのやり方が一般的。 また、ある一つのホームページ(HTTP)だけをまるごとダウンロードするのにも便利。

○応用4

 wget -e HTTP_PROXY=xx.xx.xx.xx.xx:3128 http://xxxx --proxy-user=user --proxy-passwd=userpass

Proxy経由でwget