[ << ] | [ >> ] | [Top] | [Contents] | [Index] | [ ? ] |
例は,その複雑さから大まかに三つのセクションに分けています.
7.1 簡単な使用方法 | Simple, basic usage of the program. | |
7.2 高度な使用方法 | Advanced tips. | |
7.3 非常に高度な使用方法 | The hairy stuff. |
URLをダウンロードしたいとします.以下のように入力します.
wget http://fly.srk.fer.hr/ |
しかし,接続が遅い場合やファイルが長いとき,何が生じるのでしょうか?接 続は,ファイル全体を回収する前に一度以上失敗するでしょう.この場合, Wgetはファイル全体を取得する,または再挑戦の回数(デフォルトで20)を越え るまで,ファイルの取得を試みます.ファイル全体を安全に得ることを保証す るため,試みる回数を45に変更することは簡単です.
wget --tries=45 http://fly.srk.fer.hr/jpg/flyweb.jpg |
さて,Wgetがバックグラウンドで動作するようにし,その進捗状況をログファ イル`log'に書き出します.`--tries'と入力する面倒なので,我々 は`-t'を使用します.
wget -t 45 -o log http://fly.srk.fer.hr/jpg/flyweb.jpg & |
行の終りのアンパサンドはWgetがバックグラウンドで動作することを確実にし ます.再挑戦の回数を無制限にするため,`-t inf'を使用してください.
FTPの使用は単純です.Wgetはログインとパスワードの面倒もみます.
wget ftp://gnjilux.srk.fer.hr/welcome.msg |
ディレクトリを指定する場合,Wgetはディレクトリリストを回収し,それを解 析し,HTMLに変換します.以下を試してみてください.
wget ftp://ftp.gnu.org/pub/gnu/ links index.html |
ダウンロードを行ないたいURLを含むファイルがあるでしょうか?`-i'を 使用します.
wget -i file |
ファイル名として`-'を指定した場合,URLは標準入力から読み込ま れます.
GNUのウェブサイトの5階層までの深さのミラーイメージを,動作のログを `gnulog'に保存しながら,オリジナルと同じディレクトリ構造で,ドキュ メントごとに一度の挑戦だけで作成します.
wget -r http://www.gnu.org/ -o gnulog |
以下は上記と同じですが,オフラインでドキュメントが閲覧できるように, HTMLファイル内のリンクをローカルファイルを指し示すものに変換します.
wget --convert-links -r http://www.gnu.org/ -o gnulog |
一つのHTMLのみを回収し,内部の画像と外部のスタイルシートもダウンロー ドされるように,そのページを表示するために必要な全ての要素が確実に回収 します.また,ダウンロードされたリンクもダウンロードしたページを確実に 参照します.
wget -p --convert-links http://www.server.com/dir/page.html |
HTMLページは`www.server.com/dir/page.html'に保存され,そして 画像とスタイルシートなども,リモートのサーバにあった場所に依存して, `www.server.com/'以下に保存されます.
上記と同じですが,`www.server.com/'ディレクトリを用いないようにし ます.実際,これらのランダムなサーバディレクトリを全く持ちたいとは思い ません--現在のディレクトリのサブディレクトリ`download/'以下に,こ れらのファイル全部をそのまま保存したいと思います.
wget -p --convert-links -nH -nd -Pdownload \ http://www.server.com/dir/page.html |
オリジナルのサーバのヘッダを表示しながら,`www.lycos.com'の index.htmlを回収します.
wget -S http://www.lycos.com/ |
サーバヘッダをファイルに保存し,それはおそらく処理後のためです.
wget --save-headers http://www.lycos.com/ more index.html |
`wuarchive.wustl.edu'の最初の二階層を回収し,`/tmp'に保存しま す.
wget -r -l2 -P/tmp ftp://wuarchive.wustl.edu/ |
HTTPサーバ上のディレクトリから全てのGIFダウンロードしたいとし ます.`wget http://host/dir/*.gif'を試しても,HTTPの回収は globをサポートしないので動作しません.その場合は以下を使用してください.
wget -r -l1 --no-parent -A.gif http://www.server.com/dir/ |
より冗長ですが,効果は同じです.`-r -l1'は,最大深度が1の再帰的な 回収(see section 再帰的なダウンロード)を意味します.`--no-parent'は親ディ レクトリへの参照を無視すること(see section ディレクトリベースの制限)を意味し, `-A.gif'はGIFファイルのみをダウンロードすることを意味します. `-A "*.gif"'も動作します.
Wgetが中断されたときダウンロード中だったとします.さて,既に存在するファ イルを壊したくはありません.そして,以下のようにします.
wget -nc -r http://www.gnu.org/ |
HTTPやFTPのユーザ名とパスワードを符号化したい場合,適切な URL構文(see section URLの書式)を使用してください.
wget ftp://hniksic:mypassword@unix.server.com/.emacs |
しかし,この使用方法は,ps
の出力を見たユーザにパスワードがされら
れるので,複数ユーザのシステムでは推奨されないことに注意して下さい.
出力されるドキュメントをファイルの代わりに標準出力にしたいでしょうか?
wget -O - http://jagor.srce.hr/ http://www.srce.hr/ |
二つのオプションを組み合わせ,リモートのホットリストからドキュメントを 回収するパイプラインを作成することも可能です.
wget -O - http://cool.list.com/ | wget --force-html -i - |
ページ(またはFTPサブディレクトリ)のミラーをWgetに保持させたい場合, `-r -l inf -N'に対する省略形の`--mirror' (`-m')を使用し てください.日曜日ごとにサイトの再調査を依頼するため,Wgetをcrontabファ イルに書くことが可能です.
crontab 0 0 * * 0 wget --mirror http://www.gnu.org/ -o /home/me/weeklog |
上記と同様に,ローカルで閲覧するためにリンクを変換したいとします.しか し,このマニュアルを読んだ後では,リンクの変換がタイムスタンプのように うまく動作しないことが分かるので,変換前にWgetにオリジナルのHTML ファイルをバックアップさせたいとします.Wgetの呼び出しは以下のようにな ります.
wget --mirror --convert-links --backup-converted \ http://www.gnu.org/ -o /home/me/weeklog |
しかし,HTMLファイルが`.html'以外の拡張子で保存されるときは, ローカルでの閲覧はうまく動作しないことに気付いていて,それはおそらく `index.cgi'として保存されているためです.そのためWgetで, content-type `text/html'の全てのファイルを, `name.html'に名前を変えたいことでしょう.
wget --mirror --convert-links --backup-converted \ --html-extension -o /home/me/weeklog \ http://www.gnu.org/ |
または,より入力が少ない以下を用います.
wget -m -k -K -E http://www.gnu.org/ -o /home/me/weeklog |
[ << ] | [ >> ] | [Top] | [Contents] | [Index] | [ ? ] |
This document was generated by Akihiro Sagawa on August, 17 2005 using texi2html 1.70.