日記/2009/05/02/画像DLPythonツール"image_collector"を作ってみた。
日記 / 2009 / 05 / 02 / 画像DLPythonツール"image_collector"を作ってみた。
id: 376 所有者: msakamoto-sf
作成日: 2009-05-02 15:56:18
カテゴリ: Python
日記/2009/05/01/Pythonで<img>タグのsrc属性の値だけを抽出 でBeautifulSoupを使った<img>のsrcタグ抜き出しが出来たので、肉付けして、HTML中の<img>タグと<a>タグでリンクされた画像をローカルにDLするスクリプトを組んでみた。
http://coderepos.org/share/browser/lang/python/image_collector
実際に使ってみた感覚としては、幾つか改良が必要と感じた。
- DL対象のドメイン名 or URLプレフィクスを複数指定できると良い。それ以外は無視する。
- 処理間隔をミリ秒単位で指定できるようにしたい。
- ソケットエラーが発生した場合のリトライ回数を指定したい。
- <img>のsrc属性と、<a>のhref属性のどちらを/両方を処理するかフラグで指定できるようにしたい。
- "-dry-run"機能が欲しい。
- 保存先ディレクトリをコマンドラインオプションで指定できるようにすると便利かも。
多分getoptを使うことになりそう。
折角勉強したPythonです。趣味と実益を兼ねた、良い練習問題になりそうです。
プレーンテキスト形式でダウンロード
現在のバージョン : 1
更新者: msakamoto-sf
更新日: 2009-05-02 16:06:24
md5:8965e9a3cddf25c3dc8753ded139881d
sha1:1b05340427e0343c2e2bd156664469b224c58949
コメント