home ホーム search 検索 -  login ログイン  | reload edit datainfo version cmd icon diff delete  | help ヘルプ

日記/2009/05/01/Pythonで<img>タグのsrc属性の値だけを抽出 (v1)

日記/2009/05/01/Pythonで<img>タグのsrc属性の値だけを抽出 (v1)

日記 / 2009 / 05 / 01 / Pythonで<img>タグのsrc属性の値だけを抽出 (v1)
id: 375 所有者: msakamoto-sf    作成日: 2009-05-01 22:48:51
カテゴリ: Python 

別にPHPでもRubyでもPerlでも出来るのだけれど、折角Pythonを勉強してみたので、Pythonでやってみることにしました。

と、探せば沢山出てきますが、今回対象となるドキュメントは、正確なXMLというよりはタグエラーも混ざってそうな昔のHTMLだったりしますので、最終的に残ったのがBeautifulSoupでした。

BeautifulSoup自体はtarボールを解凍するとsetup.pyがありますので、普通に

python setup.py install (--record install-files.txt)

でOKです。ファイル自体は本体とテストコードで計2つしかありません。今回は最新版(3.1.x)ではなくて一つ前の3.0.7aを使いました。

ローカルファイルに落としてきたfoo.htmlを解析して、<img>タグのsrc属性値をリストで抜き出すのはこんな感じになります。

from BeautifulSoup import BeautifulSoup
lines = open("foo.html", "r").readlines()
data = ''.join(lines)
soup = BeautifulSoup(data)
elements = soup.findAll('img')
for e in elements:
    print e['src']

プレーンテキスト形式でダウンロード
現在のバージョン : 1
更新者: msakamoto-sf
更新日: 2009-05-01 22:59:00
md5:4ad904d241d74bf280ad7a0a29b83ed2
sha1:282a8abaf2eec8edf93ad30316630c04f0c358f4
コメント
コメントを投稿するにはログインして下さい。