日記/2009/05/01/Pythonで<img>タグのsrc属性の値だけを抽出

日記 / 2009 / 05 / 01 / Pythonで<img>タグのsrc属性の値だけを抽出

id: 375 所有者: msakamoto-sf 作成日: 2009-05-01 22:48:51
カテゴリ: Python

別にPHPでもRubyでもPerlでも出来るのだけれど、折角Pythonを勉強してみたので、Pythonでやってみることにしました。

"PythonでXPathを使う"
- http://blog.cles.jp/item/2921
"[Python][XML]libxml2でのXPathの練習"
- http://d.hatena.ne.jp/perezvon/20060817/1155827674
"lxml" (libxml2を使ったXMLライブラリ)
- http://codespeak.net/lxml/index.html

と、探せば沢山出てきますが、今回対象となるドキュメントは、正確なXMLというよりはタグエラーも混ざってそうな昔のHTMLだったりしますので、最終的に残ったのがBeautifulSoupでした。

"Python で HTML ファイルから情報を取り出すには - 傀儡師の館.Python"
- http://plaza.rakuten.co.jp/kugutsushi/diary/200610220001/
"Beautiful Soup: We called him Tortoise because he taught us."
- http://www.crummy.com/software/BeautifulSoup/

BeautifulSoup自体はtarボールを解凍するとsetup.pyがありますので、普通に

python setup.py install (--record install-files.txt)

でOKです。ファイル自体は本体とテストコードで計2つしかありません。今回は最新版(3.1.x)ではなくて一つ前の3.0.7aを使いました。

ローカルファイルに落としてきたfoo.htmlを解析して、<img>タグのsrc属性値をリストで抜き出すのはこんな感じになります。

from BeautifulSoup import BeautifulSoup
lines = open("foo.html", "r").readlines()
data = ''.join(lines)
soup = BeautifulSoup(data)
elements = soup.findAll('img')
for e in elements:
    print e['src']