- 追加された行はこの色です。
- 削除された行はこの色です。
*目次 [#oa9f85e2]
#contents
*目的 [#m55d2707]
余計な情報を見ないようにしたかった。
なので、
HTMLから、必要なコードをコマンドラインで抽出してみたかった。
すると、perlの記事をみつけたが、ちょっとした準備がひつようだった。
だから、その準備をメモしてみることにしてみた。
*環境 [#r633b9a7]
cygwinにて確認しました。
**準備 [#sf26f124]
cygwinにはcurlコマンドはデフォルトではないっていないので、入れます。
下記のREADMEからインストール方法を見てみる
http://search.cpan.org/dist/App-cpanminus/
いろいろインストール方法が記載されていたが、自分は下記をつかった
curl -L http://cpanmin.us | perl - App::cpanminus
インストールされたみたいなので、下記コマンドを入力
cpan
すると対話モードのインストーラが立ち上がった。
サンプルコードに掲載されていたコードは下記のライブラリをつかうようだった。
なのでインストールする。コマンドは下記の通り、
install LWP::UserAgent
次に
install HTML::TreeBuilder
**簡単!たった13行のコードでHTML取得&解析をするPerlスクリプト [#a0145938]
http://dqn.sakusakutto.jp/2010/06/perlhtml.html
上記のコマンド
**リンクの抽出 [#ab404eba]
foreach $a ($tree->find("a")) {
print $a->attr('href');
print "\n";
}
*pythonでもやってみる [#ydd90b39]
**easy_install導入 [#r92fc518]
準備のためにeasy_installをいれるといいみたい。
wget http://peak.telecommunity.com/dist/ez_setup.py
python ez_setup.py
**mechanize [#uc95ff7f]
easy_install mechanize
***使用例 [#f2cf827b]
http://coreblog.org/ats/using-mechanize-to-automate-web-access
http://blog.livedoor.jp/salinger_programming/archives/1379286.html
http://www.ibm.com/developerworks/jp/linux/library/l-python-mechanize-beautiful-soup/