余計な情報を見ないようにしたかった。
なので、
HTMLから、必要なコードをコマンドラインで抽出してみたかった。
すると、perlの記事をみつけたが、ちょっとした準備がひつようだった。
だから、その準備をメモしてみることにしてみた。
cygwinにて確認しました。
cygwinにはcurlコマンドはデフォルトではないっていないので、入れます。
下記のREADMEからインストール方法を見てみる
http://search.cpan.org/dist/App-cpanminus/
いろいろインストール方法が記載されていたが、自分は下記をつかった
curl -L http://cpanmin.us | perl - App::cpanminus
インストールされたみたいなので、下記コマンドを入力
cpan
すると対話モードのインストーラが立ち上がった。
サンプルコードに掲載されていたコードは下記のライブラリをつかうようだった。
なのでインストールする。コマンドは下記の通り、
install LWP::UserAgent
次に
install HTML::TreeBuilder
http://dqn.sakusakutto.jp/2010/06/perlhtml.html
上記のコマンド
foreach $a ($tree->find("a")) { print $a->attr('href'); print "\n"; }
準備のためにeasy_installをいれるといいみたい。
wget http://peak.telecommunity.com/dist/ez_setup.py python ez_setup.py
easy_install mechanize
http://coreblog.org/ats/using-mechanize-to-automate-web-access
http://blog.livedoor.jp/salinger_programming/archives/1379286.html
http://www.ibm.com/developerworks/jp/linux/library/l-python-mechanize-beautiful-soup/