目次

目的

余計な情報を見ないようにしたかった。

なので、

HTMLから、必要なコードをコマンドラインで抽出してみたかった。

すると、perlの記事をみつけたが、ちょっとした準備がひつようだった。

だから、その準備をメモしてみることにしてみた。

環境

cygwinにて確認しました。

準備

cygwinにはcurlコマンドはデフォルトではないっていないので、入れます。

下記のREADMEからインストール方法を見てみる

http://search.cpan.org/dist/App-cpanminus/

いろいろインストール方法が記載されていたが、自分は下記をつかった

curl -L http://cpanmin.us | perl - App::cpanminus

インストールされたみたいなので、下記コマンドを入力

cpan

すると対話モードのインストーラが立ち上がった。

サンプルコードに掲載されていたコードは下記のライブラリをつかうようだった。

なのでインストールする。コマンドは下記の通り、

install LWP::UserAgent

次に

install HTML::TreeBuilder

簡単!たった13行のコードでHTML取得&解析をするPerlスクリプト

http://dqn.sakusakutto.jp/2010/06/perlhtml.html

上記のコマンド

リンクの抽出

foreach $a ($tree->find("a")) {
   print $a->attr('href');
   print "\n";
}

pythonでもやってみる

easy_install導入

準備のためにeasy_installをいれるといいみたい。

wget http://peak.telecommunity.com/dist/ez_setup.py
python ez_setup.py

mechanize

easy_install mechanize

使用例

http://coreblog.org/ats/using-mechanize-to-automate-web-access

http://blog.livedoor.jp/salinger_programming/archives/1379286.html

http://www.ibm.com/developerworks/jp/linux/library/l-python-mechanize-beautiful-soup/

トップ   編集 凍結 差分 バックアップ 添付 複製 名前変更 リロード   新規 一覧 単語検索 最終更新   ヘルプ   最終更新のRSS
Last-modified: 2013-06-23 (日) 23:53:57 (3959d)