HTML スクレイピングの変更点

[ トップ ] [ 編集 | 差分 | バックアップ | 添付 | リロード ] [ 新規 | 一覧 | 単語検索 | 最終更新 | ヘルプ ]

追加された行はこの色です。
削除された行はこの色です。
HTML スクレイピングへ行く。
HTML スクレイピングの差分を削除

*目次 [#oa9f85e2]
#contents

*目的 [#m55d2707]
余計な情報を見ないようにしたかった。

なので、

HTMLから、必要なコードをコマンドラインで抽出してみたかった。

すると、perlの記事をみつけたが、ちょっとした準備がひつようだった。

だから、その準備をメモしてみることにしてみた。

*環境 [#r633b9a7]
cygwinにて確認しました。



**準備 [#sf26f124]

cygwinにはcurlコマンドはデフォルトではないっていないので、入れます。


下記のREADMEからインストール方法を見てみる

http://search.cpan.org/dist/App-cpanminus/


いろいろインストール方法が記載されていたが、自分は下記をつかった

 curl -L http://cpanmin.us | perl - App::cpanminus

インストールされたみたいなので、下記コマンドを入力

 cpan

すると対話モードのインストーラが立ち上がった。

サンプルコードに掲載されていたコードは下記のライブラリをつかうようだった。

なのでインストールする。コマンドは下記の通り、

 install LWP::UserAgent

次に

 install HTML::TreeBuilder



**簡単！たった１３行のコードでHTML取得＆解析をするPerlスクリプト [#a0145938]

http://dqn.sakusakutto.jp/2010/06/perlhtml.html

上記のコマンド

**リンクの抽出 [#ab404eba]

 foreach $a ($tree->find("a")) {
    print $a->attr('href');
    print "\n";
 }


*pythonでもやってみる [#ydd90b39]

**easy_install導入 [#r92fc518]

準備のためにeasy_installをいれるといいみたい。

 wget http://peak.telecommunity.com/dist/ez_setup.py
 python ez_setup.py

**mechanize [#uc95ff7f]
 easy_install mechanize

***使用例 [#f2cf827b]

http://coreblog.org/ats/using-mechanize-to-automate-web-access

http://blog.livedoor.jp/salinger_programming/archives/1379286.html


http://www.ibm.com/developerworks/jp/linux/library/l-python-mechanize-beautiful-soup/

HTML スクレイピング の変更点

HTML スクレイピングの変更点