HTML スクレイピング
をテンプレートにして作成
[
トップ
] [
新規
|
一覧
|
単語検索
|
最終更新
|
ヘルプ
]
開始行:
*目次 [#oa9f85e2]
#contents
*目的 [#m55d2707]
余計な情報を見ないようにしたかった。
なので、
HTMLから、必要なコードをコマンドラインで抽出してみたかっ...
すると、perlの記事をみつけたが、ちょっとした準備がひつよ...
だから、その準備をメモしてみることにしてみた。
*環境 [#r633b9a7]
cygwinにて確認しました。
**準備 [#sf26f124]
cygwinにはcurlコマンドはデフォルトではないっていないので...
下記のREADMEからインストール方法を見てみる
http://search.cpan.org/dist/App-cpanminus/
いろいろインストール方法が記載されていたが、自分は下記を...
curl -L http://cpanmin.us | perl - App::cpanminus
インストールされたみたいなので、下記コマンドを入力
cpan
すると対話モードのインストーラが立ち上がった。
サンプルコードに掲載されていたコードは下記のライブラリを...
なのでインストールする。コマンドは下記の通り、
install LWP::UserAgent
次に
install HTML::TreeBuilder
**簡単!たった13行のコードでHTML取得&解析をするPerlス...
http://dqn.sakusakutto.jp/2010/06/perlhtml.html
上記のコマンド
**リンクの抽出 [#ab404eba]
foreach $a ($tree->find("a")) {
print $a->attr('href');
print "\n";
}
*pythonでもやってみる [#ydd90b39]
**easy_install導入 [#r92fc518]
準備のためにeasy_installをいれるといいみたい。
wget http://peak.telecommunity.com/dist/ez_setup.py
python ez_setup.py
**mechanize [#uc95ff7f]
easy_install mechanize
***使用例 [#f2cf827b]
http://coreblog.org/ats/using-mechanize-to-automate-web-a...
http://blog.livedoor.jp/salinger_programming/archives/137...
http://www.ibm.com/developerworks/jp/linux/library/l-pyth...
終了行:
*目次 [#oa9f85e2]
#contents
*目的 [#m55d2707]
余計な情報を見ないようにしたかった。
なので、
HTMLから、必要なコードをコマンドラインで抽出してみたかっ...
すると、perlの記事をみつけたが、ちょっとした準備がひつよ...
だから、その準備をメモしてみることにしてみた。
*環境 [#r633b9a7]
cygwinにて確認しました。
**準備 [#sf26f124]
cygwinにはcurlコマンドはデフォルトではないっていないので...
下記のREADMEからインストール方法を見てみる
http://search.cpan.org/dist/App-cpanminus/
いろいろインストール方法が記載されていたが、自分は下記を...
curl -L http://cpanmin.us | perl - App::cpanminus
インストールされたみたいなので、下記コマンドを入力
cpan
すると対話モードのインストーラが立ち上がった。
サンプルコードに掲載されていたコードは下記のライブラリを...
なのでインストールする。コマンドは下記の通り、
install LWP::UserAgent
次に
install HTML::TreeBuilder
**簡単!たった13行のコードでHTML取得&解析をするPerlス...
http://dqn.sakusakutto.jp/2010/06/perlhtml.html
上記のコマンド
**リンクの抽出 [#ab404eba]
foreach $a ($tree->find("a")) {
print $a->attr('href');
print "\n";
}
*pythonでもやってみる [#ydd90b39]
**easy_install導入 [#r92fc518]
準備のためにeasy_installをいれるといいみたい。
wget http://peak.telecommunity.com/dist/ez_setup.py
python ez_setup.py
**mechanize [#uc95ff7f]
easy_install mechanize
***使用例 [#f2cf827b]
http://coreblog.org/ats/using-mechanize-to-automate-web-a...
http://blog.livedoor.jp/salinger_programming/archives/137...
http://www.ibm.com/developerworks/jp/linux/library/l-pyth...
ページ名: