HTML スクレイピング - KuniWiki

[ トップ ] [ 編集 | 凍結 | 差分 | バックアップ | 添付 | リロード ] [ 新規 | 一覧 | 単語検索 | 最終更新 | ヘルプ ]

最新の30件

2024-04-16

VBAでREST通信

2024-04-15

excelのdiff

2024-04-08

BI Publisherで始めるデータ駆動型レポート作成

2024-04-03

RecentDeleted

2024-03-28

大文字小文字変換

2024-03-26

MQL5 小作品

2024-01-09

AIの話題

2023-12-25

【MQL5】KuniRangeBreakoutEA

2023-12-24

MT5 EA

2023-12-10

pythonでseleniumを使う

2023-10-08

2023-10-04

JHipsterでBuleprintを使いこなす

2023-09-05

ExcelファイルをAIに読ませる

2023-08-28

【Javascript】【CLIライブラリ】commanderの勉強

2023-05-30

figmaにプラグインをインストールする

2023-05-23

DeepFloyd IF

2023-05-16

GitLabでPlantUML使ってみる

2023-05-15

LDAPサーバをdockerで立ち上げる

2023-05-11

Google認定プロジェクトマネージャの勉強メモ

2023-05-09

mailcowのインストール

2023-05-08

Mattermostを使ってオンプレミスでチャット環境を作る

2023-04-27

2023-04-25

PyHipster

2023-04-18

2023-04-08

酸化グラフェン

2023-04-01

pukiwiki記事一覧

目次 †

目次
目的
環境
pythonでもやってみる
- easy_install導入
- mechanize
  - 使用例

目的 †

余計な情報を見ないようにしたかった。

なので、

HTMLから、必要なコードをコマンドラインで抽出してみたかった。

すると、perlの記事をみつけたが、ちょっとした準備がひつようだった。

だから、その準備をメモしてみることにしてみた。

環境 †

cygwinにて確認しました。

準備 †

cygwinにはcurlコマンドはデフォルトではないっていないので、入れます。

下記のREADMEからインストール方法を見てみる

http://search.cpan.org/dist/App-cpanminus/

いろいろインストール方法が記載されていたが、自分は下記をつかった

curl -L http://cpanmin.us | perl - App::cpanminus

インストールされたみたいなので、下記コマンドを入力

cpan

すると対話モードのインストーラが立ち上がった。

サンプルコードに掲載されていたコードは下記のライブラリをつかうようだった。

なのでインストールする。コマンドは下記の通り、

install LWP::UserAgent

次に

install HTML::TreeBuilder

簡単！たった１３行のコードでHTML取得＆解析をするPerlスクリプト †

http://dqn.sakusakutto.jp/2010/06/perlhtml.html

上記のコマンド

リンクの抽出 †

foreach $a ($tree->find("a")) {
   print $a->attr('href');
   print "\n";
}

pythonでもやってみる †

easy_install導入 †

準備のためにeasy_installをいれるといいみたい。

wget http://peak.telecommunity.com/dist/ez_setup.py
python ez_setup.py

mechanize †

easy_install mechanize

使用例 †

http://coreblog.org/ats/using-mechanize-to-automate-web-access

http://blog.livedoor.jp/salinger_programming/archives/1379286.html

http://www.ibm.com/developerworks/jp/linux/library/l-python-mechanize-beautiful-soup/

Last-modified: 2013-06-23 (日) 23:53:57 (3959d)