目次 †
背景 †
CUIのツールを作るにあたって、HTMLをコピペする使用を考えた際、1行ごとに指示が完結しなくなる。つまり、構文的に中途半端である判断の場合、自動的に次の行の入力を待たなくてはいけないことになる。
目的 †
HTMLをパースすることによって下記のことを成し遂げる
- 入力は標準入力
- 構文チェックを行う
- DOMオブジェクトを取得すること
- XPathの文法やcssのセレクター形式でDOMオブジェクトにアクセスできること
これらに関する情報を集め、メモするのがこのページの目的である。
DOMオブジェクト取得に関するサイト †
JSOUPを使ってHTMLをパースする †
http://techbooster.org/android/mashup/13635/
Java:jerichoを使ってHTMLをパースする †
http://www.hiihah.info/index.php?Java%EF%BC%9Ajericho%E3%82%92%E4%BD%BF%E3%81%A3%E3%81%A6HTML%E3%82%92%E3%83%91%E3%83%BC%E3%82%B9%E3%81%99%E3%82%8B
コンテンツページのリンク(aタグ)だけ取り出すサンプルが掲載されています。
XPath系のサイト †
JavaでXPathが面白い †
http://nmksb.seesaa.net/article/40189062.html
XPathの良さを面白そうに説明しています。
Java XPath Tutorial: How To Parse XML File Using XPath In Java †
http://viralpatel.net/blogs/java-xml-xpath-tutorial-parse-xml/
英語のサイト
なんだか、丁寧に書かれているかんじがする。
javaでXpathを使う †
http://www.hiihah.info/index.php?java%E3%81%A7Xpath%E3%82%92%E4%BD%BF%E3%81%86%EF%BC%88%EF%BC%91%EF%BC%89
java 5.0(1.5) から導入された XPath 関連オブジェクトのサンプルです。 †
http://www.devsite.jankh.net/javaxpath.html
特に追加のライブラリは必要ありません