*目次 [#ud651ccf] #contents *背景 [#m99550c8] CUIのツールを作るにあたって、HTMLをコピペする使用を考えた際、1行ごとに指示が完結しなくなる。つまり、構文的に中途半端である判断の場合、自動的に次の行の入力を待たなくてはいけないことになる。 *目的 [#v480fe1f] HTMLをパースすることによって下記のことを成し遂げる -入力は標準入力 -構文チェックを行う -DOMオブジェクトを取得すること -XPathの文法やcssのセレクター形式でDOMオブジェクトにアクセスできること これらに関する情報を集め、メモするのがこのページの目的である。 *DOMオブジェクト取得に関するサイト [#nd15b3f9] **JSOUPを使ってHTMLをパースする [#v83b37e1] http://techbooster.org/android/mashup/13635/ **Java:jerichoを使ってHTMLをパースする [#md686c6d] http://www.hiihah.info/index.php?Java%EF%BC%9Ajericho%E3%82%92%E4%BD%BF%E3%81%A3%E3%81%A6HTML%E3%82%92%E3%83%91%E3%83%BC%E3%82%B9%E3%81%99%E3%82%8B コンテンツページのリンク(aタグ)だけ取り出すサンプルが掲載されています。 *XPath系のサイト [#ib19e3f3] **JavaでXPathが面白い [#wfd2353f] http://nmksb.seesaa.net/article/40189062.html XPathの良さを面白そうに説明しています。 **Java XPath Tutorial: How To Parse XML File Using XPath In Java [#mb6d2d02] http://viralpatel.net/blogs/java-xml-xpath-tutorial-parse-xml/ 英語のサイト なんだか、丁寧に書かれているかんじがする。 **javaでXpathを使う [#ic58bb08] http://www.hiihah.info/index.php?java%E3%81%A7Xpath%E3%82%92%E4%BD%BF%E3%81%86%EF%BC%88%EF%BC%91%EF%BC%89 **java 5.0(1.5) から導入された XPath 関連オブジェクトのサンプルです。 [#t38e4342] http://www.devsite.jankh.net/javaxpath.html 特に追加のライブラリは必要ありません