JAVAの記事一覧

Top / Java SQL Parserを調査する

目次

jparsec

http://jparsec.codehaus.org/

パーサ生成フレームワーク

YACCとの違いは外部ファイルを必要としない点が違う。

Ruby版も存在しており、rparsecという。言語の先頭1文字をとって区別をつけている。 haskell版もあるがこちらが、元になっているので、こちらの名前はparsecという。

SQLの解析サンプルについて

jparsecをダウンロードし、解凍すると [jparsec-2.0_src]-[examples]-[src]-[org]-[codehaus]-[jparsec]-[examples]-[sql] がある。

Eclipseに取り込む手順

jparsecからダウンロードしてきたファイルを解凍しておきます。

junitのjarファイルも手元になければ、ダウンロードしてきます。

ダウンロードしてきたjunitはjunit-4.18.jarとかバージョン名がついているので、

junit.jarという名前にかえておきます。

junitはjparsecのlibフォルダに格納しておきます。

では、eclipseがわの準備を行ってみましょう。

Eclipseに新規にJavaプロジェクトを作成します。

ファイルメニューのインポートで先ほど解凍してできたフォルダを選択し、それをプロジェクトのsrcディレクトリを指定してとりこみます。

srcフォルダは、4つあります、本体用、本体test用、example用、exampleテスト用

インポート直後は

まだ、プロジェクトのビルドパスにjarが登録されていませんので、コンパイルエラーになっています。

そこで、ビルドパスの設定でparsecのlibフォルダ内のjarをすべて登録します。

コンパイルエラー表示はほぼ消えます。

が、1カ所だけAllTest?クラスでエラーになっています。

それは、作者がライブラリをあげたくないからだと build.xmlの80行目に明記してありました。

こんな感じ、

AllTests uses jtc, which is an extra dependency that I don't want to upload.

おそらく、Androidのソースを流用したコードだから、著作権の問題であげれないとでも思ったのでしょうか。

それはさておき、

	

build.xmlには、このクラスのみ除外してコンパイルする記述がありました。

要するにいらないんです。この

だからbuild.xmlをいじくりたくなかったので、つぎのようにクラスを書き換えておきました。

package org.codehaus.jparsec;

//import org.openqa.jtc.junit.TestSuiteBuilder;

import junit.framework.TestSuite;

/**
*
* @author benyu
*/
public class AllTests extends TestSuite {
 public static TestSuite suite() {
   //return TestSuiteBuilder.suite(AllTests.class);
   return null;
 }
}

コンパイル方法

build.xmlがあるので、toolは、ソースが公開されていないみたいなので、開発元の方用のantタスクかもしれません。それ以外はコンパイルできました。

exampleにあるSQLパーサの使い方

exampleのテストケースをみると使い方が書いてありました。

どこに書いてあるかというと

パッケージ名:

package org.codehaus.jparsec.examples.sql.parser;

クラス名:

RelationParserTest?

メソッド名:

 public void testSelect() {

内容の抜粋:

SQLの問い合わせ文

select distinct 1, 2 as id from t1, t2

が下記のようにクラスの構造に解析されているのを確認しているテストコードが書かれていました。

   Parser<Relation> parser = RelationParser.select(NUMBER, NUMBER, TABLE);
   assertParser(parser, "select distinct 1, 2 as id from t1, t2",
       new Select(true, 
           Arrays.asList(new Projection(number(1), null), new Projection(number(2), "id")),
           Arrays.asList(table("t1"), table("t2")),
           null, null, null));

チュートリアル

http://jparsec.codehaus.org/jparsec2+Tutorial

Java SQL Parserを調査する

動機

SQLを解析することで、SQLを動的に解析して単体試験仕様書の作成を自動化したい

そのためには次の項目を自動抽出したい。

自動抽出目標項目

この記事を書くにあたっての目標である。

Oracleのプレースホルダー

さらにいうと、

その他達成しようとしていること

SQLを解析し、Excelで定義してある和名を検索し和名表示に置換する。

そのためには、SQL解析にて、次の対応表を作成する。

テーブルの別名とテーブル名

テーブル名とテーブル和名

WHERE句などの解析方法について考える

WHERE句を解析するには正規表現などを駆使して文法を解析するのもいいが、できれば文法の定義ファイルをもとにパーサを生成し、そのパーサをもとに解析したい。

全体的な感想

簡単な文法レベルでいいから手軽にパーサを生成して活用できるようになりたいと思う。

Java SQL Parser

ANTLR

http://www.antlr.org/grammar/list

まずは上記のFAQから読み始めたほうがいいが、英語なので、英語が苦手ならば、日本語の説明サイトがあったので、そちらをみたほうがいい。

使い方の参考URL

http://www.limy.org/program/java/antlr/step1.html

特徴

使い方

よくわからない状態で、ためしにEclipseのビルドパスに外部Jarとしてぶっこんで、

http://www.antlr.org/wiki/display/ANTLR3/ANTLR+Cheat+Sheet

をためしてみたが、TLexerとTParserが見つからない、どうやら事前に生成するようだ。

expr.g

expr.gで下記の内容を保存してみる。

class ExprParser extends Parser;
expr:
 mexpr ((PLUS|MINUS) mexpr)*
 ;
mexpr:
 atom (STAR atom)*
 ;    
atom:
 INT | LPAREN expr RPAREN 
 ;
class ExprLexer extends Lexer;
options {
   k=2; // needed for newline junk
   charVocabulary='\u0000'..'\u007F'; // allow ascii
}
LPAREN: '(' ;
RPAREN: ')' ;
PLUS  : '+' ;
MINUS : '-' ;
STAR  : '*' ;
INT   : ('0'..'9')+ ;
WS    : ( ' '
       | '\r' '\n'
       | '\n'
       | '\t'
       )
       {$setType(Token.SKIP);}
     ;   

次のようにコマンドラインで実行する

java -classpath antlr-3.2.jar antlr.Tool expr.g

なにやらファイルが生成された

PLSQLの定義ファイルはこちら

http://www.antlr.org/grammar/1174072667394/PLSQLGrammar.g

上記ファイルをダウンロードして下記のように打ち込むと

java -classpath antlr-3.2.jar antlr.Tool PLSQLGrammar.g

クラスファイルが出来上がる。

で、下記のクラスを要求している

そのファイルは下記よりダウンロード可である。

SoftwareMetrics?クラスはこちら

http://www.antlr.org/grammar/1174072667394/SoftwareMetrics.java

でこのSoftwareMetrics?はいろいろ摩訶不思議な設定が必要だが、その方法は下記よりダウンロード可能

PLSQLMain

http://www.antlr.org/grammar/1174072667394/PLSQLMain.java

eclipse plugin

http://antlreclipse.sourceforge.net/

Using ANTLRWorks with Java.g 

http://openjdk.java.net/projects/compiler-grammar/antlrworks/

感想

http://openjdk.java.net/projects/compiler-grammar/antlrworks/

Apache Derby.

Apache Derby

http://db.apache.org/derby/

はApacheのDBのサブプロジェクトでしてそのApache Derbyにパーサがあるらしい

.native() メソッドを見るといいようだ。

JSqlParser?

http://jsqlparser.sourceforge.net/

SQLを解析してJavaクラスの階層構造に変換する

特徴

Visitorパターンについて知りたい場合は下記のURLなどを見る

http://www.aerith.net/design/Visitor-j.html

使い方:準備

ダウンロードしてきたjarのパスをzipに変換して解凍し、 そのなかからlibフォルダにjarがあるので、そいつをeclipseのビルドパスに外部jarとして取り込ませる。

サンプル

サイトのサンプルがちょっと手直しが必要だったので直して、日本語訳しておきます。

TablesNamesFinder?StringValue?はEclipseの自動補完を使うとjava.langの方をつかうので、

import net.sf.jsqlparser.expression.StringValue;

としておきましょう

JoinVisitor?(だっけか?)は削除しておきます。

               CCJSqlParserManager pm = new CCJSqlParserManager();
		/*
		 * Oracleのプレースホルダーは対応してないので、''で括るなどしましょう
		 * :AAA -> ':AAA' 
		 * Oracleの外部結合である(+)も対応していないので、削っておきましょう
		 * (+) -> 削除 
		 */
		String sql = "SELECT * FROM MY_TABLE1, MY_TABLE2, (SELECT * FROM MY_TABLE3) LEFT OUTER JOIN MY_TABLE4 "+
		" WHERE ID = (SELECT MAX(ID) FROM MY_TABLE5) AND ID2 IN (SELECT * FROM MY_TABLE6)" ;
		net.sf.jsqlparser.statement.Statement statement = pm.parse(new StringReader(sql));
		/* 
		対象のSQL文字列が何を行うか(たとえばSELECTなのかINSERTなのか...)に応じて、
		StatementVisitorをimplementsで実装したクラスをつかってください。
		とりあえずここでは例としてSELECT用のselectStatementをつかっています。
		*/
		if (statement instanceof Select) {
			Select selectStatement = (Select) statement;
			TablesNamesFinder tablesNamesFinder = new TablesNamesFinder();
			List tableList = tablesNamesFinder.getTableList(selectStatement);
			for (Iterator iter = tableList.iterator(); iter.hasNext();) {
				System.out.println(iter.next());
			}
		}

Zql

http://www.gibello.com/code/zql/

Javaで書かれたSQLのParser

OracleのDECODEとかの関数がデフォルトで定義されていない

p = new ZqlParser();
p.addCustomFunction("DECODE", 0);

とするが、引数の数値のエラーがでたまま解析が実行できない。

下記のアドレスが参考になりそうだが、MDLがよくわからんので役にはたたない。

http://blogs.oracle.com/warehousebuilder/2007/08/14/

Demoの動かし方

cmd

でDOSプロンプト起動

cd xxxデモのあるディレクトリ

でデモファイルがあるディレクトリをカレントディレクトリにする。

READMEには

java ZDemo queries.num

とあるが、パスを通しておく

java -cp .;..\classes ZDemo queries.num

Demo実行結果

select * from num
[a = 1.0, b = 1.0, c = 1.0, d = 1.0, e = 1.0]
[a = 2.0, b = 2.0, c = 2.0, d = 2.0, e = 2.0]
[a = 1.0, b = 2.0, c = 3.0, d = 4.0, e = 5.0]
[a = 5.0, b = 4.0, c = 3.0, d = 2.0, e = 1.0]
select * from num where ((1 + 1) = 2)
[a = 1.0, b = 1.0, c = 1.0, d = 1.0, e = 1.0]
[a = 2.0, b = 2.0, c = 2.0, d = 2.0, e = 2.0]
[a = 1.0, b = 2.0, c = 3.0, d = 4.0, e = 5.0]
[a = 5.0, b = 4.0, c = 3.0, d = 2.0, e = 1.0]
select ((((a + b) + c) + d) + e) from num
5.0
10.0
15.0
15.0

ちなみにもうひとつのデモを試す

java -cp .;..\classes StringDemo "select * from num where foo = bar order by fuga;"

結果

select * from num where (foo = bar) order by fuga ASC

BYACC/J

http://byaccj.sourceforge.net/

YACCと互換性あるそうな。

すでに、YACCでの.yのファイルがたくさんある場合。たしかに、新しく定義書を一から作り上げるよりは、すでにあるものを活用した方が手っ取り早いかもしれない。

となると、参考になる構文解析の定義ファイル一覧を持っていないといけない。 ただし、その場合、自分で微調整できるスキルがないとだめだろう。

Java Cup

http://www2.cs.tum.edu/projects/cup/

bisonのようなボトムアップ型の構文解析のJavaコードを生成します。

JavaのParser生成ライブラリー

ボトムアップの構文解析アルゴリズム

bisonのアルゴリズムの解説

http://www.bookshelf.jp/texi/bison/bison-ja_8.html

補足

ちなみにC言語の構文解析を生成するのはbisonと呼ばれる

トップダウン型のJava構文解析の生成にはJavaCCがある。

JFlex

JFlexはこちら

http://jflex.de/

ちなみにC言語の字句解析器生成言語はflexという。

Pythonでの構文解析

Python言語でいうところのSparkモジュールに相当するかも

Pythonのその他の構文解析モジュールについては下記URLがまとまっていた。興味が湧いたら見てみる。

http://nedbatchelder.com/text/python-parsers.html

Javascript

パーサコンビネータを作っちゃう人の記事

http://inforno.net/articles/tag/javascript/

特徴

構文解析についての考察や疑問

構文解析と正規表現の関係についての考察

すべて正規表現でまかなうことは可能ではないということなのか 文字列は正規表現でマッチングできるが、さらにそれをトークンとして構造的なパターンマッチを行うのが構文解析なのだろうか?

それとも、正規表現を線形的なパターンマッチだとあえて言うならば、構文解析は木という平面的な解析だというのだろうか?

構文解析とScalaについての考察

構文解析の定義はScala言語のcase match に似ている

Scalaには構文解析ツールとして、パーサコンビネータが標準で用意されている。scala.util.parsing.combinator内に、多くのパッケージ、クラスが定義されている。

Scalaで電卓を作る

多忙な Java 開発者のための Scala ガイド: 電卓を作る、第 1 回

http://www.ibm.com/developerworks/jp/java/library/j-scala08268.html

多忙な Java 開発者のための Scala ガイド: 電卓を作る、第 2 回

http://www.ibm.com/developerworks/jp/java/library/j-scala10248.html

多忙な Java 開発者のための Scala ガイド: 電卓を作る、第 3 回

http://www.ibm.com/developerworks/jp/java/library/j-scala11218.html

その他参考URL

構文解析

http://sites.google.com/site/scalamemo/raiburari/parsing

第18回 Scalaとパーザコンビネータ(実装編)

http://itpro.nikkeibp.co.jp/article/COLUMN/20100526/348454/

Scala のパーサコンビネータで罠にはまった

http://d.hatena.ne.jp/thinca/20100119/1263837522

字句解析とクラスについての考察

そもそも、トークンとはクラスとして置き換えることができそうだ。

たとえば正規表現でデータをマッチさせて、クラスを生成すればいい。

トップ   新規 一覧 単語検索 最終更新   ヘルプ   最終更新のRSS