その単一箇所が働かないと、システム全体が障害となるような箇所
結論からいうと、64bitOSでメモリ8G以上のマシンで確認したほうがよいです。
動作環境するには、VMWareのイメージを使ったほうが手っ取り早いのですが、その際に注意することは、ホストとなるマシンが絞られます。
clouderaが現時点で提供しているイメージは仮想ように4GBのメモリを使う前提で作られています。なので、32ビットのwindowsなどは、その時点で耐えられるようにはなっていません。
OpenSSHを導入しなくてはならないのですが、管理者権限がないと、キーの設定が行えないため、
yahooが提供しているVMWAREをつかったほうがよいでしょう
また、このイメージはバージョンが0.20であり、O'REILLYの本も0.20をベースとして書かれているので、勉強するのには、向いていると思います。
最小限の構成で設定されたVMWareのイメージを使って、動作確認することができました。
http://www.atmarkit.co.jp/fjava/index/index_hadoop_tm.html
環境構築のサイトみても、バージョンが合わないと、そのまま、使えないことが多く
作業効率が悪い。そこで、すでに構築済みのイメージを探すことにした。
0.20のイメージと、その使い方
http://www.atmarkit.co.jp/ait/articles/1106/21/news117_3.html
結構いろいろと、Hadoopのサブプロジェクトが入っている
メモリは4Gのバーチャルマシンだ。
無理やり3GのWindowsマシンをホストにして動かすことができた。
日本語の説明はこちら
http://www.publickey1.jp/blog/12/hadoopwindows.html
ブラウザが立ち上がっていますが、rootのパスワードの変更、
日本語化が先なので、まず閉じます。
まずキーボードの配列がアメリカ向けなのに気が付いたので、
日本語化します。
http://note-for-cs.seesaa.net/article/356278300.html
Hueというブラウザツールを使って、グラフィカルにHadoopに関する操作ができるようです。
eclipseも入っている
http://www.raspberrypi.org/phpBB3/viewtopic.php?f=41&t=37190
http://raspberrypicloud.wordpress.com/2013/04/25/getting-hadoop-to-run-on-the-raspberry-pi/
gigabit Ethernetがないので遅い
PS3で大量に構成する団体もあるらしい。
MapRは商用Hadoop Distributionです。
Hadoopと100%互換で1.3~1.7倍早いという実験結果をみました。
JavaではなくC言語で実装しなおしてあるそうです。
http://www.mapr.com/products/download
ここでFREE版の配布を行ってます。
VMWareのみなので、Macユーザは、Fusionを買わないといけないですね。
RAM 2GB
Ubuntuを使っています。
http://www.slideshare.net/recruitcojp/hadoop-srccodereading8-mapr
SSHを使おうと思ったら、ネットワークカードを追加する設定が必要なのだが、
VirtualBox?自身と、イメージの両方に登録が必要でわかりにくいうえに、
VirtualBox?バグってて、追加できなかった。
http://www.infoq.com/jp/news/2013/05/ConcurrentPattern
Hadoop -> Lingual -> SQL -> R -> PMML -> Pattern -> Hadoopというループ
いまオライリー.comだとHadoop本第3版が1600円くらいで電子版が買える
NTTDATAの利権っぽい臭いがする、なのでCDHのライバルと思われるMapRとかの情報はでてこないと思われる。