- 追加された行はこの色です。
- 削除された行はこの色です。
*VMwareイメージ [#b74ff5d9]
*目次 [#z0c8badf]
#contents
*用語 [#s3ef4778]
**単一障害点 [#u4e250ea]
その単一箇所が働かないと、システム全体が障害となるような箇所
*注意点 [#l3dc9828]
**結論 [#q0d6d751]
結論からいうと、64bitOSでメモリ8G以上のマシンで確認したほうがよいです。
cygwinで動かしたいならば、ver0.22までしか動かない、それ以降のは使えない。(PriviledgedActionException)がでるため
**動作環境が絞られるわけ [#kc2d2d9f]
動作環境するには、VMWareのイメージを使ったほうが手っ取り早いのですが、その際に注意することは、ホストとなるマシンが絞られます。
**32ビットではcloudraのVMWareのイメージはやめたほうがいい。 [#l4ed7f5d]
clouderaが現時点で提供しているイメージは仮想ように4GBのメモリを使う前提で作られています。なので、32ビットのwindowsなどは、その時点で耐えられるようにはなっていません。
**cygwin環境で動作確認するには管理者権限に注意して導入すること [#va2440f0]
OpenSSHを導入しなくてはならないのですが、管理者権限がないと、キーの設定が行えないため、
**貧弱なPCで動作確認するには [#f48e3139]
yahooが提供しているVMWAREをつかったほうがよいでしょう
また、このイメージはバージョンが0.20であり、O'REILLYの本も0.20をベースとして書かれているので、勉強するのには、向いていると思います。
*yahooが用意したVMWareを使って確認する [#ua19b63b]
**テキストマイニングで始める実践Hadoop活用 [#oc27f652]
最小限の構成で設定されたVMWareのイメージを使って、動作確認することができました。
***デメリット [#b1faa26c]
-キーボード配列が英語
-yumやrpmがインストールされていない。wgetはインストールされていた。
http://www.atmarkit.co.jp/fjava/index/index_hadoop_tm.html
**yahooでの導入事例 [#g87bd367]
**yahoo系の勉強会の情報 [#oe14f7ae]
http://techblog.yahoo.co.jp/
**VMwareイメージ [#b74ff5d9]
環境構築のサイトみても、バージョンが合わないと、そのまま、使えないことが多く
作業効率が悪い。そこで、すでに構築済みのイメージを探すことにした。
**yahoo [#a178afe6]
0.20のイメージと、その使い方
http://www.atmarkit.co.jp/ait/articles/1106/21/news117_3.html
*cloudera [#jfb8d370]
結構いろいろと、Hadoopのサブプロジェクトが入っている
メモリは4Gのバーチャルマシンだ。
無理やり3GのWindowsマシンをホストにして動かすことができた。
日本語の説明はこちら
**改造記事 [#i0d8d12f]
Hadoop CDH3 試行錯誤
http://www.ne.jp/asahi/hishidama/home/tech/apache/hadoop/hadoopCDH3_trial.html
**追記 CDH5 [#r0a36a1b]
久しぶりにHadoopの記事をみたらバージョンアップされていました。
2014/04/04 Update: CDH5がリリースされました。
**日本語の説明 [#ubb42838]
http://www.publickey1.jp/blog/12/hadoopwindows.html
ブラウザが立ち上がっていますが、rootのパスワードの変更、
日本語化が先なので、まず閉じます。
**日本語化 [#a8af985e]
まずキーボードの配列がアメリカ向けなのに気が付いたので、
日本語化します。
***CentOS 6の日本語化 [#n327d77b]
http://note-for-cs.seesaa.net/article/356278300.html
**感想 [#baccb7d2]
Hueというブラウザツールを使って、グラフィカルにHadoopに関する操作ができるようです。
eclipseも入っている
*RaspberrtPiでクラスター [#d9eb8c98]
http://www.raspberrypi.org/phpBB3/viewtopic.php?f=41&t=37190
http://raspberrypicloud.wordpress.com/2013/04/25/getting-hadoop-to-run-on-the-raspberry-pi/
**デメリット [#jecaa699]
gigabit Ethernetがないので遅い
PS3で大量に構成する団体もあるらしい。
*MapR [#mac9270e]
MapRは商用Hadoop Distributionです。
http://www.mapr.com/
Hadoopと100%互換で1.3~1.7倍早いという実験結果をみました。
JavaではなくC言語で実装しなおしてあるそうです。
**FREE版 [#o2665745]
http://www.mapr.com/products/download
ここでFREE版の配布を行ってます。
VMWareのみなので、Macユーザは、Fusionを買わないといけないですね。
RAM 2GB
Ubuntuを使っています。
**MapR利用体験のブログ [#pe3cb948]
http://mobile-engineering.seesaa.net/article/254247616.html
*各ディストリビュータの比較、MapRとCDH [#e96390ba]
http://www.slideshare.net/recruitcojp/hadoop-srccodereading8-mapr
*その他 [#e96b894a]
**MacのVirtualBox [#q82322a3]
SSHを使おうと思ったら、ネットワークカードを追加する設定が必要なのだが、
VirtualBox自身と、イメージの両方に登録が必要でわかりにくいうえに、
VirtualBoxバグってて、追加できなかった。
**気になったニュース記事 [#qbb23456]
***ConcurrentがHadoop向け機械学習DSLのPatternをリリース [#b503dd7d]
http://www.infoq.com/jp/news/2013/05/ConcurrentPattern
Hadoop -> Lingual -> SQL -> R -> PMML -> Pattern -> Hadoopというループ
*象本 [#he4d3b70]
いまオライリー.comだとHadoop本第3版が1600円くらいで電子版が買える
**webページ [#ob2ada32]
http://www.oreilly.co.jp/books/9784873115030/
http://oreilly.com/catalog/0636920010388
***作者のサイト [#e5bed382]
サンプルで使ったNCDC気象情報データはここにとり方が書いてある
http://hadoopbook.com/
***サンプルコード [#k2c1bb5d]
http://hadoopbook.com/code.html
https://github.com/tomwhite/hadoop-book/blob/master/ch02/src/main/java/MaxTemperatureMapper.java
***英語は第3版 [#r3de6a6b]
http://shop.oreilly.com/product/0636920021773.do
***象本の感想 [#eaf552e5]
NTTDATAの利権っぽい臭いがする、なのでCDHのライバルと思われるMapRとかの情報はでてこないと思われる。