目次

用語

単一障害点

その単一箇所が働かないと、システム全体が障害となるような箇所

注意点

結論

結論からいうと、64bitOSでメモリ8G以上のマシンで確認したほうがよいです。

cygwinで動かしたいならば、ver0.22までしか動かない、それ以降のは使えない。(PriviledgedActionException?)がでるため

動作環境が絞られるわけ

動作環境するには、VMWareのイメージを使ったほうが手っ取り早いのですが、その際に注意することは、ホストとなるマシンが絞られます。

32ビットではcloudraのVMWareのイメージはやめたほうがいい。

clouderaが現時点で提供しているイメージは仮想ように4GBのメモリを使う前提で作られています。なので、32ビットのwindowsなどは、その時点で耐えられるようにはなっていません。

cygwin環境で動作確認するには管理者権限に注意して導入すること

OpenSSHを導入しなくてはならないのですが、管理者権限がないと、キーの設定が行えないため、

貧弱なPCで動作確認するには

yahooが提供しているVMWAREをつかったほうがよいでしょう

また、このイメージはバージョンが0.20であり、O'REILLYの本も0.20をベースとして書かれているので、勉強するのには、向いていると思います。

yahooが用意したVMWareを使って確認する

テキストマイニングで始める実践Hadoop活用

最小限の構成で設定されたVMWareのイメージを使って、動作確認することができました。

デメリット

http://www.atmarkit.co.jp/fjava/index/index_hadoop_tm.html

yahooでの導入事例

yahoo系の勉強会の情報

http://techblog.yahoo.co.jp/

VMwareイメージ

環境構築のサイトみても、バージョンが合わないと、そのまま、使えないことが多く

作業効率が悪い。そこで、すでに構築済みのイメージを探すことにした。

yahoo

0.20のイメージと、その使い方

http://www.atmarkit.co.jp/ait/articles/1106/21/news117_3.html

cloudera

結構いろいろと、Hadoopのサブプロジェクトが入っている

メモリは4Gのバーチャルマシンだ。

無理やり3GのWindowsマシンをホストにして動かすことができた。

改造記事

Hadoop CDH3 試行錯誤

http://www.ne.jp/asahi/hishidama/home/tech/apache/hadoop/hadoopCDH3_trial.html

追記 CDH5

久しぶりにHadoopの記事をみたらバージョンアップされていました。

2014/04/04 Update: CDH5がリリースされました。

日本語の説明

http://www.publickey1.jp/blog/12/hadoopwindows.html

ブラウザが立ち上がっていますが、rootのパスワードの変更、

日本語化が先なので、まず閉じます。

日本語化

まずキーボードの配列がアメリカ向けなのに気が付いたので、

日本語化します。

CentOS 6の日本語化

http://note-for-cs.seesaa.net/article/356278300.html

感想

Hueというブラウザツールを使って、グラフィカルにHadoopに関する操作ができるようです。

eclipseも入っている

RaspberrtPi?でクラスター

http://www.raspberrypi.org/phpBB3/viewtopic.php?f=41&t=37190

http://raspberrypicloud.wordpress.com/2013/04/25/getting-hadoop-to-run-on-the-raspberry-pi/

デメリット

gigabit Ethernetがないので遅い

PS3で大量に構成する団体もあるらしい。

MapR

MapRは商用Hadoop Distributionです。

http://www.mapr.com/

Hadoopと100%互換で1.3~1.7倍早いという実験結果をみました。

JavaではなくC言語で実装しなおしてあるそうです。

FREE版

http://www.mapr.com/products/download

ここでFREE版の配布を行ってます。

VMWareのみなので、Macユーザは、Fusionを買わないといけないですね。

RAM 2GB

Ubuntuを使っています。

MapR利用体験のブログ

http://mobile-engineering.seesaa.net/article/254247616.html

各ディストリビュータの比較、MapRとCDH

http://www.slideshare.net/recruitcojp/hadoop-srccodereading8-mapr

その他

MacのVirtualBox?

SSHを使おうと思ったら、ネットワークカードを追加する設定が必要なのだが、

VirtualBox?自身と、イメージの両方に登録が必要でわかりにくいうえに、

VirtualBox?バグってて、追加できなかった。

気になったニュース記事

ConcurrentがHadoop向け機械学習DSLのPatternをリリース

http://www.infoq.com/jp/news/2013/05/ConcurrentPattern

Hadoop -> Lingual -> SQL -> R -> PMML -> Pattern -> Hadoopというループ

象本

いまオライリー.comだとHadoop本第3版が1600円くらいで電子版が買える

webページ

http://www.oreilly.co.jp/books/9784873115030/

http://oreilly.com/catalog/0636920010388

作者のサイト

サンプルで使ったNCDC気象情報データはここにとり方が書いてある

http://hadoopbook.com/

サンプルコード

http://hadoopbook.com/code.html

https://github.com/tomwhite/hadoop-book/blob/master/ch02/src/main/java/MaxTemperatureMapper.java

英語は第3版

http://shop.oreilly.com/product/0636920021773.do

象本の感想

NTTDATAの利権っぽい臭いがする、なのでCDHのライバルと思われるMapRとかの情報はでてこないと思われる。

トップ   編集 凍結 差分 バックアップ 添付 複製 名前変更 リロード   新規 一覧 単語検索 最終更新   ヘルプ   最終更新のRSS
Last-modified: 2014-05-30 (金) 06:19:53 (2701d)