*目次 [#z0c8badf] #contents *用語 [#s3ef4778] **単一障害点 [#u4e250ea] その単一箇所が働かないと、システム全体が障害となるような箇所 *注意点 [#l3dc9828] **結論 [#q0d6d751] 結論からいうと、64bitOSでメモリ8G以上のマシンで確認したほうがよいです。 cygwinで動かしたいならば、ver0.22までしか動かない、それ以降のは使えない。(PriviledgedActionException)がでるため **動作環境が絞られるわけ [#kc2d2d9f] 動作環境するには、VMWareのイメージを使ったほうが手っ取り早いのですが、その際に注意することは、ホストとなるマシンが絞られます。 **32ビットではcloudraのVMWareのイメージはやめたほうがいい。 [#l4ed7f5d] clouderaが現時点で提供しているイメージは仮想ように4GBのメモリを使う前提で作られています。なので、32ビットのwindowsなどは、その時点で耐えられるようにはなっていません。 **cygwin環境で動作確認するには管理者権限に注意して導入すること [#va2440f0] OpenSSHを導入しなくてはならないのですが、管理者権限がないと、キーの設定が行えないため、 **貧弱なPCで動作確認するには [#f48e3139] yahooが提供しているVMWAREをつかったほうがよいでしょう また、このイメージはバージョンが0.20であり、O'REILLYの本も0.20をベースとして書かれているので、勉強するのには、向いていると思います。 *yahooが用意したVMWareを使って確認する [#ua19b63b] **テキストマイニングで始める実践Hadoop活用 [#oc27f652] 最小限の構成で設定されたVMWareのイメージを使って、動作確認することができました。 ***デメリット [#b1faa26c] -キーボード配列が英語 -yumやrpmがインストールされていない。wgetはインストールされていた。 http://www.atmarkit.co.jp/fjava/index/index_hadoop_tm.html **yahooでの導入事例 [#g87bd367] **yahoo系の勉強会の情報 [#oe14f7ae] http://techblog.yahoo.co.jp/ **VMwareイメージ [#b74ff5d9] 環境構築のサイトみても、バージョンが合わないと、そのまま、使えないことが多く 作業効率が悪い。そこで、すでに構築済みのイメージを探すことにした。 **yahoo [#a178afe6] 0.20のイメージと、その使い方 http://www.atmarkit.co.jp/ait/articles/1106/21/news117_3.html *cloudera [#jfb8d370] 結構いろいろと、Hadoopのサブプロジェクトが入っている メモリは4Gのバーチャルマシンだ。 無理やり3GのWindowsマシンをホストにして動かすことができた。 **改造記事 [#i0d8d12f] Hadoop CDH3 試行錯誤 http://www.ne.jp/asahi/hishidama/home/tech/apache/hadoop/hadoopCDH3_trial.html **追記 CDH5 [#r0a36a1b] 久しぶりにHadoopの記事をみたらバージョンアップされていました。 2014/04/04 Update: CDH5がリリースされました。 **日本語の説明 [#ubb42838] http://www.publickey1.jp/blog/12/hadoopwindows.html ブラウザが立ち上がっていますが、rootのパスワードの変更、 日本語化が先なので、まず閉じます。 **日本語化 [#a8af985e] まずキーボードの配列がアメリカ向けなのに気が付いたので、 日本語化します。 ***CentOS 6の日本語化 [#n327d77b] http://note-for-cs.seesaa.net/article/356278300.html **感想 [#baccb7d2] Hueというブラウザツールを使って、グラフィカルにHadoopに関する操作ができるようです。 eclipseも入っている *RaspberrtPiでクラスター [#d9eb8c98] http://www.raspberrypi.org/phpBB3/viewtopic.php?f=41&t=37190 http://raspberrypicloud.wordpress.com/2013/04/25/getting-hadoop-to-run-on-the-raspberry-pi/ **デメリット [#jecaa699] gigabit Ethernetがないので遅い PS3で大量に構成する団体もあるらしい。 *MapR [#mac9270e] MapRは商用Hadoop Distributionです。 http://www.mapr.com/ Hadoopと100%互換で1.3~1.7倍早いという実験結果をみました。 JavaではなくC言語で実装しなおしてあるそうです。 **FREE版 [#o2665745] http://www.mapr.com/products/download ここでFREE版の配布を行ってます。 VMWareのみなので、Macユーザは、Fusionを買わないといけないですね。 RAM 2GB Ubuntuを使っています。 **MapR利用体験のブログ [#pe3cb948] http://mobile-engineering.seesaa.net/article/254247616.html *各ディストリビュータの比較、MapRとCDH [#e96390ba] http://www.slideshare.net/recruitcojp/hadoop-srccodereading8-mapr *その他 [#e96b894a] **MacのVirtualBox [#q82322a3] SSHを使おうと思ったら、ネットワークカードを追加する設定が必要なのだが、 VirtualBox自身と、イメージの両方に登録が必要でわかりにくいうえに、 VirtualBoxバグってて、追加できなかった。 **気になったニュース記事 [#qbb23456] ***ConcurrentがHadoop向け機械学習DSLのPatternをリリース [#b503dd7d] http://www.infoq.com/jp/news/2013/05/ConcurrentPattern Hadoop -> Lingual -> SQL -> R -> PMML -> Pattern -> Hadoopというループ *象本 [#he4d3b70] いまオライリー.comだとHadoop本第3版が1600円くらいで電子版が買える **webページ [#ob2ada32] http://www.oreilly.co.jp/books/9784873115030/ http://oreilly.com/catalog/0636920010388 ***作者のサイト [#e5bed382] サンプルで使ったNCDC気象情報データはここにとり方が書いてある http://hadoopbook.com/ ***サンプルコード [#k2c1bb5d] http://hadoopbook.com/code.html https://github.com/tomwhite/hadoop-book/blob/master/ch02/src/main/java/MaxTemperatureMapper.java ***英語は第3版 [#r3de6a6b] http://shop.oreilly.com/product/0636920021773.do ***象本の感想 [#eaf552e5] NTTDATAの利権っぽい臭いがする、なのでCDHのライバルと思われるMapRとかの情報はでてこないと思われる。 *spark [#ne317471] **URL [#b2fd0f23] http://spark.apache.org/ ***ダウンロード [#lac3f811] spark.apache.org/downloads.html Scalaのサンプルが書いてあるので scalaがインストールされている前提。 **YARN [#y168c5b5] 任意の分散処理フレームワークやアプリケーションの作成を容易にする新しいフレームワークのことです。MapReduceのバージョン2とも呼ばれています。 JobTrackerの代替えです。 Yet-Another-Resource-Negotiatorの頭文字をとっています。 ***[Mesos]Hadoop YARNとApache Mesosの違いって何? [#x26e8db1] http://d.hatena.ne.jp/kimutansk/20131104/1383496192 http://blog.livedoor.jp/sonots/archives/35421955.html ***scala [#d36b9391] http://www.scala-lang.org/download/ **ドキュメントリンク [#hf6e3ef1] http://databricks.com/spark *Typesafe Activator [#a8919e3d] Typesafe Activatorとは、Scala/Java向けのWebアプリケーションフレームワーク「Akka」などに向けたアプリケーション開発ツールです。 Hadoop上にWebアプリを構築する方法を表示する「Play Framework + HBase」や「Reactive Mongo + Knockout」などがあります。 http://typesafe.com/activator