*目次 [#j2bf0be9] #contents *はじめに [#l92e49b7] このページにかぎらないのですが、だれでも編集可能です。 間違っていたら修正をお願いします。 注意点、更新時には、「spamではない場合はチェック」を入れないと、修正は破棄するように改造しています。 *sparkってなに [#p439219f] 一言でいうならば、分散処理のRDDという考え方を実装したフレームワーク。 メリットは多段処理が必要な演算の記述が簡潔にできる。 ***採用実績 [#h1a12e5b] CONVIVA ビデオ配信 Yahoo 台湾 分析をsparkが行っている **RDDってなに [#yf3b2e0c] たとえば、プログラマーは分散処理の流れを書くとsparkは分散処理の種類に応じて処理をスケジュールしてくれる。これには、多段処理の依存性を2種類に区別して、同一サーバ内で処理できるものと、他サーバでの処理結果を待つものに分けてスケジュールすることで、ネットワークの通信を最小にして高速化を図る。 また、演算が何らかの理由で失敗したとしても、スケジュールの系譜を逆算して、途中の成功している演算結果を利用する仕組みが備わっている。それは再帰的に行われる。 このように分散処理を多段にわけ、2種類に区別することで、系譜を作りスケジュールを行う考え方をRDDと読んでいるようだ。 これは、障害に強い分散処理とでも言えばいいのだろうか。 sparkという名称よりRDD分散処理フレームワークとしたほうが、実態を表した名前に近いのになぁと思った。 **遅延実行 [#n595b73b] その他の特徴に、遅延実行がある。 アクションと呼ばれるトリガーが呼ばれるまで、なにもしない。 **Scalaの学習に最適 [#j85742bc] ソースコードがJavaのプログラマーが理解できるようにコメントがしっかりしていて、 Akkaをつかって、リモートで実行させる記述など、勉強になることが多い。 ***コードについて [#y63cf154] version0.6でだいたいできていて、1万行でversion1.0では、5万行、でも内容は大差なく、機能がプラグイン形式になったり、コメントが豊富になったりしている。 ***コミッターについて [#p56d6433] 100人規模になっているが、メインは4人 **チューニング [#tbf76cef] メモリを使うモード、ストレージを使うモードなどなど、 処理に合わせて、チューニングできるようになっている。 ソースコードを見るとわかる。 ***デバック [#n525ea54] デバックに癖があるとのこと **URL [#b2fd0f23] http://spark.apache.org/ ***ダウンロード [#lac3f811] spark.apache.org/downloads.html Scalaのサンプルが書いてあるので scalaがインストールされている前提。 **YARN [#y168c5b5] 任意の分散処理フレームワークやアプリケーションの作成を容易にする新しいフレームワークのことです。MapReduceのバージョン2とも呼ばれています。 JobTrackerの代替えです。 Yet-Another-Resource-Negotiatorの頭文字をとっています。 ***[Mesos]Hadoop YARNとApache Mesosの違いって何? [#x26e8db1] http://d.hatena.ne.jp/kimutansk/20131104/1383496192 http://blog.livedoor.jp/sonots/archives/35421955.html ***その他きになること [#v19673f8] Googleのオメガは、リソース管理やってて、参考にするのか、そのあたりどうなるか。。。 ***scala [#d36b9391] http://www.scala-lang.org/download/ **ドキュメントリンク [#hf6e3ef1] http://databricks.com/spark *Typesafe Activator [#a8919e3d] Typesafe Activatorとは、Scala/Java向けのWebアプリケーションフレームワーク「Akka」などに向けたアプリケーション開発ツールです。 Hadoop上にWebアプリを構築する方法を表示する「Play Framework + HBase」や「Reactive Mongo + Knockout」などがあります。 http://typesafe.com/activator **エコシステム(Sparkを使った特定用途のフレームワーク) [#hb387830] Spark Streaming Shark (SQLが使える) 以下略 *勉強会 [#bf9535fb] hadoopの勉強会で、紹介されてました。 twitterで#hadoopreading で検索するとヒットするはず。 NTT DATAの豊洲の人々と、Treasure DATAの人が盛り上げていました。