目次

はじめに

このページにかぎらないのですが、だれでも編集可能です。

間違っていたら修正をお願いします。

注意点、更新時には、「spamではない場合はチェック」を入れないと、修正は破棄するように改造しています。

sparkってなに

一言でいうならば、分散処理のRDDという考え方を実装したフレームワーク。

メリットは多段処理が必要な演算の記述が簡潔にできる。

採用実績

CONVIVA ビデオ配信

Yahoo 台湾 分析をsparkが行っている

RDDってなに

たとえば、プログラマーは分散処理の流れを書くとsparkは分散処理の種類に応じて処理をスケジュールしてくれる。これには、多段処理の依存性を2種類に区別して、同一サーバ内で処理できるものと、他サーバでの処理結果を待つものに分けてスケジュールすることで、ネットワークの通信を最小にして高速化を図る。

また、演算が何らかの理由で失敗したとしても、スケジュールの系譜を逆算して、途中の成功している演算結果を利用する仕組みが備わっている。それは再帰的に行われる。

このように分散処理を多段にわけ、2種類に区別することで、系譜を作りスケジュールを行う考え方をRDDと読んでいるようだ。

これは、障害に強い分散処理とでも言えばいいのだろうか。

sparkという名称よりRDD分散処理フレームワークとしたほうが、実態を表した名前に近いのになぁと思った。

遅延実行

その他の特徴に、遅延実行がある。 アクションと呼ばれるトリガーが呼ばれるまで、なにもしない。

Scalaの学習に最適

ソースコードがJavaのプログラマーが理解できるようにコメントがしっかりしていて、

Akkaをつかって、リモートで実行させる記述など、勉強になることが多い。

コードについて

version0.6でだいたいできていて、1万行でversion1.0では、5万行、でも内容は大差なく、機能がプラグイン形式になったり、コメントが豊富になったりしている。

コミッターについて

100人規模になっているが、メインは4人

チューニング

メモリを使うモード、ストレージを使うモードなどなど、 処理に合わせて、チューニングできるようになっている。 ソースコードを見るとわかる。

デバック

デバックに癖があるとのこと

URL

http://spark.apache.org/

ダウンロード

spark.apache.org/downloads.html

Scalaのサンプルが書いてあるので

scalaがインストールされている前提。

YARN

任意の分散処理フレームワークやアプリケーションの作成を容易にする新しいフレームワークのことです。MapReduce?のバージョン2とも呼ばれています。

JobTracker?の代替えです。

Yet-Another-Resource-Negotiatorの頭文字をとっています。

[Mesos]Hadoop YARNとApache Mesosの違いって何?

http://d.hatena.ne.jp/kimutansk/20131104/1383496192

http://blog.livedoor.jp/sonots/archives/35421955.html

その他きになること

Googleのオメガは、リソース管理やってて、参考にするのか、そのあたりどうなるか。。。

scala

http://www.scala-lang.org/download/

ドキュメントリンク

http://databricks.com/spark

Typesafe Activator

Typesafe Activatorとは、Scala/Java向けのWebアプリケーションフレームワーク「Akka」などに向けたアプリケーション開発ツールです。

Hadoop上にWebアプリを構築する方法を表示する「Play Framework + HBase」や「Reactive Mongo + Knockout」などがあります。

http://typesafe.com/activator

エコシステム(Sparkを使った特定用途のフレームワーク)

Spark Streaming Shark (SQLが使える)

以下略

勉強会

hadoopの勉強会で、紹介されてました。

twitterで#hadoopreading で検索するとヒットするはず。

NTT DATAの豊洲の人々と、Treasure DATAの人が盛り上げていました。

トップ   編集 凍結 差分 バックアップ 添付 複製 名前変更 リロード   新規 一覧 単語検索 最終更新   ヘルプ   最終更新のRSS
Last-modified: 2014-05-30 (金) 07:00:59 (3620d)