[[Scala言語を学ぶやさしいツール「Kojo」]] [[SCALAの記事一覧]] &topicpath; *目次 [#j9faa2ce] #contents *Hadoopとは [#e2e53ff9] http://ja.wikipedia.org/wiki/Hadoop 巨大なファイルシステムってことで理解してていいんじゃないかな? **Apache版 Hadoop [#j2cf3cf0] http://hadoop.apache.org/ *紹介記事 [#sc40bb52] http://d.hatena.ne.jp/stanaka/20091125/1259124272 *MapReduceとは [#p11948c5] Map処理, シャッフル, Reduce処理の3つの手順から構成されている. -1.Map処理入力データ(キーと値のペア)を受け取り, 任意の形式に変換することで, 必要な情報を 抽出する. 全てのMap処理は並列実行することができる. -2.シャッフル Mapによって作られたデータを整理し, データを任意の順に並べ替える. -3.Reduce処理 データをまとめて最終的に手に入れたい結果を作り上げるプロセスで, データ全体についての整理された処理結果を得る. **MapReduceが有効に働く処理 [#l40c4084] -検索エンジンの転置インデックス作成 -grep -ソート -平均値と分散計算 -PageRank 計算 -PageRank の高いウェブページを検索 -ドキュメント内のリンクの収集 -ログ解析