ビッグデータ テクノロジー完全ガイド

ビッグデータ テクノロジー完全ガイド

ビッグデータ テクノロジー完全ガイド

googleのエンジニアが記述する、ビッグデータ処理技術を俯瞰する本。
Hadoopをベース技術として、その上でデータ変換ワークフローを構築するために「Hadoop Streaming API」「Pig」「Cascading」といった技術が存在する。
またリレーショナルDBで扱いきれない大規模データに対するアドホックな分析クエリを実現するための技術として、Hadoop上で稼働する「Hive」や、インメモリの分散処理フレームワーク「Spark」で稼働する「Shark」、そしてgoogleクラウドサービスとして提供される「BigQuery」が示される。
応用技術としての機械学習ではHadoop上の「mahout」やSpark上の「MLbase」がある。また、データ分析ツールとしては「R」と「Pandas」が挙げられるが、大規模データに適用するには、いずれも並列処理を実現するための考慮が必要となる。
そして、「データサイエンティスト」という言葉が流行する裏で、技術に携わる者が立ち位置を見失わないことが警告される。

データサイエンティストは知的好奇心と専門知識、そしてデータに関する課題を解決する力を兼ね備えた人物である。彼らの論文は良い点を指摘しているのだが、それは多くの組織がすでにこうした人物を抱えており、開発者や統計の専門家たちが、彼らの役割を発展させる形で問題に取り組んでいる場合もあるという事実だ。パティルのような人々は、データサイエンティストという仕事を定義し、普及を促すことで、彼らが組織の成功に貢献していることへの関心を促そうとしているのである。

「データサイエンティスト」という職位にあるものが全てを賄うというのは現実的な姿ではなくて、開発者と統計学者がMapReduce登場後の世界に正しく適応することが重要だと指摘されている。
開発者は、新しく登場する技術のうち、自社に役に立つ技術を見極めて習得することが求められ、統計学者は巨大なデータセットを相手にすべき状況と、サンプルに基づく統計分析を適用すべき状況をそれぞれ見極めた上で、データからストーリー展開することを求められる。