毎週3分、情シスドリル コレ1枚で分かる「Hadoop」:即席!3分で分かるITトレンド
大規模データの効率的な分散処理を実現するソフトウェア基盤である「Hadoop(Apache Hadoop)」は、ビッグデータの活用を支えるテクノロジーとして注目を集めてきました。今回はHadoopの役割について整理してみましょう。
この連載は
カップめんを待つ間に、電車の待ち時間に、歯磨きしている間に“いまさら聞けない”ITトレンドが分かっちゃう! 今さら聞けないITの最新トレンドやビジネス戦略を、体系的に整理して分かりやすく解説する連載です。「この用語、案外、分かっているようで分かっていないかも」「IT用語を現場の社員にもっと分かりやすく説明できるようになりたい」――。情シスの皆さんのこんな課題を解決します。
ビッグデータの影に「Hadoop」あり!?
「膨大な量、急激な増加、多様な形式」といった特徴を持つビッグデータを多数の小さなデータのまとまりに分割して複数のコンピュータに分散させて処理し、その結果を集約して短時間で効率よく結果を出すためのソフトウェアが、「Hadoop」です。
膨大なデータ量は、一台のコンピュータで処理するとなると、たとえ高速・高性能なコンピュータを使っても限界があります。しかし、このソフトウェアを使えば、コンピュータを必要に応じて増やすことで処理能力を順次拡大できるので、上限を気にする必要がありません。最大数千台のコンピュータに分散させることができます。
Hadoopを使わなくても、複数のコンピュータに処理を分散させることはできます。しかし、そのためには、コンピュータ同士の通信、処理状況の監視、障害時の対応などを考えてプログラムを作り込まなければならず、技術的に難しいものでした。
しかし、Hadoopはそういった面倒な処理を一手に引き受けてくれるので、プログラマーは、目的とする業務処理プログラムの開発だけに集中できるようになったのです。
Hadoopは、大きく分けてHDFSとMapReduceで構成されています。HDFS(Hadoop Distributed File System:分散ファイルシステム)は、膨大なデータを複数のマシンに分割保管して、これを1つのストレージとして扱うための仕組みです。MapReduceは、HDFSから取り出したデータを複数のデータのまとまりに分割し、複数のコンピュータに並列処理させる一連の手順を管理する仕組みです。
このような仕組みが生まれたことから、ビッグデータの扱いが容易になり、その適用範囲が広がってきたのです。
著者プロフィル:斎藤昌義
日本IBMで営業として大手電気・電子製造業の顧客を担当。1995年に日本IBMを退職し、次代のITビジネス開発と人材育成を支援するネットコマースを設立。代表取締役に就任し、現在に至る。詳しいプロフィルはこちら。最新テクノロジーやビジネスの動向をまとめたプレゼンテーションデータをロイヤリティフリーで提供する「ITビジネス・プレゼンテーション・ライブラリー/LiBRA」はこちら。
関連記事
- 連載「即席!3分で分かるITトレンド」記事一覧
- 毎週3分、情シスドリル コレ1枚で分かる「ビッグデータ」
いわゆる人々の活動やモノの動きに関するデータは、以前からビジネスで活用されてきましたが、なぜいま「ビッグデータ」と呼ばれ、これほどまでに注目が集まっているのでしょう。それを理解するヒントとして、ここでその背景を整理してみましょう。 - 個人データの移行は? セーフハーバー協定から再考するビッグデータの保管
EUから米国への個人データ移転に大きく影響する判決が下されたが、このことは企業が個人などに係るビッグデータの取り扱いにも多大な影響を与えることになりそうだ。 - 第5回 ファイルがなくなる? データの配置や保存の仕組みがどうなるか
これまではクラウド社会で大きく変わりつつあるデジタルデータの扱い方、その注意点について話してきました。今回からはIT側から見た理想的なデータ保存形式について解説していきます。 - 第4回 デジタルデータのコピーは「何個」必要か
デジタルデータは、コピーが簡単で、送受信も簡単、その場で加工もできます。しかし、便利な半面、消失してしまいやすいリスクもあります。今回は「では、何個コピーを残せばよいか」について改めて考えましょう。
関連リンク
Copyright © ITmedia, Inc. All Rights Reserved.