AWS、ビジュアルなデータクレンジングツール「AWS Glue DataBrew」発表 大規模データの整理を迅速に実現
AWSがデータクレンジングツール「AWS Glue DataBrew」を発表。データクレンジングをビジュアルに行えるのが特長。従来よりも80%速く作業ができるという。
この記事は新野淳一氏のブログ「Publickey」に掲載された「AWS、ビジュアルなデータクレンジングツール「AWS Glue DataBrew」発表。大規模データの整理を迅速に実現」(2020年11月17日掲載)を、ITmedia NEWS編集部で一部編集し、転載したものです。
データを基に分析を行う場合、対象となるデータがきちんと整っている必要があります。
しかし多くの場合、日付データの中に日付に変換されなかった数値データが混ざっていたり、同じ会社なのに「株式会社」と「(株)」(全角カッコ)と「(株)」(半角カッコ)の表記が揺れているせいで別の会社に分類されたり、名前や住所のどこかに余計なスペースが入っていて別のデータになったり、データをインポートしたときのミスで2つの列が連結されて1つの列に入っていたりと、整っていないデータが紛れ込んでいるものです。
これらを整理しなければ、正確なデータ分析はできません。そこで、データ分析の前処理としてデータを整える、いわゆる「データクレンジング」と呼ばれる作業が行われます。
データクレンジングは一般に手間と時間がかかる作業です。どんな外れ値や未整理のデータが存在するのかはデータを見てみないと予想できないことも多いため、ときには目視でえんえんとデータを眺めることさえあるでしょう。
多数の外れ値や未整理の値を一括して変換するためのデータ操作も簡単ではありません。
そのため以前からさまざまなデータクレンジングツールが存在していました。
AWSがこのほど発表した「AWS Glue DataBrew」は、このデータクレンジングをビジュアルに行えるツールです。同社によれば、従来よりも80%速く作業ができるとのこと。
対象となるデータを定義したら、データの全体像を把握できます。下記は対象となるデータ全体のなかで重複している値や欠けているデータの量、全体の相関関係などが示されています。
さらに特定の列に注目し、データの総合的な品質、データの分散量(カーディナリティ)、分散の様子、ユニーク値にはどんな値があるか、などもビジュアルに表示できます。
そのうえでデータクレンジング作業を実行できます。画面上のメニューバーに並んでいるのは、よく使われるクレンジングのパターンを実行できるツール群です。これらを組み合わせて実行していけば、変換コードを記述しなくともデータクレンジング作業を進めていくことができます。
変換作業はプレビューによって適用後の状態を確認することもでき、クレンジング作業はレシピとして保存可能です。
AWS Glue DataBrewは現在、アジアパシフィック(東京)リージョンを含む、米国東部(バージニア北部)、米国東部(オハイオ州)、米国西部(オレゴン)、ヨーロッパ(アイルランド)、ヨーロッパ(フランクフルト)、アジアパシフィック(シドニー)などのリージョンで利用可能になっています。
関連記事
- 身に覚えのない170万円の請求が……AWSの運用管理で起きた“4つのしくじり”
クラウド専業のSIer・アイレットのインフラエンジニアが、運用管理者向けイベント「Cloud Operator Days Tokyo 2020」に登壇。AWSのマネージドサービスで起こした失敗談を語った。高額請求が来たり、予期せぬエラーが出たりといった“しくじり”があったという。 - サントリー、国内の全サーバ1000台をAWS移行 データセンター解約で「身軽になった」
サントリーは2020年7月までに、国内の全サーバ(1000台超)をオンプレミスからAWSに移行したと明らかにした。今後は海外のグループ企業でもAWSへの移行を進め、ITインフラを統合管理する方針。 - 日本政府、AWSベースの情報システム基盤を運用開始 デジタルシフトの起爆剤になるか
日本政府が「第二期政府共通プラットフォーム」の利用を始めた。これまで各省庁が個別に運用してきたシステムを、AWSを基盤とするITインフラに集約したものだ。AWSジャパンの宇佐見潮執行役員(パブリックセクター統括本部長)が、記者向け説明会でその概要と利点を解説した。 - 日本MS、打倒AWSに意欲 行政クラウド事業を強化 吉田社長「ナンバーワン目指す」
日本マイクロソフトが2021年度(20年7月〜21年6月)の経営戦略を発表。競合のAWSが先行する中、行政クラウド事業を強化する。吉田仁志社長は「ナンバーワンを目指す」と意気込む。
関連リンク
Copyright © ITmedia, Inc. All Rights Reserved.