ビッグデータとは?特徴や分析方法、エンジニアの職種についても紹介
ビッグデータとはそもそも何なのか、その基本的な説明から5つの分析方法、ビッグデータで仕事ができるエンジニアの職種について、詳細に解説します。
ビッグデータとはそもそも何なのか、その基本的な説明から5つの分析方法、ビッグデータで仕事ができるエンジニアの職種について、詳細に解説します。
知識・情報
2020/06/26 UP
- データ活用
- キャリアパス
最近、ビッグデータという言葉が話題になることが増えてきました。我々が普段行っている購買行動に紐づく、いつ、どこで、何を、どんな人が買った、といった、データを膨大な量収集したものをビッグデータと呼びます。
こうしたビッグデータは、個人情報の適正な流通のための環境づくり、行政手続き、民間取引のデータ活用推進など、ビッグデータ活用の促進に向けた国の法整備も進んでいます。
企業にとっても、ビッグデータを分析することで、異常の察知や未来予測などの結果が格段に広がり、売上を向上させることにもつながっていきます。
この記事では、ビッグデータとはそもそも何なのか、その基本的な説明から5つの分析方法、ビッグデータで仕事ができるエンジニアの職種について、詳細に解説します。
ビッグデータとは?
ビッグデータとは、これまでのデータベース管理システムなどの技術では、管理したり分析したりすることが困難な大量のデータ群のことで、データ形式や種類は様々です。
インターネットの普及、コンピューターの処理速度向上といった技術の進歩によって、FacebookやTwitterなどのSNSを利用する人も増え、膨大なデータが生成されるようになりました。
インターネットにつながっているコンピューターやモバイル機器から生まれるデータは、文字、写真、音声、動画などだけでなく、通信の記録、利用状況などのログデータもあります。
2012年に全世界で2.8ゼタ(1ゼタは1兆の10億倍)バイトだったビッグデータは今後も増え続け、2020年には40ゼタバイトになるだろうと、米国のIT専門調査会社IDCによって予測されています。
ビッグデータは大量なだけでなく、リアルタイム性も高く、非定型であり、定型化したデータを蓄積し、処理・分析するような従来のデータベース管理システムで扱うことは困難とされてきました。
しかし、近年では技術の進歩により、毎日、毎時、発生している膨大な量のビッグデータを、高速かつ簡単に分析することができるようになり、新しい仕組みを生み出したり、社会問題を解決したりすることが可能になりました。
ビジネスでビッグデータを分析・活用すれば、新製品開発、リリース計画、コスト削減などの目標も達成しやすくなります。また、ビッグデータには気象情報、健康情報、位置情報など、様々な分野で活用できるデータも含まれるため、新しい市場への活用も期待されています。
ビッグデータの特徴
明確な共通定義は定まっていませんが、ビッグデータの定義として良く使われているのが「容量(Volume)」「種類(Variety)」「頻度・スピード(Velocity)」の3Vの要素です。
最近では「正確さ(Veracity)」を加えて4Vとも言われています。順番に見ていきましょう。
容量(Volume)
データの総量のことです。情報技術の発展によって、メッセージ、画像、動画などのソーシャルメディアのデータや、ビジネス・トランザクション、マシン間通信、IoTなどで発生するデータなど、数多くのものがビッグデータとして扱われるようになりました。
そのためデータ量もゼタバイトからエクサバイトというスケールに増えていくことが予想され、これらを処理するハイパフォーマンスな技術が求められています。
種類(Variety)
データの種類のことです。これまでのデータの種類は、企業の基幹システムで扱うような表やデータベースに格納できる、テキスト、ビデオ、音声、ログデータなどのデータがメインでした。
しかし、ビッグデータには、位置データ、センサーデータなど、今までは簡単には収集できなかったデータも含まれるようになっています。
頻度・スピード(Velocity)
データが生成されるスピードのことです。現代社会では、コンビニで24時間発生するPOSデータ、交通系ICカードの乗車履歴データ、SNSのデータなど、人や物から発信された様々なデータがネット上にあふれ、頻繁に更新が繰り返されています。
そのため、かつては想像もできなかったような速さで生まれ続けるビッグデータを、リアルタイムに処理することが必要となってきています。
正確さ(Veracity)
情報の正確さや信憑性のことです。IBMを発端として提唱された定義で、データの変化にともなって正確さも重要になってきました。
センサー故障によるノイズデータなどだけでなく、Web上に流れるフェイクニュースや、SNSに大量に書き込まれるデマ情報の扱い方も問題となっています。
データが少ない時代であれば手作業で簡単に除去できたようなデータも、ビッグデータでは簡単に除去できません。
曖昧さによる不確実性、データの矛盾、近似値を積み重ねることによる不正確さなどを排除し、信頼できるデータを活用するということが求められます。
ビッグデータの分析方法
ビッグデータを活用するためにはデータの分析が必要となります。分析手法は色々とありますが、代表的な5つの分析方法をご紹介します。
クロス集計分析
属性別の情報収集やデータ分析をする時に用いる分析方法で、ビジネス、行政、各種メディア、家庭の家計簿など、様々な場面で用いられています。
分析結果を元に、必要であればさらに項目や属性を細分化し、再度アンケートを実施することで、より詳細な分析結果を得ることができます。
例えば、世代別にアンケートを実施し、年齢や性別などの属性を横軸、項目を縦軸にすることで、単純な集計では得られなかった世代別のニーズや傾向を知ることが可能となります。
ロジスティック回帰分析
収集された膨大なデータの中から、異なるデータの関係性を見つけ出して比較・分析する手法で、2つのデータを比較し定量的に分析することで、集計結果への原因を推測します。
商品開発やサービス提供を行う企業、医療分野で病気発生率などを分析する際に使われる分析方法です。予測結果を0-1の間に収めることができるため、確率予測などで使用されます。
アソシエーション分析
何の関連性もないような複数のデータから相関性を割り出す分析手法で、連関分析ともいわれています。データ単体では見つけることができなかったデータ間の隠れた法則を見つけ出し、今後の販売戦略などに役立てることが可能なことから、ネット通販、スーパー、小売店などで利用されています。
有名な例として、アメリカのスーパーの事例があります。複数購入していくユーザの行動を調査したところ、オムツ購入者はビールを同時に購入する傾向が高いことが判明。オムツとビールを近くに陳列して両方の売上が上がったという「おむつとビールの法則」です。
クラスター分析
異なる性質が混ざり合っているデータの中から、似ているものを集めた集団(クラスター)を作り、分析する方法です。
クラスター分析には、似たもの同士を一つの集団にまとめる「階層クラスター分析」と、あらかじめクラスター分類数を設定してからデータ分類する「非階層クラスター分析」があります。マーケティングでのターゲット分析、ペルソナ分析、生活者動向調査など、分類基準がはっきりしないデータを分類する場合に用いられます。
マーケティング現場では、クラスター分析によって見込み客の潜在ニーズが把握できるので、ニーズに合った商品を開発するための情報として利用されています。
決定木分析
ディシジョンツリーともいい、一つの原因から「If then:もし〜だったらどうなるか」という仮説を繰り返していき、何通りもの予測を行う手法です。
仮説経路が樹木状に枝分かれした分析モデル図になるので、決定木分析といわれています。
アンケート結果をもとに決定木をつくり、分岐点ごとにクロス集計を繰り返すことで、複雑な要因や属性を整理、分析できます。
ターゲットを絞り込んで購入の可能性が高い属性を予測する、自社商品の満足度が高いユーザー属性を判別して分類するなど、予測・判別・分類を行えることから、マーケティングやリスクマネジメントなどに利用されます。
ビッグデータで仕事ができるエンジニアの職種とは
AIやIoTの普及により、企業にデータ分析専門部署ができたり、AI開発を行ったりする会社も増え、これからの社会にとって、ビッグデータにかかわるエンジニアは必要不可欠な存在になることは間違いありません。
では、ビッグデータを扱うエンジニアには、どのような職種があるのでしょうか。
データサイエンティスト、データ分析エンジニア
ビッグデータを分析して課題を解決するエンジニアをデータサイエンティストと言います。データサイエンティストの具体的な業務内容は、データの収集、分析、施策立案など多岐にわたります。
まず解決したい事柄を設定して必要なデータを収集します。その後、集められた膨大なデータを分析し、どうすれば課題が解決するかを検討します。そしてこの分析結果元に、業務改善や販売戦略に利用したり、問題解決のための施策立案に役立てたりします。
そのため、データサイエンティストには、統計学、数学、コンピュータサイエンスの高度な知識が必要なだけでなく、ビジネスに関する深い知識、論理的思考力、データベースやクラウドなどのIT知識といった幅広いスキルも必要とされます。
また、企業の成長戦略にも関わるので、ITに詳しくない経営陣に対し、わかりやすく説明できるプレゼン能力も必要となります。
これに対し、データの分析を専門とするエンジニアをデータ分析エンジニアといいます。収集されたデータを解析する、表・グラフなどでデータを可視化する、ビジネスの意思決定者が、データをもとに合理的な判断ができるようサポートする、などの業務を行います。
機械学習・AIエンジニア
AIエンジニアは、機械学習、ディープラーニングなどのAIシステム開発やAIモデルを作成する技術者のことです。
AIエンジニアには、プログラミングはもちろんのこと、機械学習やディープラーニングなどの知識とスキル、ビッグデータの扱い方など、非常に幅広い知識とスキルが必要とされます。
AIエンジニアは、問題や課題に対して適切なAIを作成、活用できるようにするために、企画・設計など早い段階からプロジェクトに関わることが多いです。論文調査、技術的に可能かどうかの検証、アイデア出しなどを行い、実現の可能性が高い計画を立てていきます。
AIモデルやアルゴリズム設計に関する業務のほか、AIシステムの構築・設計・開発、データの前処理とクレンジング、API選択、基盤整備、追加機能の開発なども行います。
また、機械学習やディープラーニングには、AIに学習させるためのビッグデータが必要となります。特にデータベースに近いAIエンジニアは管理・運用面で、AI機器やセンサーなどの開発エンジニアはデータ収集面で、ビッグデータとかかわることになるため、こうした知識も必要です。
ビッグデータの分析は企業に大きな影響をもたらす
IT技術の進化とインターネットの普及によって生まれたビッグデータは、大量なだけでなくリアルタイム性も高いため、これまでのシステムで処理することは困難とされてきました。
しかし、近年の技術進歩によって、これまで難しかったデータも扱うことが可能となっています。
今後、IoTや分析技術がさらに発達することで、収集できるデータはますます増加し、ビッグデータはより身近なものになることが予想されます。
企業ではビッグデータを分析、活用することで、コスト削減や顧客数の拡大といった現状課題を解決することも可能となってきました。
また、様々なデータを分析することで、今までわからなかった消費者行動心理を理解したり、力を入れるべき商品を特定したりして、売上向上も可能になってきています。
企業に大きな影響をもたらすビッグデータは、今後も様々なデータを組み合わせることによって、新しい事業を生み出していく可能性が期待されます。企業だけでなく、環境問題などの社会的な問題を解決する手段としても、ビッグデータの活用は進んでいくことでしょう。