データ駆動時代の救世主！データ・ファブリックが解決する課題とは

今回は、データ・ファブリックとはどのような発想で、何を解決しようとするものなのかについて説明していきます。

知識・情報

2022/07/29 UP

ビジネスのデジタル化が進み、多くの企業が「データ駆動型」の経営を目指す時代になりました。「データ・ファブリック」は、このような近年の流れのなかで注目を集めつつある戦略の一つです。

とはいえ、まだまだ新しい概念のため、詳しくは知らないという人も多いのではないでしょうか。そこで今回は、データ・ファブリックとはどのような発想で、何を解決しようとするものなのかについて説明していきます。

データ・ファブリックとは？

まずは、データ・ファブリックの概要について説明します。

データ・ファブリックはデータにアクセスするための新手法

「データ・ファブリック（data fabric）」とは、ひとことで言えば「データにアクセスするための統一的な手段を提供する環境」です。

企業が保有するデータは、すべてが1ヵ所にまとめられているとは限りません。本社や支社のように複数の拠点が存在したり、クラウドサービスを利用していたりすれば、データは離れた場所に分散します。あるデータはファイルとして保存され、別のデータはデータベースに格納されるというように、用途によってストレージの種類も異なるでしょう。

データ・ファブリックは、このようにバラバラになった多数の「データソース」をつなぎ合わせます。データのネットワークが、1つの大きな「織物（fabric）」のように広がるイメージです。

データ・ファブリックは企業戦略の重要トレンド

データ・ファブリックは、世界的な調査会社であるガートナーが2021年11月に発表した「2022年の戦略的テクノロジのトップ・トレンド」の1つとして選出されています。

これは、オートメーションやセキュリティ、インフラストラクチャなどに関する注目すべき12の要素をリストアップしたものです。同社によれば、いずれも「今後5〜10年の間に顕著な破壊と機会をもたらすトレンド」だとしています。

データ・ファブリックは、データの扱い方を大きく改善できる可能性などが評価されてトレンド入りしました。企業のデータ統合インフラをシンプルで拡張性の高いものに変えるとともに、データ管理作業を最大で70％削減できるといわれています。

データ駆動時代の企業が抱える課題

データ・ファブリックは、具体的に何に役立つのでしょうか。この点を理解するために、データ駆動型の経営を目指す多くの企業が抱えている現状の課題について説明します。

クラウド活用で進行する「データのサイロ化」

近年、企業がデータを保管する場所はオンプレミスからクラウドへと移行が進みました。クラウド化はさまざまなメリットをもたらしますが、一方でデータの所在がしだいに分散していく問題もあります。引き続き自前のサーバーで管理するほうが適切な、機密情報などもあるためです。

また、それぞれのデータを最適な方法で管理しようとすれば、ストレージの種類も分かれることになるでしょう。クラウドストレージではファイルを共有し、社内システムからはクラウド上のデータベースにアクセスするといった具合です。クラウドの活用を積極的に進めるほど、データはバラバラになっていきます。

これは、たびたび問題視される「組織のサイロ化」とは別の、環境に起因する「データのサイロ化」という問題です。解決できないまま放置すればデータガバナンスは失われ、セキュリティの確保も困難な状況になりかねません。

なお「組織のサイロ化」については、こちらの記事も併せてご覧ください。
サイロ化とは？分断されたシステム設計や縦割りの組織構造が企業にもたらす弊害

本来の仕事に時間を割けないデータアナリスト

データ駆動型の経営では、データアナリストの働きが重要です。データアナリストは企業が保有するデータを横断的に分析し、さまざまな角度からビジネス判断に役立てようとします。

しかし、ひとたびサイロ化してしまったデータの分析は容易ではありません。複数のデータソースにまたがるデータを結合する作業が、大きな負担となってのしかかるためです。その結果、データアナリストの多くが本来の仕事に時間を割けない現状に直面しています。

ここで企業にとって特に問題となるのは、タイムリーなビジネス判断が困難になる点でしょう。データ分析のリアルタイム性をいかにして確保するかが、データ管理における課題だといえます。

データ・ファブリックと従来の手法との違い

上記のような課題を解決するには、分散してしまったデータを再び統合する必要があります。しかし、そのための手法として、なぜデータ・ファブリックが選ばれるのでしょうか。従来のデータ管理と何が違うのか比べてみましょう。

データウェアハウス

「データウェアハウス」とは、分析可能な状態のデータを格納しておく場所のことです。データベースから取り出したデータを分析しやすい形に加工し、時系列で蓄積していきます。クリーンな状態のデータが履歴まで含めて1ヵ所にまとめられているため、分析の際に参照しやすい点がメリットといえるでしょう。

ただし、どのような分析が求められるのかを事前に考え、そのために最適なデータ構造を慎重に設計しておかなければならないところが難点です。データ構造が決まっていなければ、あらかじめデータを加工・蓄積しておくことができません。

これに対して、データ・ファブリックは既存のデータソースを「生」のまま統合します。

データレイク

「データレイク」もデータを格納しておくための場所ですが、データウェアハウスとは異なり、データを「生」のまま蓄積します。そのため、データベースから取り出したデータに限らず、非構造化データもそのまま保存できる点がメリットです。あらゆるデータを格納しておき、データ構造は分析の際に決定します。

事前にデータ構造を設計する必要がない分、データレイクはデータウェアハウスよりも柔軟性が高いといえるでしょう。また、データレイクを包含する形に進化したデータウェアハウスも存在します。

一方、どのようなデータでも集約できるという特徴が、新たな問題を生むケースも少なくありません。良く管理されたデータレイクは「湖（lake）」のように透き通っているものですが、管理が悪いと溜め込まれたデータがゴミのようになり、見通しの悪い「沼」になってしまうのです。

これに対して、データ・ファブリックはデータ自体を1ヵ所に集約させるものではありません。

データ・ファブリックのカギは「データ仮想化」

データ・ファブリックにより、既存のデータを「生」のままで統合できることを説明しました。その際、データの格納場所を1ヵ所にまとめる必要はありません。この特徴は、「データ仮想化」によるものです。

AWSもAzureもひとまとめにアクセス

データ・ファブリックはデータを複製したり、専用の格納場所に蓄積したりすることなく、複数のデータソースを統合します。どのデータソースにもアクセスできる統一的な方法が提供され、全体として単一のストレージのように見えるのが特徴です。仮想的なデータ層が設けられていると考えればイメージしやすいでしょう。

それぞれのデータソースは直接つなぎ合わされるため、いつでも最新のデータにアクセスしてリアルタイム性の高い分析が可能です。また、オンプレミスとクラウドのような距離的な隔たりだけでなく、ストレージの種類の違いも吸収します。例えば、AWSやAzureなど、複数のクラウドサービスをまたぐ統合も問題ありません。データがサイロ化してしまった状況からでも、最小限のインパクトで一元管理に移行できる可能性があるのです。

従来の手法とも併用可能

データウェアハウスやデータレイクが、データ・ファブリックの登場によって役目を終えるわけではありません。これらは、データ・ファブリックから見ればデータソースにあたるためです。

すでにデータウェアハウスやデータレイクを活用しているのなら、既存の環境はそのまま残せばよいでしょう。全体としてはデータ・ファブリックを構成しつつ、慣れ親しんだ個別の環境も引き続きデータ分析に使い続けられます。複数のデータレイクを使い分けているような場合も、問題なく統合可能です。データ・ファブリックは発想がシンプルで、拡張性にも優れたデータ管理の手法だといえます。