テキストマイニングとは？ビッグデータを分析する目的とその手法について

今回は、テキストマイニングの具体的な利用目的と、それらを実現する分析手法について説明します。

知識・情報

2022/07/15 UP

「テキストマイニング」は、テキストの山を分析して有益な情報を「掘り当てる」ための手法です。大量のデータから意味のある情報を発見する、「データマイニング」の一種として知られています。

しかし、どのような目的で利用されているのかについては、あまりイメージがわかないという人もいるかもしれません。そこで今回は、テキストマイニングの具体的な利用目的と、それらを実現する分析手法について説明します。

テキストマイニングとは

多くの企業が、これまで以上にデータをビジネスに活かしたいと考えるようになってきました。社内に蓄積されている顧客情報やドキュメント、毎日のようにSNSに投稿される大量のメッセージなど、使い方しだいで価値を見出せるかもしれないデータが手付かずのままとなっているためです。

これらのデータは、おもに「文章」でできています。そのため、有用な手法として注目されているのがテキストマイニイングです。

AIとテキストマイニング

大量のデータから有益な情報をみつけるのは、決して簡単なことではありません。しかし、コンピュータの性能向上や、AI（人工知能）技術の発展などにより可能なことが増えてきました。

特に近年のAIは、ディープラーニングの実用化により飛躍的に進歩しています。さまざまな種類のデータを高速に処理し、これまでは思いもよらなかった特徴やつながりを発見できるようになったのです。

AI技術は、テキストマイニングにも導入されています。これにより、膨大なテキストデータを分析し、人が見ただけではわからない相関関係や意味を見出せるようになりました。

ビッグデータとテキストマイニング

IoTや5Gのような最新技術の進展により、今や大量のデータを容易に収集できる「ビッグデータ」の時代となりました。といっても、データの多くを占めるテキストはフォーマットが定まっておらず、そのままでは分析にも使えない「非構造化データ」です。ただ集めただけのデータは、「ゴミの山」にすぎません。

これを「宝の山」に変えてくれるかもしれないのが、テキストマイニングです。膨大なテキストを高速で分析できるというAIの特徴は、ビッグデータにも良くフィットします。人間にはとても意識できないような複雑な現象も含めて、データからさまざまな知見を取り出せる可能性があるのです。

なお、ビッグデータについては、ビッグデータの第一人者である石井一夫教授へ行ったインタービューも併せてご覧ください。
【インタビュー】ビッグデータで社会はどう変わるのか？これからのエンジニアの在り方とは

テキストマイニングの利用目的

テキストマイニングは、具体的にどのような場面で役立てられているのでしょうか。ここでは、テキストマイニングの代表的な利用目的について紹介します。

ユーザーのニーズを知る

ユーザーの声は、企業がニーズを知るための手がかりとなるデータです。コールセンターに寄せられた質問や対応履歴、アンケートで集めた意見などを、商品開発やサービス改善に役立てている企業は多いでしょう。しかし、文章を人の目で見てExcelなどで集計するだけでは、得られる情報も限られてしまいます。

テキストマイニングの手法を用いれば、自由に記述された文章から価値のある情報を探し出すことが可能です。例えば、過去のアンケートで自由回答欄に記入されたユーザーの意見を分析し直すだけでも、新たな発見があるかもしれません。また、SNSやクチコミサイトへの書き込みなど、直接の接点がないユーザーのコメントも情報源にできます。テキストマイニングにより、これまで気付くことのできなかったニーズを掘り起こせる可能性があるのです。

社内の課題やノウハウを発見する

社内でしか使われないデータのなかにも、大量のテキストが含まれています。業務連絡のメールやチャット、各種ドキュメントやナレッジベースなどです。企業の規模によっては、日報や報告書を集めるだけでもかなりのデータ量になるでしょう。

これらをテキストマイニングで分析すれば、業務改善に活かせる可能性があります。例えば、従業員の声を分析した結果から、多くの人が問題を感じている業務プロセスを特定できるかもしれません。優秀な人材の活動記録から行動パターンを発見し、ノウハウ化するといった応用も考えられます。これまで暗黙的・属人的だった業務内容がテキストマイニングで浮き彫りになり、社内で共有できるようになるのです。

トレンド分析で未来を予測する

SNSは、刻々と情報が追加されていくビッグデータです。SNSのコメントはフォーマットが自由なため本来であれば扱いが難しいものですが、テキストマイニングなら分析できます。Twitterなどに投稿されたコメントを集めて分析する手法は、企業がトレンドを知るための新しい切り口といえるでしょう。

SNSの分析は、例えば商品の需要を見越した供給のコントロールに役立てられています。インフルエンザなどの感染症の流行状況を予測して、マスクの生産量を決めるというようなことです。また、株価の推移を予測して、投資のバランスを調整するなどの目的でも利用されています。

テキストマイニングの分析手法

テキストマイニングは、「自然言語処理」からはじまります。日本語は次のような理由からコンピュータによる解析が難しい言語だといわれており、自然言語処理の役割は特に重要です。

・文字の種類が多い（ひらがな・カタカナ・漢字のほか、全角・半角も）

・単語の間にスペースが入らない（英語などに比べて区切りを特定しづらい）

・語順の自由度が高い

・敬語のような言い回しのバリエーションが多い

自然言語処理には、形態素解析・構文解析・意味解析・文脈解析と呼ばれる処理が含まれます。これらの処理を経て人が書いた文章から「内容」が抽出され、ようやくコンピュータで分析できるようになるのです。

テキストマイニングは、特定の分析手法を指すものではありません。おもに統計的手法が用いられますが、有益な情報を得るには、利用目的に応じて最適な手法を選ぶことが大切です。ここからは、テキストマイニングにおいて代表的な分析手法についてみていきましょう。

主成分分析

「主成分分析」は、データの「次元」を減らし、人が理解しやすい形式にするための分析手法です。ビッグデータは膨大なため、その分析結果は変数の多い「高次元」の情報になります。これを可視化できるようにするには、「3次元」以下に削減しなければなりません。しかし、単純に変数を3つピックアップするだけでは、多くの情報が失われてしまうでしょう。

そこで主成分分析は、可能な限り情報量を保ったまま次元を減らせるように工夫されています。データからノイズを取り除くようなイメージだと考えればよいでしょう。

センチメント分析（ネガポジ分析）

「センチメント分析」は、文章がどのような感情で書かれたのかを知るための分析手法です。文章の表現を分析し、「肯定」、「否定」、または「中立」の3つに分類するのが一般的となっています。

SNSに寄せられたコメントからポジティブな意見とネガティブな意見を抽出するというのが、代表的な使用例でしょう。例えば、企業名やブランドをテーマにしてコメントを集めれば、好感度を調査できます。ほかにも選挙結果の予想など、さまざまな応用が可能です。

共起分析

「共起分析」は、文章中で一緒に使われやすい単語を知るための分析手法です。また、分析結果をネットワーク構造で可視化したものを「共起ネットワーク」といいます。これにより、いわゆる「共起語」を視覚的にとらえることが可能です。

テキストマイニングの手法を使わなくても、特定の単語が文章に現れる回数を集計することはできるでしょう。しかし、その単語が含まれる文脈を抽出することはできません。共起分析を用いれば単語同士のつながりがわかるため、どの単語がどのような意図で使われることが多いのかを理解しやすくなります。

コレスポンデンス分析（対応分析）

「コレスポンデンス分析」は、クロス集計を視覚化するための分析手法です。例えば「世代別の満足度」のように、複数の項目を組み合わせて集計することをクロス集計といいます。クロス集計は便利な手法ではありますが、項目数が増えると内容を把握しづらくなってくるのが難点です。コレスポンデンス分析を用いれば、複雑なクロス集計の理解を助けられるでしょう。

コレスポンデンス分析では、分析する対象ごとの特徴の差異が散布図で表現されます。あるブランドのイメージが、競合とどう違うのかを把握したいときなどに便利です。

テキストマイニングでビッグデータの価値は高まる

ビッグデータのなかでは、今も大量のテキストが発見・活用されるのを待っています。これらを価値のある情報として抽出できるようにするのがテキストマイニングです。テキストマイニングに用いられる分析手法には、さまざまな種類があります。目的に応じて適切な分析手法を選べば、ユーザーニーズや社内課題、トレンドの動向などを知り有効活用できるようになるでしょう。