業務改善
業務を改善する非構造化データ
掲載日:2023/09/19
非構造化データは構造定義されていないネイティブデータのことをいう。非構造化データにはあらゆる種類のデータが含まれるため、情報の宝庫になると言われる。非構造化データはどのような業種の業務改善につながるのだろうか。
構造化データと非構造化データ
構造化データは事前に構造定義されたデータのことを指す。ERPやSFA、CRMなどアプリケーションやリレーショナルデータベースに格納するデータであり、列と行で情報がまとめられている。
構造化されているため、コンピューターが計算・処理を実行しやすいことがメリットで、機械学習でも簡単に利用できる。また、多くのアプリケーションで採用されていて、利用機会が多い。例としてWebサイトが挙げられる。構造化データを用いたページ作成をすると、Googleがそのページの内容をより正確に把握し、検索結果に表示されやすくなる。
一方で、非構造化データは構造定義されていない全てのネイティブデータを指す。メール、チャット、議事録、プレゼン資料、各種センサーで取得したデータなど社内にあるあらゆるデータが非構造化データだ。
データ種別では、デジタルカメラやスマートフォンなどで撮影した全ての画像データ、Web会議でレコーディングした動画や音声データ、工場などでセンサーが記録したデータなどさまざまな形式のものが含まれる。また、非構造化データのうち特性を明確にし、分析を行うのに必要であるメタデータが含まれているものを半構造化データと呼ぶこともある。性質としては、構造化データと半構造化データの中間にあたる。
非構造化データがなぜ業務改善につながるのか
e-文書法や電子帳簿保存法をはじめ、紙の書類から電子データでの取り扱いが増え、電子データの量はどの企業でも増加し、種類も多岐にわたる。さらに、IoTデバイスから得られるセンサーデータやドローンで撮影した画像など、過去にはなかった類いのデータも増えてきている。
従来、非構造化データはデータサイエンティストなどの専門家がデータを構造化してから分析に用いられていた。動画や画像、文書などのネイティブデータはコンピューターが読み取れないからだ。しかし、非構造化データはうまく運用できれば多彩な情報が収集できる宝庫となる。そのため、近年は非構造化データに注目が集まっている。では実際にどのような利用方法が考えられるだろうか。
まず、SNSでの投稿を分析することで自社の製品や競合製品の評判、顧客の属性を割り出すことが期待できる。その際、文字情報だけでなく、投稿された画像や動画、ショートムービーまで対象を広げられる。
また、コールセンターやサービスセンターなどの音声データからマーケティングデータを導き出すこともできそうだ。画像データは、画像に含まれる特徴を読み出し、工場ラインで異常が発生したときの検知、ビルなどへの不審者の侵入検知、通行量や人流の測定など幅広い分野で既に利用されている。
製造業やマーケティングをはじめさまざまな分野で、非構造化データを基にした分析を用いて業務の改善につなげる動きが起きている。
非構造化データに関する課題
分析をする際、非構造化データをそのまま用いることはできない。文書は英語や日本語など自然言語で書かれているため、コンピューターが理解できるPythonなどの言語に書き換える必要がある。画像や動画も同様にコンピューターが理解できるようにしなくてはならない。
自然言語で書かれた文章の場合は、文章を単語単位に分けて、文の構成を解析し、文章の意味を推測するというステップを踏む。画像や動画の処理に関しては人間が視覚情報を処理する際に無意識に行っている焦点の絞りや目の自動制御などを再現するためにさまざまな方法がとられている。
非構造化データを構造化データに自動変換するソリューションも開発されているが、まだ一般的に広まっているものではない。また、非構造化データを蓄積するにはストレージの問題もある。個人情報を含むものであればセキュリティや機密性の課題も出てきてしまう。
現状では、データサイエンティストなどを雇用・育成するか、外部の専門家に依頼する必要があるだろう。データを蓄積するストレージやプラットフォームの整備も必要になる。一般の企業が自社だけで非構造化データを分析につなげるのは現状、困難だ。
それ故に、これが商機につながる可能性がある。非構造化データを適切なデータに変換し、それを分析して業務改善につなげる。そんなフローを描いて、お客様に提案できるようにしたい。