Ledge.ai出張所

いま知っておくべきビッグデータの“真実”、なぜ普及しているのか・抱えている問題点は？

膨大な量のデータが生成され、それらに簡単にアクセスできるようになった。ビッグデータは私たちの暮らしを大きく変える可能性を秘めているが、問題はないのだろうか？

膨大な量のデータが生成され、それらに簡単にアクセスできるようになった今、「ビッグデータ」という言葉が世界的に普及しています。このビッグデータは私たちの暮らしを大きく変える可能性を秘めていることから、ビジネスの分野でも多くの注目を集めています。本稿ではビッグデータの普及の理由とその活用事例、またビッグデータが抱える問題、AIやIoTとの関係について詳しく解説します。

ビッグデータ（Big Data）とは
ビッグデータはなぜ普及したのか
ビッグデータの活用例と分析方法
ビッグデータ×IoT
ビッグデータ×AI
ビッグデータが抱える問題
ビッグデータの展望

ビッグデータ（Big Data）とは　

ビッグデータ（Big Data）とは、従来のデータベース管理システムなどでは記録や保管、解析が難しいような膨大なデータ群のことです。明確な定義があるわけではなく、企業向け情報システムメーカーのマーケティング用語として多用されています　IT用語辞典より抜粋

一般的に、ビッグデータはVolume (量)、Velocity (速度)、Variety (種類)の3つのVにより表されます。

Volume (量)
ビッグデータの「ビッグ」はそのデータの量を表しています。ビッグデータでは、密度が低く、構造化されていないデータを大量に処理しなければなりません。データ量の単位は数十テラバイトの場合もあれば、数百ペタバイト(1ペタバイト=1024テラバイト)に及ぶことさえあります。

Velocity (速度)
速度とは、データが受け取られ、処理されるまでの高速な速度のことです。さまざまなサービスやメディア、センサーなどから得られる膨大な量のデータをほぼリアルタイムで処理する必要があります。

Variety (種類)
種類とは、利用できるデータが多様であることを指します。従来のデータは構造化されていましたが、ビッグデータの普及とともに、テキスト、音声、動画などの構造化されていない新しいデータの種類が増えています。

2000年代初頭に定義された3Vですが、最近になって新たなVが追加されました。それが、Value(価値) です。

Value (価値)
データには固有の価値があります。しかし、それもその価値が発見されなければ意味がありません。同じく重要なのが、そのデータがどのくらい信頼できるかということです。ビッグデータに価値を見出す上で重要なのは、その分析だけではなく、検出プロセス全体です。

ビッグデータはなぜ普及したのか

photo by pixabay

ビッグデータが普及した主な要因は2つあります。

要因1
SNSなどの普及で日々大量のデジタルデータが生み出されるようになりました。今私たちの目の前で、「情報爆発」が起きているのです。

要因2
膨大な量のデータを収集し、格納するフレームワークが開発されたことで、ビッグデータの扱いが容易になり、格納するコストが下がりました。

情報爆発とは
クラウド・コンピューティングの広がり、SNS（Social Networking Service）の普及、センサーネットワークやスマートフォンの普及などを背景に、デジタルデータが爆発的に増加したことを指します。

今では1億人以上のアクティブユーザを有するツイッターは、1日あたり2億5000万ものつぶやきが発生していると言われています。これを単位に変換すると、ツイッター全体1日に8テラバイトものデータが生み出されていると言えます。また、Facebook社のシステムは、毎日25億件のコンテンツ、単位に変換すると500テラバイト以上のデータを処理していると言われています。このように情報量が爆発的に増えたことに加え、このデータを格納する受け皿も開発されたことにより、ビッグデータは企業の間でも取り扱われるようになりました。

加えてオープンデータの概念もビッグデータが普及した要因を支えています。オープンデータとは、誰でも二次利用が可能な公開されたデータのことを指します。ビッグデータを公開し、公共利用することで、新しい事業やサービスの創出、地域経済の活性化などにつながることが期待されています。

ビッグデータの活用例と分析方法

ビッグデータを用いた分析は、ビジネスなど多様多種な業種に変革をもたらすと言われています。利用できる情報が増え、従来では不可能だった複雑な分析が可能になり、新たに信憑性の高い回答を見出すことが容易になったのです。

photo by unsplash

たとえばGoogleは、利用者がウェブで検索した情報を蓄積・分析することで、その人の興味・関心に合った広告を表示させられます。蓄積する情報が多ければ多いほど明確に分析をすることができます。Googleは、1日に24ペタバイト以上のデータを処理していると言われています。これは、米国議会図書館に所蔵してある全印刷物の何千倍もの情報量に相当するデータ量です。

photo by unsplash

アマゾンでは、単に「どの本が売れたか」というデータだけでなく、「ユーザが過去にどういう本を買ったのか」、あるいは「今回どういう本をチェックして最終的な購買に至ったのか」というデータを全て蓄積、保存、分析することで、なぜその本が売れたのかを分かるようにしています。アマゾンのようなネット企業は、これらのビッグデータをウェブ上で簡単に収集し分析することで売り上げを伸ばしています。

ビッグデータを用いた分析方法

ビッグデータを用いた分析方法は主に以下の3つのステップに分けられます。

1.統合
ビッグデータは、種類の異なる多数のソースやアプリケーションからビジネス上の課題解決に必要となるデータを集めます。

2.管理
ビッグデータを保管するにはストレージが必要です。データがどんな構造であれ、それを格納する環境を整備することは重要です。

3.分析
分析手法に沿って、収集したデータを分析し、ビジネス上の課題解決につながるような知見をあぶり出します。

ビッグデータ × IoT

photo by pixabay

近年はIoTの普及により、ビッグデータの収集は容易になっています。トヨタ自動車はビッグデータとIoTをうまく活用することで、交通事故を減らそうという狙いがあります。

これから販売されるトヨタ新型車には、障害物のない状況でも以上なアクセル操作時に加速を抑制する「急アクセル時加速抑制機能」が搭載される予定です。

この機能は、今乗られているコネクテッドカー（常時ネット接続され、最新の道路状態を取得して最適なルートを算出したり、車両にトラブルが発生した際にしかるべきところに連絡してくれたりする機能を搭載した車）から得られる、アクセルペダルの踏まれ方の特徴のビッグデータを活用することで実現しています。

IoTから得られたビッグデータにより、異常なアクセル操作状況を特定して割り出し加速抑制を行うことで、交通事故のリスクを削減するという仕組みになっています。

ビッグデータ × AI

photo by pixabay

統計的な分析やAIによる解析によって、ビッグデータにより高い価値を産み出す「ビッグデータ × AI」が近年注目されています。

ソフトバンク社では2017年から人事部にAIを導入し、AIによる大量のES(エントリーシート)の自動振り分けを実現することで、業務効率を大幅に改善しています。

ソフトバンクの場合、毎年送られてくる3000人分のESを手作業で読むことは、人事部にとっては負担が大きいものでした。業務状況を改善するため、人事担当者がAI「Watson」にこれまで採用した学生のESを記憶させ、同じような傾向のある学生をまとめることに成功しました。以来ソフトバンクでは、膨大なデータを取り込んだAIがESの自動振り分けを行うことで、効率的にかつ効果的に優秀な人材を見つけられるようになりました。

これまで人の経験と勘に頼ってきた部分をビッグデータ×AIに置き換えることで、より高い価値を生み出すことに成功している一例です。

ディープラーニングの登場以降、世界的にAI開発競争が加熱しています。ディープラーニングの精度を上げるためには教材となるビッグデータが必要であり、そのためデータの扱いに長け、AIの開発にも関われるデータサイエンティストの需要が拡大しているのです。

たとえば、AI開発に携わるデータサイエンティストであれば、AIシステムを構築・運用する際に、学習データの質を理解して適切に教え込む業務をこなします。膨大な情報・統計からバリューを見出し、AIにどのような「データ」を与えるかで出力される結果も変わっていきます。

ビッグデータが抱える課題

photo by pixabay

ビッグデータは多くの点で有望ですが、課題がないわけではありません。ビッグデータを用いる際に浮かび上がってくる問題点は主に2つあります。

問題1 データの整理に時間がかかる

ビッグデータはその名の通り膨大なデータ量のことを指します。データを格納するための新しい技術も開発されてはいますが、今データの量は2年おきに2倍に増えていると言われています。各企業はいまだに、膨大な量のデータを有効に保存する方法を見いだすことに苦労しているのが現状です。

加えて、データはただ保存すればいいものではありません。ビッグデータは使って初めて価値を生むもので、そのためにはビッグデータを整理することが必要です。クリーンデータ、つまり顧客にとって適切であり、意味のある形で分析ができるよう整理されているデータを用意するには、相当の労力が必要になります。データサイエンティストは、実際にデータが使えるようになる前の準備と整備に、仕事時間の50〜80%を費やしているといわれています。

問題2 プライバシー

ビッグデータにも個人情報が含まれることあり、無断でデータを活用するとプライバシーの侵害にあたる可能性もあります。日本の個人情報保護法では、匿名データや統計データなど、個人が特定されない情報は個人情報に該当せず、第三者への提供に関しても本人の同意を必要としないとされています。しかし、日本企業はこの匿名の顧客情報の扱いを巡り、世間から批判を浴びてきた過去があります。交通系ICカードの移動履歴やスマホアプリの位置情報についても、匿名化されており法律には抵触しなくても利用者が知らないところで第三者に提供したことが問題視されたことがありました。

ビッグデータは科学と似て、「諸刃の剣」になり得ます。間違った使い方をすれば、人々に害をもたらす可能性は拭えません。一方で正しい使い方をすれば、人々や社会にプラスの影響を与えることもできる、ということを理解する必要があると思います。

ビッグデータの展望

photo by pixabay

膨大なデータが至る所に偏在し、誰でもアクセスできる時代に突入した今、ビッグデータの分析/活用は世界中の企業や社会に革新的なメリットをもたらす可能性があります。メリットを享受するためには、ビッグデータを正しく用いて解釈する必要があります。そして今後はますますAI技術を用いたビッグデータ解析が企業の間でも普及していくことが現実世界で起きている事例を通して考えられます。この記事を通して少しでもビッグデータ、そしてその活用について理解を深めていただけたらなと思います。