Ledge.ai出張所

「ディープラーニングって？」東京大学大学院・山崎准教授が歴史から最新トピックまでを解説

AI（人工知能）の発展を支える技術「ディープラーニング」。本稿では山崎俊彦准教授が、豊富な事例から実像を解き明かします。

Ledge.aiニュース 2020/2/20 7:00 アクセス解析／データ分析 | 事例／インタビュー

AI（人工知能）は、近年、さまざまな分野において技術革新として、急速に導入が進められています。この発展を支える技術が「ディープラーニング」です。本稿では、東京大学大学院情報理工学系研究科の山崎俊彦准教授にお話を伺い、その歴史から仕組みまで詳しく解説します。

山崎俊彦氏
東京大学工学系研究科電子工学専攻修了。工学博士。現在、東京大学大学院情報理工学系研究科電子情報学専攻准教授。 2011～2013年まで米国・コーネル大学 Visiting Scientist。ビッグ・マルチメディア・データを用いた魅力工学の研究に従事。

ディープラーニングとは？
ディープラーニングの歴史
ディープラーニングの仕組み
ディープラーニングの学習手法
2020年時点のAIビジネス活用事例
これからの課題は「説明可能性」と「自立学習」

ディープラーニングとは？

ディープラーニングとは、ニューラルネットワークを多層に結合して表現・学習能力を高めた機械学習の一手法です。

単純に多層にするだけでは、表現力不足や過学習などの問題がありましたが、Dropout法やReLUなど、数々の工夫とビッグデータの助けにより解決されました。

現在、AIを構成するアルゴリズムとして、もっともよく用いられている手法です。

機械学習やディープラーニングとの違い・関係性

「ニューラルネットワーク」「機械学習」は、ディープラーニングとあわせて耳にすることが多い単語です。混同されたり誤解されやすい、これらの違いについて解説します。

機械学習とは何か？

機械学習とは、コンピューターが大量のデータを学習し、分類や予測などのタスクを遂行するアルゴリズムやモデルを自動的に構築する技術です。

AIを機能させる技術・アルゴリズムとして、ニューラルネットワーク以外にも「ニアレストネイバー法」、「決定木」、「サポートベクターマシン」など、さまざまな技術が存在します。

ニューラルネットワークとは何か？

ニューラルネットワークとは、脳の神経回路の一部を模した数理モデル、また、パーセプトロンを複数組み合わせたものの総称です。

機械学習を機能させるための一手法であり、現在では、ニューラルネットワークを構築するアルゴリズムとして、ディープラーニングが主に使用されています。

ディープラーニングの歴史

現在は、AIにおける3回目のブームと言われています。この3回目のブームのブレイクスルーとなった技術がディープラーニングです。

1943年、人間の脳を模したモデルが提唱されはじめ、1957年に、米国の心理学者フランク・ローゼンブラット氏により、人間の視覚や脳の機能を模した「パーセプトロン」が開発され、1回目のブームとなりました。しかし、1960年代に、マービン・ミンスキー氏により「*線形分離不可能な問題を学習できない」弱点を指摘されます。さらに、米国政府が機械学習に対する研究費用を打ち切ったことにより、人工知能への失望感が広がりました。

これにより、1回目のAIブームは急速に勢いを失い、冬の時代を迎えます。

1986年、米国の心理学者デビット・ラメルハートらにより正解データとの誤差の傾斜を計測するアルゴリズム「誤差逆伝播法」が開発され、2回目のブームが起きます。しかし、インターネット登場以前の当時は、機械学習に利用可能なデータが少なかったため、**多層ニューラルネットワークの学習精度がなかなか向上せず、ブームはまた下火に向かいました。

2012年、世界的な画像認識コンペティション「ILSVRC」において、東京大学やオックスフォード大学など名だたる研究機関を抑え、トロント大学が開発した「Super Vision」が圧倒的な精度で勝利を飾り、人工知能研究界に激震を与えました。

トロント大学のジェフリー・ヒントン教授らが開発した「***オートエンコーダ」という技術により、ニューラルネットワーク自身で特徴を捉えることが可能になりました。「Super Vision」にも用いられた、この多層ニューラルネットワークを用いた学習方法は「ディープラーニング」と呼ばれ、3回目のブームのブレイクスルーとなりました。

*ふたつの集合が二次元平面上にあるとき、それらの集合を一本の直線では分離できない場合
**「入力層」「隠れ層（中間層）」「出力層」で構成されるニューラルネットワーク
***ニューラルネットワークの出力層の値が入力層と同じになるように、重みのパラメータを調整する手法

ディープラーニングの仕組み

Photo on CCDC Army Research Laboratory

ディープラーニングは、どのような構造で動いているのでしょうか。ここでは、ディープラーニングの枠組みであるニューラルネットワークの仕組みから、最新のディープラーニングの手法まで詳しく解説します。

ニューラルネットワークの仕組み

最初に、ニューラルネットワークの仕組みから説明します。

まず、入力層にデータを入力し、そのデータを認識をするための指標である*特徴量を入力します。その入力に対し、神経細胞間の接続強度に相当する重み w1 w2‥を掛けたものを、出力層のニューロンに入力します。

出力層のニューロンは、この入力を足し合わせたものを**活性化関数に通し、最終的な結果を出力します。この入力から出力までの一連の流れを「パーセプトロン」と呼びます。ニューラルネットワークは、このパーセプトロンを複数組み合わせることにより構成されています。

*学習データにどのような特徴があるかを数値化したもの
**ニューラルネットワークにおいて、線形変換をした後に適用する、非線形関数もしくは恒等関数

ディープラーニングの仕組み

ディープラーニングは、ニューラルネットワークの中間層を複数にすることで、特徴量をコンピューターが判断します。

――山崎
「たとえば、層が複数あると、ある層は色について考える、ある層は形状について考える、のように分解して考えられます。何が重要かをディープラーニングが自動的に学習できるようになり、それが人間が考えた特徴を用いるよりも認識精度が高くなりました」

ディープラーニングの学習手法

現在、活発に研究が進められているディープラーニングの学習方法について、「Pre-train & Fine-tune」「マルチモーダル学習」のふたつをご紹介します。

Pre-train & Fine-tune

「Pre-train & Fine-tune」は、事前に一般の画像情報を学習させ、それを専門分野の画像に転移して学習させることで、高度な解析を可能にする学習方法です。

――山崎
「たとえば医療画像を解析したいとき、医療の画像だけでは、学習のために十分な量を集めることが困難です。ゆえに、まず、インターネットに転がっているさまざまな画像を学習させることで、一般的な画像とはどういうものか、を理解させます。これを基本として、専門知識として医療画像を追加で学ばせることで、専門的な画像を解析にできるようになります」

マルチモーダル学習

「マルチモーダル学習」とは、複数の種類のデータを使ってAIが学習する仕組みのことです。

――山崎
「たとえば、画像と音声とテキストを持ってきます。まず画像は画像で、音声は音声で、テキストはテキストで学習させます。その後、一度学習を止め、それぞれ学習した3つの学習結果をつなげ、再び学習し直し、全体に学習結果（ロス）を返します。

つまり、画像、音声、テキストを、個別・全体両方で学習させる方法です。ディープラーニングは認識精度が高くなっただけでなく、画像や音声、言語といったこれまでの分野間の垣根を取っ払い、自由に行き来することを可能にしたことも大きな貢献だと思います」

以上の説明で気がついた方もいるかもしれませんが、ほかの多くの機械学習アルゴリズムがデータをすべて一気に学習使って学習しなくてはならないバッチ学習であるのに対し、ニューラルネットワークは途中で学習を止めたりデータを変えたりアーキテクチャを変えたりしながら逐次学習させる事が可能です。これが、より多くの応用先を生み出しています。

例1：TVCMの効果予測
「何％の人が覚えるか」「何％の人が買いたくなるか」のような、CMを打つことで得られるであろう効果を予測します。

――山崎
「たとえば、画像データや音声データ、*メタデータ、画面上のキャプション、ナレーションなど、さまざまなデータを一度にディープラーニングで学習させ、予測することができます。上記のPre-train & Fine-tuneとマルチモーダル学習を組み合わせたアプローチです」

例2：GAN（敵対的生成ネットワーク）
「GAN」は、用意されたデータから特徴を学習し、擬似的なデータを生成するアルゴリズムです。

――山崎
「本物を見分けるものと偽物を生成するふたつのニューラルネットワークを用いて、切磋琢磨させることにより、偽物の本物に対する生成精度を高めます。

たとえば、偽札を作る際の、偽札を作ろうとする犯人とそれを見破る警察や銀行員が、互いに切磋琢磨するさまを想像してみるとわかりやすいでしょう。偽物生成のニューラルネットワークは、最初はうまく作れませんが、だんだん工夫を凝らすことにより精度が上がります。

本物を見分けるニューラルネットワークも、偽物生成のニューラルネットワークの成果物を常に見ているので見分ける精度を上げていきます。最終的に、偽物を見分けられず通ったものが、GANにより生成されます」

この技術も、個別と全体の両方で学習を繰り返すことにより、可能になった事例です。

*あるデータが付随して持つ、そのデータ自身についての付加的なデータ　
例）業種、CMの打ち方　など

2020年時点のAIビジネス活用事例

ディープラーニング技術をビジネスに応用し、実用化した事例を紹介していきます。
Photo by Gerd Altmann on Pixabay

インフルエンザ予報

インフルエンザ予報は、全国各地のインフルエンザの流行度合いを予測し、可視化できるサービスです。インフルエンザ新規患者数のデータをもとに、ディープラーニングを用いた予測アルゴリズムを使用。地域ごとに今週〜4週間後までの流行期間を予測できるほか、流行度合いもレベル0〜3に分けて把握できるため、インフルエンザの予防に役立てることができます。

特大サイズの画像素材をAIで生成するサービス「OOH AI」

「OOH AI」は、特大サイズの画像素材をAIで生成するサービスです。ディープラーニングを用いることで、数十万pxサイズまで高解像度化でき、写真やイラストを元画像の縦4倍、横4倍に高解像度化することが可能です。主に屋外広告、交通広告に利用したい広告素材向けとなっており、早く、低コストでクオリティーの高いOOH用の画像を制作できます。

映像解析ソフトウェア「People Counter Pro」

「People Counter Pro」は、キヤノンが発売する、ディープラーニング（深層学習）を用いて、ネットワークカメラで撮影した映像から、数千人規模の群衆人数をリアルタイムにカウントする映像解析技術を搭載した映像解析ソフトウェアです。映像から人の頭部を検出することで、人が密集している状況でも人数をカウントでき、また、指定した領域のなかにいる人数の表示や、推移のグラフ表示も可能です。そのため、混雑状況の把握や分析に活用できます。

これからの課題は「説明可能性」と「自律学習」

最後に、山崎先生にディープラーニングの将来性について伺いました。

――山崎
「興味があるのは、ディープラーニングが難しいとしている『Explainability（説明可能性）』の分野です。以前は、機械学習でデータ分析するための特徴量の抽出を人間が行っていました。しかし、ディープラーニングの誕生により、人間よりも高い精度で、機械が特徴量を捉えられるようになりました。ゆえに、なにを重要視して機械に特徴量を捉えるかについても機械が判断するため、人間がその理由を説明することは困難とされることが多いです」

ディープラーニングは、AIの革新的技術として、現在の3回目のAIブームのブレイクスルーとなりました。では、今後AIがより発展していくために、これから解決すべきディープラーニングの課題とは何でしょうか。

――山崎
「今後の課題は、ディープラーニングを自律的にどう学習させるか、だと思います。

たとえばホテルで流行っている*ダイナミックプライシングを例にしましょう。現在の価格指標は、季節・天候などよりもホテルの近くでジャニーズのライブや大きな学会が開催されるなど、AIと関係がないものの影響が強いんです。つまり、これらをAIが理解するためには、ジャニーズがどういう集団で、彼らが来るとファンが何万人単位で動く、という一般常識を理解しなくてはなりません。

現在、AIには、このような一般常識や共通概念が存在しません。一般常識を、機械にどう自立的に学習させるかが、これから重要になると思います。また、ジャニーズのコンサートが来るという情報も自律的にどう獲得してくるかも重要です」

*ダイナミックプライシング……同一の商品やサービスの価格を需要と供給の状況に合わせて変動させる価格戦略。