0
会員になると、いいね!でマイページに保存できます。
ディープラーニングが誕生し、最初に活躍したのは画像認識の領域でした。ディープラーニングがなぜ画像認識に強かったのか、そして登場直後のディープラーニングはどのようにしてその性能を発揮したのか、簡単に解説していきましょう。
人間の視覚神経を参考に作られた「ネオコグニトロン」
ニューラルネットワークの研究が進む中で、ディープラーニングよりも先に「ネオコグニトロン」と呼ばれる人間の視覚神経を参考にした多層ニューラルネットワークが日本の研究者である福島邦彦氏によって考案されました。
ネオコグニトロンは、ニューラルネットワークの階層ごとに、それぞれ「特徴を抽出する層」や「曖昧さや誤差を吸収する層」などの役割で分かれており、これにより手書き文字認識などに高い性能を発揮します。
この発想は手書き文字認識以外にも画像認識の分野に役立ちます。
たとえば、ディープラーニングにおける「畳み込みニューラルネットワーク」(CNN:Convolutional Neural Network)は、このネオコグニトロンのアイデアを参考にしており、「画像の特徴を抽出しつつ、無駄な情報を省いて情報を圧縮する」といったニューラルネットワーク内の情報処理に活用されています。
ディープラーニングが注目されるキッカケ「Super Vision」
そして、ディープラーニングが最初に注目されたのは2012年に開催された画像認識の競技会「ILSVRC(ImageNet Large Scale Visual Recognition Challenge)」でのことでした。
ディープラーニングの考案者であるトロント大学のジェフリー・ヒントン氏のチームが開発したディープラーニング活用した画像認識システム「Super Vision」が出場し、ここで圧倒的な成績を残したのです。
競技会で行われた種目は、画像に写っているものが何かを判別する「分類」と、それがどこにあるのかを特定する「位置特定」の2つでした。大半のAI(人工知能)は分類の正答率が70%台前半、「分類」+「位置特定」では50%未満というレベルでしのぎを削っていました。
ところが、Super Visionは「分類」の種目で85%近い成績を上げ、「分類」+「位置特定」の種目でも67%前後のスコアを記録したのです。これは100m走のタイムを10秒台で争っている中で1人だけ9秒台を叩き出すような、圧倒的な差であり、まさに衝撃だったのです。
画像認識における大きな課題
ちなみに、画像認識において、「何の画像か」を分類できるのにもかかわらず、画像のうち、「対象物が写っている場所」を特定することは難しい技術でした。それは、機械学習ならではの理由があります。
たとえば、船を映したほとんどの写真には、船以外に海や湖が映り込んでいます。そうした、海や湖も映り込んだ船の写真を見せられて、「これは船の写真だ」とAIに教えたとしても、背景に映る海や湖が「船」自体に関係あるかどうかは、AIには判別できません。
この「船と海は別物である」という人間にとっては当たり前のことを学ばせるには、AIに事物の「概念」を教えなければなりません。この概念の学習は、単純な分類に比べるとはるかに難しく、AIにおいてはある種の鬼門になると考えられていました。しかし、その壁も越えることに成功します。
【次ページ】「対象物」を判別できるカラクリ
関連タグ