0
会員になると、いいね!でマイページに保存できます。
「第三次AIブーム」といわれ、AI技術ではビッグデータを活用したディープラーニング(深層学習)に注目が集まっている。ビッグデータの利活用により、現実世界とサイバー世界がシームレスにつながってくる中で、改めて「人間」と「コンピューター」の役割が見直される時代になった。AI時代にますます重要になる「人間の感性」について、国際大学グローバル・コミュニケーション・センター(GLOCOM) 准教授の中西 崇文氏に聞いた。
データに含まれる「意味」を理解する必要がある
「第三次AIブーム」を牽引するディープラーニングは、システムがデータの特徴を学習して事象の認識や分類を行うもので、脳の神経回路を模したニューラルネットワークを多層化したものです。これが注目されたきっかけは、画像認識や音声認識が得意だったという点でしょう。人工知能の「AlphaGo(アルファ碁)」が、韓国のプロ棋士に勝利したニュースは記憶に新しいですが、アルファ碁にもディープラーニングの技術が用いられています。
ディープラーニングは画像認識をする際に「次元縮退」という処理を行っています。イメージとして一番近いのは「カクテルパーティ効果」です。周囲の雑音がある場所でも、会話に集中しているときは他の雑音が耳に入ってきません。これは、脳が会話部分だけを圧縮し、それ以外の次元を排除する処理を行っているのです。
ディープラーニングも同じです。盤面を画像に見立てて、盤面が有利か、不利か、全体を大まかに抽象化することで最適な打ち手を計算するアプローチを取り入れたことで、アルファ碁はブレイクスルーを果たしました。
一方、私は「感性情報処理」という分野の研究をしています。これは、たとえば「印象による画像検索」「印象による音楽検索」など、「感性」に基づいた検索を実現するための研究です。
一口に「データ」といっても、画像や音楽、そして人間の表情などさまざまなものがあります。私たちが目の前にあるデータを理解するには、たとえば「笑った顔」「悲しい表情」など、データに含まれる「意味」を理解する必要があるのです。
この「意味」をデータに付与することが研究テーマで、コンピューターが「笑った顔だ」と処理するためのデータである「メタデータ」の研究を行っています。通常のデータベースの構造では、メタデータに付与できるのは属性データなどの「無機質な」ものだけです。
そこに、「明るい」「悲しい」「笑っている」など、感性的な言葉を付与できれば、たとえば、音楽を曲名や作曲者といったキーで検索するのではなく、「明るい曲調」「暗い曲調」など、もっと曖昧な印象をキーにして検索できるようになります。感性情報処理はそうした情報処理のあり方です。
これからのデータ分析では「なぜ」を捉えることが重要
IoTの世界ではセンサーから収集される数値データがもたらすものは「検知」「検出」です。言い換えると、「何かが起こった」という現象は検出が可能ですが、「なぜそうなったのか?」という意味まで捉えることはできません。
しかし、これからの時代は、ビッグデータ分析には「なぜ?」の部分が非常に重要になってきます。そして、それを理解するためのカギが、上述したような「定性データ」なのです。
たとえば、複合機にセンサーをつければ「だれかが頻繁にコピー機のところへ行った」ことが把握できます。そこで「なぜそこに行ったのか」を理解するためには、複合機を使って何をしたか、たとえばコピーした内容という定性データを取得することが必要です。
センサーなどのデータ収集のためのデバイスや膨大なデータの処理をするコンピューティングパワーも整いつつあります。IoTでデータが揃ったからこそ、その次のフェーズとして定性データを含めたデータ分析が重要になってくると考えています。
議事録をとるのは難しいが内容は理解できる
定性データ取得のための具体的なアプローチとして、「会話データ」の解析に取り組んでいます。音声認識というと、iPhoneに搭載された「Siri」がイメージされますが、あくまでも人間対機械の会話です。実は、会話データ、とくに人間対人間の会話というのはまだまだ未知の領域で、分析が十分に進んでいません。
会話やメールのやり取りを通じてわかってくることは、たとえば、ビジネスにおいては社員その人の「個性の抽出」が挙げられます。これまで社員の分類というと、所属部署や担当業務といった「属性」で分類されることが一般的です。しかし、違う部署、未経験の業務であっても、その人の得意技が役に立つかもしれません。そういう社員の「多様な可能性」を見つけていくためには、会話のやりとりや、メールの文面、内容が参考になってくると考えています。
インターネットは一見すると情報が流れているだけに見えますが、そこには人間の感情が乗っています。高次なレイヤーで感情を分析する情報処理でそれを明らかにしたいと考えています。
もちろん、センサーをどこにつけるかという物理的な課題はあります。ただし、一般的な街中で会話を取得、分析するのはまだまだ難しいですが、たとえば企業内であれば、社員の合意のもと、IoTと同じようなアプローチで会話データを取得できる環境が構築できるでしょう。あるいは、Eメールなども、会社で使う目的であれば、会社が取得、分析することが可能です。
一方、技術的な課題については、音声認識の技術が高まっても精度が頭打ちではないのかという議論があるのは事実です。たしかに、議事録や文字起こしを作るシステムを開発するのは難しいでしょう。文脈を把握したうえで内容を理解して文章を作ることは難易度が高いからです。
しかし、正確ではないかもしれないが、大まかなニュアンスを捉えるというのはAIが得意な分野だというのは先述の通りです。その場の会話の正確な意味を捉えられなくても、全体を俯瞰し「なんとなく円満に会話が進んでいる」という大まかなニュアンスを把握して、分かる範囲でのソリューションを提供しようというのが私の研究テーマです。
これまで、人間の勘に頼っていた部分、感性の部分が機械に置き換わってきました。第3次AIブームでは画像認識の分野でそれが花開き、今後は音声や言語認識でも可能になってくるのではないかと考えています。
【次ページ】「非合理的な意思決定」を下せることが人間の強み
関連タグ