- 会員限定
- 2020/02/10 掲載
誤ちを犯すAI、なぜ男性や白人を“ひいき”してしまうのか
三津村直貴の“今さら聞けない”テクノロジー講座
前編はこちら(※この記事は後編です)
「黒人」を「ゴリラ」と判断…学習データの不足による間違い
まず、AIのバイアスが原因とされる事例について簡単に解説しています。こうした事例の多くが「学習データのバイアス」に起因するトラブルですが、中には評価方法や問題の修正方法に起因するものも存在するため、問題は複雑です。これらの事例全てに共通しているのは、バイアスそのものは人間が持っていた偏見がベースになっているということです。
AIブームの火付け役がグーグルの画像認識でしたが、その画像認識システムも順風満帆とはいきません。黒人の画像を「ゴリラ」と判定される事例が報告されたのです。原因は、学習データに含まれる偏見とバイアスでした。
Google Photos, y'all fucked up. My friend's not a gorilla. pic.twitter.com/SMkMCsNVX4
— jacky (@jackyalcine) June 29, 2015
まず、グーグル画像認識の学習データは、インターネット上のSNSに投稿されたデータを元にしています。SNSでは人物の顔に名前のラベルを付けて、写真からその人のSNSページに飛べるような仕組みが提供されていることがあります。これを利用して学習を進めれば、手軽に人物認識ができるようになります。
ところが「黒人の画像データ」が「白人の画像データ」に比べて少なかったのです。データが少なければ十分に学習が進みませんし、認識の精度に影響します。その上で、黒人に「ゴリラ」という偏見に満ちたラベルが付けられた画像がAIの誤認識を誘発するほど多かったのです。
フェイスブックでもそれに近い事例が発生しました。同社が開発していたビデオチャットツール「Portal」のテストで起きた出来事です。このツールはカメラに複数人が映っている状態で誰が話しているかを瞬時に認識してカメラの中心に持ってくるシステムですが、黒人女性が話している時に白人男性にフォーカスしたのです。黒人女性が話者として認識されなかったという事例です。原因はやはり学習データに黒人や女性が十分に含まれていないからでした。
どちらのケースでもデータ不足が根本的な原因と分かっていますが、この背後にある問題は深刻です。グーグルやフェイスブックが使っているデータベースは、米国や英国で収集されたデータを元にしています。これらの国ではマジョリティーが白人であり、基本的にマイノリティーである黒人のデータは不足しがちです。黒人だけではなく、アジア系やヒスパニック系のデータも足りません。こうしたデータを使って学習したシステムは白人向けに最適化されます。
ところが、そのツールは全世界的に提供されます。各企業とも対策を講じていますが、マイノリティーである人種のデータが自国で集めにくいことには変わりありません。それを確実に防ぐためには、他国に新しい拠点やチームを作る必要があります。ところが、法律や環境の問題で自国と同じ手法でデータが集められるとは限らず、国をまたいだデータの収集にはいまだに大きな壁が存在しているのが現状です。
マイクロソフトでチャットボットとして開発された「Tay」で起きた事件はより象徴的です。Tayはユーザーとの会話を通じて言語を学習する仕組みを有しており、SNS上でユーザーと会話をする中でさまざまなコミュニケーションが可能になることが期待されていました。
ところが、リリースされてすぐに「ナチスドイツは正しかった」などとする差別的・政治的に偏った発言をするようになってしまい、運用中止に追い込まれました。これは相当数のユーザーが協力し、会話の中で特定の思想を植え付けるようなコミュニケーションを行ったことが原因でした。
これは学習型AIに対する、ある種の「攻撃」に相当するものです。しかし、人間でもSNSや掲示板で同じようなことが起こります。特定の偏った思想や考えを持ったグループの中で偏った情報ばかり入手していると、その人自身もその考えに染まってしまうというものです。これは「エコーチェンバー現象」とも呼ばれる現象ですが、AIも例外ではありません。学習する環境次第で、AIは善にも悪にもなるのです。
アマゾンの採用支援AIは男性の評価を高く見積もった
アマゾンで開発された採用支援AIのケースでは、AIが男性の評価を高く見積もるケースがあることが分かり運用中止となりました。原因は「今まで会社が男性を多く採用してきたから」で、AIはその傾向に基づいて採用基準を作り候補者を評価したのです。IT業界では男性が多くなる傾向が強いのは確かです。ただ、それは必ずしも能力によるものではなく、正当な評価とは言えません。しかし、そうした過去の実績を基準にしてAIを学習させれば、当然のように男女差が生まれます。
そしてこの問題を修正する過程で、これが意外と根の深い問題であることが後に判明します。この採用支援AIでは、画像認識と違って履歴書からキーワードを抜き出すタイプの分析手法を用いました。そこで、採用支援AIが履歴書の男女に関するキーワードを無視するように設定すれば問題を解決されるかと思われました。
ところが「男性」や「女性」という男女差が分かりやすいキーワードを無視したとしても、履歴書で男性がよく使う単語や女性がよく使う単語から履歴書の背景にある男女差に気づいて差別的な評価を下すことが明らかになったのです。最終的にテスト段階で開発プロジェクトは中止になりました。人間でも文章から男性か女性かを判断することはありますが、AIにもそれができるのです。根の深い問題に対して、小手先の対策では不十分なケースがあるということです。
再犯率を判定するCOMPAS、統計を基に間違ったバイアスを獲得
裁判において量刑を決定する際には、再犯率というのが多かれ少なかれ考慮されます。再犯率が高い人物には重い刑を与え、低い人には刑を軽くするというものです。この量刑判断の際に参考になる再犯率を算出してくれる「COMPAS」というAIを米国のNorthpointeという企業が開発しました。このCOMPASは再犯率の高い人をある程度の確率で的中させる性能を持っていました。これは陽性適中率が高い状態と呼ばれ、AIにおける性能を示す基準の1つになっています。黒人と白人についてもその的中率は変わらず、公平性も保たれているというのが開発者の言い分でした。
ところが、COMPASの外し方に問題がありました。COMPASSが「再犯率が高い」と判断した者の内、実際に再犯しなかった者の割合が白人よりも黒人の方が明らかに多かったのです。これは、判定の間違え方に黒人と白人で差が出てしまうというケースです。その背景には黒人の方が再犯者は多いという実態があります。
これは統計の世界では「感度」(“問題あり”を見落とさない割合)と「特異度」(“問題なし”を正しく“問題なし”として扱う割合)のバランス問題としても知られており、どちらか一方を重視するともう一方が疎かになってしまう問題です。身近な例で言えば「セキュリティソフトの検出率」などが分かりやすいかもしれません。検出率の高い安全なソフトは誤検出も多く不要なトラブルを引き起こしがちですが、誤検出の少ない使いやすいソフトは検出率が低く安全性に劣ります。
また、これには別の問題もあります。診断用のAIでは誤判定の中に「本当は病気なのに健康だと判定するケース」と「本当は健康なのに病気であると判定するケース」があり、前者は深刻な結果につながるため確率は低くても重大な欠陥として捉えられる一方で、後者の場合は手間がかかるもののフォローが容易なので大きな欠陥としては見られない場合があります。AIにおいて「精度が高い」と言っても、利用される場面に応じて考慮しなければならないことがたくさんあるということです。
このように、バイアスがAIの信頼性をおとしめる事例は枚挙にいとまがありません。AI開発者は開発段階からこうしたバイアスの存在に留意し対策を立てています。ところが、仮に開発段階で可能な限りバイアスを取り除くプロセスを整えたとしても、人間社会におけるバイアス問題が解決されていないため、完全にバイアスを除くことは難しくなっています。その理由について、次ページから掘り下げていきましょう。
【次ページ】統計学の限界が機械学習の限界、そして開発者自身も偏っていることに気づかない
関連コンテンツ
関連コンテンツ
PR
PR
PR