- 会員限定
- 2020/01/21 掲載
なぜAIでも「偏見」は起きるのか?発生原因を開発プロセスごとにやさしく解説
三津村直貴の“今さら聞けない”テクノロジー講座
AIが偏見を持つ理由、何が問題になるのか
バイアスというのは「偏り」のことです。バイアスのかかった情報で物事を判断すると「偏見」になります。従来のイメージだと「機械は人間と違う。常に公平だ」なんてイメージがあるかもしれません。たしかにそれは1つの側面から見れば正しいです。機械は学習した内容とプログラムに忠実で、自分の好き嫌いで物事を判断することはありません。機械の中で作られた基準に対しては常に公平です。しかし、その基準は人間や機械学習によって作られます。学習した内容や人間が作ったプログラムにバイアスがかかっていれば基準はゆがみ、AIも偏見を持つのです。
たとえば、ゴールデンレトリバーも柴犬も犬の一種ですが、もし機械学習の際にゴールデンレトリバーの画像だけでAIが犬を学んだ場合、柴犬は“犬”とはみなされません。人間で言えば「柴犬なんて見たことない。これは犬じゃない」と主張するのと同じです。明らかな偏見ですが、まったく同じことがAIでも起こるのです。好き嫌いがなくとも学習データに偏りがあれば、AIも偏見を持つということです。
ところが、AIは複製が容易で人間よりも作業が早いという点が非常に危険なのです。偏見を持ったAIが大量に作られ、そして高速で作業をしたらどうなるでしょうか。偏見が容易に拡散し、被害も一瞬で拡大するのです。さらに被害が出てしまった際には責任の所在も曖昧になりがちです。AIを作った側が悪いのか、使った側が悪いのか、偏ったデータを提供した側が悪いのか、すぐには判断ができません。
また、偏見につながるバイアスに気付くことも容易ではありません。人間が自分自身でも気付かないうちに偏見を持ってしまうように、AIが持った偏見に被害が出るまで誰も気付かないことも起こり得るのです。
とはいえ「偏見」がもたらすものは、人間もAIも悪い結果ばかりではないということに留意したいです。「判断の参考にする情報が偏っている」というのは、情報の集め方が悪い場合に限らず、純粋に「必要な情報が手に入らない」ということも多々あります。情報が集まるまで判断を保留することが許されるのであれば良いのですが、それを許されないケースもあるでしょう。
たとえば、運転中に「学生がしゃべりながら二人並んで自転車をこいでいる」「先行車のドライバーがハンドルにしがみつくように運転している」「歩行者が歩きスマホをしている」といった場面があったとしましょう。ドライバーは少し不安になるのではないでしょうか。これを見ただけで「危険かもしれない」と判断するのは偏見と呼んでも差し支えないですが、「危険予測」としては当然の判断です。万が一に備えて距離をとるか、速度を落とすのが賢いドライバーではないでしょうか。
このように、あくまで限られた条件下ではありますが、それがたとえ偏見と呼ばれるような判断基準であっても必要なケースもあります。バイアスは判断の迅速化・効率化に必要なこともあり、使い方次第なのです。
とはいうものの、現時点のAIに強く求められているのは「人間のような偏見を持たない判断」や「膨大な情報の迅速な処理」です。十分な情報がない中で最善の判断を下すことではありません。いずれはその段階に達するのは確実ですが、それはバイアスをきちんと除去できるようになってからの話。まずは、バイアスが発生する理由を正しく理解した上でうまくコントロールできるようになることが大切です。
どこでバイアスが入り込む? -AIの開発プロセス-
AIの開発において、バイアスが発生する原因は多岐にわたっています。AIの種類やアルゴリズムにもよりますが、機械学習を用いるAIであればほぼすべての開発プロセスでバイアスが入る可能性があります。今回は大きく「学習データの収集」「データに対する意味付け(アノテーション)」「アルゴリズムによる学習」「評価」の4つのプロセスに分けてご説明していきます。また、開発時にバイアスが入らなくとも、学習して成長するAIであれば運用中にバイアスが発生する可能性もあるため、学習にはバイアスがつきものだと理解するべきでしょう。
学習データの収集
学習データにバイアスが含まれてしまうタイミングは大きく分けて3つあります。犬の画像を学習させたいケースを考えてみましょう。犬を確実に認識するためには、どんなデータをどれくらい集めなければならないのでしょうか。その理想と現実について簡単にご説明していきます。・どんなデータを集めるか
→ 珍しい姿形の犬種などが漏れていると、犬だと認識されない可能性が出てくる。
・集めたデータが十分か
→ データの少ない犬、変わった角度から撮られた写真、光の加減などで犬だと認識されないケースが出る。
・学習に適切な画像かどうか
→ 学習データに適さないが、そのまま使うと無関係な動物やオブジェクトの存在を犬の特徴だと認識してしまう。
理想的なデータが集まっていれば、少なくとも「想定される範囲でのバイアス」は避けることができます。ただ、理想的なデータを集めることは簡単ではありません。インターネットのおかげでデータを集めやすくなったものの、人が趣味の範囲でネットに上げるデータは必ず多数派の嗜好(しこう)に合わせた偏りがあり、バイアスのかかっていないデータを提供してくれる場所というのは珍しいのです。
そのため、お金を払って不足する画像を撮影してもらったり、3次元的な画像を撮影してあらゆる角度のデータを作れるようにしたり、画像そのものを加工することで「データの水増し」をします。
水増しなんて言い方をすると悪い言葉に聞こえますが「最初から理想的な使えるデータがある」ということは極めてまれです。そのため、人工知能の開発に必要なデータを収集できるような環境を整え、不足する部分を補えるようなツールや仕組みを作り、バイアスをしっかりつぶせるようなデータ収集の体制を改めて作る必要があります。ただ、これはかなりハードルが高く、データ収集の部分でつまずくAI開発プロジェクトは数知れません。
【次ページ】アノテーション、学習で入り得るバイアスとは?評価、運用でチェック
関連コンテンツ
関連コンテンツ
PR
PR
PR