0
会員になると、いいね!でマイページに保存できます。
今、AI(人工知能)を取り入れたプロダクトが数多く世に出回るようになってきましたが、さまざまな課題も浮き彫りになっています。その1つが情報の「バイアス(偏り)」で、これはAIによる「偏見」にもつながります。偏見は人間の歴史の中でも解決すべき大きな課題として認識されながら今なお解決できていない問題であり、それが改めてAI開発の障害にもなっています。本記事では、AIの偏見につながるバイアスの発生原因を開発プロセスに沿って簡単に解説していきます。
AIが偏見を持つ理由、何が問題になるのか
バイアスというのは「偏り」のことです。バイアスのかかった情報で物事を判断すると「偏見」になります。従来のイメージだと「機械は人間と違う。常に公平だ」なんてイメージがあるかもしれません。たしかにそれは1つの側面から見れば正しいです。機械は学習した内容とプログラムに忠実で、自分の好き嫌いで物事を判断することはありません。機械の中で作られた基準に対しては常に公平です。
しかし、その基準は人間や機械学習によって作られます。学習した内容や人間が作ったプログラムにバイアスがかかっていれば基準はゆがみ、AIも偏見を持つのです。
たとえば、ゴールデンレトリバーも柴犬も犬の一種ですが、もし機械学習の際にゴールデンレトリバーの画像だけでAIが犬を学んだ場合、柴犬は“犬”とはみなされません。人間で言えば「柴犬なんて見たことない。これは犬じゃない」と主張するのと同じです。明らかな偏見ですが、まったく同じことがAIでも起こるのです。好き嫌いがなくとも学習データに偏りがあれば、AIも偏見を持つということです。
ただ、こうも思うのではないでしょうか。「人間だって偏見を持つ。それと同じならそこまで深刻に考える必要はないのではないか」と。たしかに一理あります。人間の偏見はなかなか消えませんが、機械の偏見は見つかりさえすれば比較的簡単に修正できます。
ところが、AIは複製が容易で人間よりも作業が早いという点が非常に危険なのです。偏見を持ったAIが大量に作られ、そして高速で作業をしたらどうなるでしょうか。偏見が容易に拡散し、被害も一瞬で拡大するのです。さらに被害が出てしまった際には責任の所在も曖昧になりがちです。AIを作った側が悪いのか、使った側が悪いのか、偏ったデータを提供した側が悪いのか、すぐには判断ができません。
また、偏見につながるバイアスに気付くことも容易ではありません。人間が自分自身でも気付かないうちに偏見を持ってしまうように、AIが持った偏見に被害が出るまで誰も気付かないことも起こり得るのです。
とはいえ「偏見」がもたらすものは、人間もAIも悪い結果ばかりではないということに留意したいです。「判断の参考にする情報が偏っている」というのは、情報の集め方が悪い場合に限らず、純粋に「必要な情報が手に入らない」ということも多々あります。情報が集まるまで判断を保留することが許されるのであれば良いのですが、それを許されないケースもあるでしょう。
たとえば、運転中に「学生がしゃべりながら二人並んで自転車をこいでいる」「先行車のドライバーがハンドルにしがみつくように運転している」「歩行者が歩きスマホをしている」といった場面があったとしましょう。ドライバーは少し不安になるのではないでしょうか。これを見ただけで「危険かもしれない」と判断するのは偏見と呼んでも差し支えないですが、「危険予測」としては当然の判断です。万が一に備えて距離をとるか、速度を落とすのが賢いドライバーではないでしょうか。
このように、あくまで限られた条件下ではありますが、それがたとえ偏見と呼ばれるような判断基準であっても必要なケースもあります。バイアスは判断の迅速化・効率化に必要なこともあり、使い方次第なのです。
とはいうものの、現時点のAIに強く求められているのは「人間のような偏見を持たない判断」や「膨大な情報の迅速な処理」です。十分な情報がない中で最善の判断を下すことではありません。いずれはその段階に達するのは確実ですが、それはバイアスをきちんと除去できるようになってからの話。まずは、バイアスが発生する理由を正しく理解した上でうまくコントロールできるようになることが大切です。
どこでバイアスが入り込む? -AIの開発プロセス-
AIの開発において、バイアスが発生する原因は多岐にわたっています。AIの種類やアルゴリズムにもよりますが、機械学習を用いるAIであればほぼすべての開発プロセスでバイアスが入る可能性があります。
今回は大きく「学習データの収集」「データに対する意味付け(アノテーション)」「アルゴリズムによる学習」「評価」の4つのプロセスに分けてご説明していきます。また、開発時にバイアスが入らなくとも、学習して成長するAIであれば運用中にバイアスが発生する可能性もあるため、学習にはバイアスがつきものだと理解するべきでしょう。
学習データの収集
学習データにバイアスが含まれてしまうタイミングは大きく分けて3つあります。犬の画像を学習させたいケースを考えてみましょう。犬を確実に認識するためには、どんなデータをどれくらい集めなければならないのでしょうか。その理想と現実について簡単にご説明していきます。
・どんなデータを集めるか
<理想>犬の画像を可能な限り集める。犬種も可能な限り網羅し、犬以外の動物や間違えやすい動物の画像もあると良い。
<現実>犬種をすべて網羅するのは難しい。あらゆる動物の画像をすべて集めることはできない。
→ 珍しい姿形の犬種などが漏れていると、犬だと認識されない可能性が出てくる。
・集めたデータが十分か
<理想>犬種ごとに十分な数のデータが欲しい。角度や光量など、さまざまなパターンの画像が欲しい。
<現実>犬種ごとに集められる画像の数にはばらつきが出る。角度や光量なども似たようなものが集まりやすい。
→ データの少ない犬、変わった角度から撮られた写真、光の加減などで犬だと認識されないケースが出る。
・学習に適切な画像かどうか
<理想>犬を見分けるのに十分にきれいな画像であり、関係のない動物などが画像に含まれていないことが理想。
<現実>実際には1つの画像に複数の動物が移っていたり、関係のないオブジェクトが混ざっていたりする。
→ 学習データに適さないが、そのまま使うと無関係な動物やオブジェクトの存在を犬の特徴だと認識してしまう。
理想的なデータが集まっていれば、少なくとも「想定される範囲でのバイアス」は避けることができます。ただ、理想的なデータを集めることは簡単ではありません。インターネットのおかげでデータを集めやすくなったものの、人が趣味の範囲でネットに上げるデータは必ず多数派の嗜好(しこう)に合わせた偏りがあり、バイアスのかかっていないデータを提供してくれる場所というのは珍しいのです。
そのため、お金を払って不足する画像を撮影してもらったり、3次元的な画像を撮影してあらゆる角度のデータを作れるようにしたり、画像そのものを加工することで「データの水増し」をします。
水増しなんて言い方をすると悪い言葉に聞こえますが「最初から理想的な使えるデータがある」ということは極めてまれです。そのため、人工知能の開発に必要なデータを収集できるような環境を整え、不足する部分を補えるようなツールや仕組みを作り、バイアスをしっかりつぶせるようなデータ収集の体制を改めて作る必要があります。ただ、これはかなりハードルが高く、データ収集の部分でつまずくAI開発プロジェクトは数知れません。
【次ページ】アノテーション、学習で入り得るバイアスとは?評価、運用でチェック
関連タグ