- 会員限定
- 2022/11/22 掲載
生成AIとは何か? 「仕組み」と「13の事例」をわかりやすく解説
生成AI(ジェネレーティブAI)とは?
ジェネレーティブAI(generative AI)とは、学習したデータを元に、自動的にコンテンツを生成してくれるAIを指します。生成できるコンテンツの種類には、画像、文章、音楽、図面、プログラミングのコードなど、あらゆる種類があります。まさに、「0から1を生み出すAI」と言えるのです。2020年に生成AIによって市場が大きく変わると報告したガートナー社は、生成AIを「コンテンツやモノについてデータから学習し、それを使用して創造的かつ現実的な、まったく新しいアウトプットを生み出す機械学習手法(産総研訳)」と定義しています。
0から1を生み出すと言っても、実際には創作のきっかけとなる「人間の指示やプログラム」があるので、まったく何もないところからコンテンツを生成しているわけではありませんし、生成するコンテンツの元になる学習データは、もともとは人間のクリエイターやエンジニアが作ったものになります。この点については、人間のクリエイターと同じように「過去の作品から学び、インスパイアされている」と考えるとあまり違いはないかもしれません。
ただ、生成AIは人間と違ってたった数秒から数分で1つのコンテンツを作り上げます。これは人間のクリエイターやエンジニアにとっては脅威であり、産業革命以降繰り返されてきた「機械に仕事が奪われる」という恐怖を身近に感じさせてくれるものとなりました。
そんな生成AIは、どこかの天才が突然生み出したものではなく、実は人間が成長するのと同じようなプロセスを経て、少しずつ成長しながら出来上がったものなのです。ここからは、生成AIを構成する重要技術について解説していきます。
生成AIを支える技術:GAN(敵対的生成ネットワーク)
生成AIの仕組みや学習の背景を理解するには、その成長の流れを見るのが近道です。まず、近年のAIにおける革新は「画像認識AI」の登場から始まりました。これは機械学習とディープラーニングが注目される大きなきっかけとなっています。この時点でのAIのコンテンツ生成能力はたいしたことはなく、ぐにゃぐにゃとした抽象的な物体を生み出すのが関の山でした。生成AIも人間の子供と同じように、コンテンツを生成する前に、まずは目の前に存在するコンテンツが「どういう存在なのか」を正しく認識できるようになるところから始まったのです。
その認識AIの性能向上の過程で生まれたのが「GAN(敵対的生成ネットワーク)」と呼ばれる学習法です。これは認識AIと生成AIを同時に学習させることでAIの精度を上げる学習法で、従来の機械学習では難しかった「学習用データが少ないコンテンツ」の学習を可能にしました。
この手法の特徴は人間が作成・収集した「リアルデータ」と、生成AIが作成した「フェイクデータ」を認識AIに識別させることで認識AIの判定精度を向上させつつ、生成AIのフェイクデータを少しずつリアルに近づけていくことができる点にあります。
データの元になるノイズデータ(シード値)はランダムな数値で与えられるため、作りたい顔は同じでも作り方が毎回微妙に変わることになります。これにより、同じ学習モデルを使っても毎回異なるデータが生成されます。イメージとしては、粘土で顔を作る際に、使う粘土が毎回違うようなもので、粘土の質によって微妙に異なる顔になるのと似ているかもしれません。
GANは元々プライバシー保護の観点からデータの収集の難しかった顔や診断画像などの学習に使われていましたが、学習システムが洗練されたことで絵画やイラストの生成などにも広く用いられるようになりました。この学習法によって「生成AI」の学習能力は飛躍的に向上し、画像生成を中心にさまざまな生成AIが作られるようになります。
生成AIを支える技術:GPT3 / Transformer / LLM
生成AIが進化する決め手となったのが文章生成AIである「GPT-3」の登場です。GPT-3については「別の記事(「超高精度の言語AI「GPT-3」は何がスゴい?要約、小説、コーディングなど広がる可能性」)」で詳しく説明していますが、簡単にまとめると、「GPT-3」とは新しいディープラーニングの学習法である「Transformer」と呼ばれる手法を使ったGPT(Generative Pre-trained Transformer)シリーズの3代目です。GTPに使われているTransformerは畳み込みニューラルネットワークや再帰的ニューラルネットワークのような従来の手法に比べて学習効率においてはるかに優れた性能を発揮し、膨大なデータを一度に使った極めて大規模な自然言語学習を可能にしました。このような学習モデルを「LLM(大規模言語モデル)」と呼び、現代のほとんどのLLMにTransformerが使われています。
また、こうした自然言語処理の学習モデルでは、言語同士の関係性を表す「パラメータ数」を「扱える複雑さの指標」として用いることがあり、GPT-3は発表当時としては最大規模の1750億のパラメータを扱えるとして話題になりました。基本的にパラメータが増えるほど、使われるニューラルネットワークの規模が巨大になり、計算処理にかかるコストが増大し、学習モデルの調整やチューニングも難しくなります。
このパラメータ数がそのままLLMの性能指標になるわけではありませんが、ある種の「ポテンシャル」を示す指標としては有効です。膨大なデータをどのように学習させるか、調整をするか、目的に応じたチューニング(Fine-Tuning)も、実際の性能を左右する重要な要素となります。
そして、生成AIとして広く利用されているChatGPTはGPT-3をベースに改良したGPT-3.5を会話向けにチューニングする形で開発されています。GPT-4では文章だけではなく画像なども同時に扱える「マルチモーダル」に対応しており、将来的にはChatGPT(GPT-4.0版)もマルチモーダルに対応する可能性があります。
コンテンツを生成するしくみ:画像
ただ、ここまでは言語生成AIの話です。人間の指示や言葉からコンテンツを作り出すAIにはもう1ステップ進んだタスクが必要です。それは、複雑な言語情報処理が可能なGPT-3のようなLLMを使って「画像と言語の関連性を見つけ出すタスク」です。検索エンジンのように入力されたキーワードと関連性の高いコンテンツを見つけつつ、言語処理能力を持たない生成AIに数値化した情報を渡し、最適なコンテンツを出力させる(t2i: Text to Image)といった仕組みです。
生成AIにも色々な種類があるため、必ずしも上記の図のようなプロセスを経ているわけではありません。しかし、生成AIに対して「人間が作りたい生成物のイメージ」を伝えるための手段は限られており、LLMを利用した言語処理AIは非常に大きな役割を果たします。実際には、画像生成AIの場合は言葉で伝えなくとも「作りたいイメージの画像」と「ラフスケッチ」を提示すること(i2i: Image to Image)で、ラフスケッチを作りたいイメージに近づけてくれるというような非言語的なコンテンツ生成も可能です。
また、生成AIは画像生成や文章生成が注目されがちですが、音楽・動画・設計・デザイン・プログラムなどの生成も可能になっており、AIに対してプロンプトと呼ばれる指示を上手く与えることができれば、優れたクリエイターと同等のコンテンツを生成することも可能になりつつあります。
コンテンツを生成するしくみ:文章
一方、文章生成AIが行うタスクの本質は「与えられた文章と関連性の高い文章を生成する」という点にあります。つまり、AIに問題文が与えられた場合、その問題文と関連性の高いものをAIは「問題に対する正しい回答」と考え、「回答文を生成する」といった具合に質問に答えるAIが作られているのです。それと同様の仕組みを基に「報告:概要」や「要点:記事」のような対応関係が作れれば、求めに応じて関連性の高い「概要文」や「記事」を作ってくれるというわけです。
このため、良い意味でも悪い意味でも「実際の言葉の意味とは異なる文章の流れ」を生成することも可能です。
たとえば、夏目漱石は「I love you」を「月が綺麗ですね」と訳し、二葉亭四迷は「Yours(私は貴方のもの)」を「死んでもいいわ」と訳した結果、それを組み合わせた一見すると意味のわからない変わった受け答えが文学好きの間で広まりました。文章生成AIは文章正確な意味は理解していないものの、広く受け入れられており、そういう文脈が存在するという関係性自体は正しく把握しているので、文学的な表現であっても生成することが可能です。
結果として、文章生成AIは実際に存在しない「想像上の物語」についても出力することが可能になりました。物語において「トラックに轢かれると異世界にいく」という描写が流行すれば、トラックに轢かれた人間が目にするのは病院の天井ではなく異世界になるわけです。さらに「誤った情報」や「陰謀論」なども、人間が誤った情報を広めている限りはAIもそれを学習して出力することが可能で、誤情報を再生産して広めてしまう可能性も高いです。
突き詰めると「データベースから関連性の高いものを見つけてくる」という商品購入ページや動画視聴サイトにおける「おすすめ機能」と似たようなタスクを文章生成の過程において実行しているのです。違いがあるとすれば「おすすめ機能」で推薦するコンテンツが、商品や動画ではなく、言葉を組み合わせて作った「文章」になっているということぐらいかもしれません。
生成AIのメリット
生成AIはさまざまな可能性を秘めた技術ですが、良いことばかりではありません。メリットがあればデメリットもあります。■生成AIのメリット
- 作業の効率化
品質向上、工数削減、生産量増加、特注生産を実現できる
- アイデアの革新
バリエーション、新しい発想、豊富な比較検討が可能になる
- 技術の民主化
技術的ハードルの低下、クリエイターの増加を実現できる
生成AIを利用することで、当然ながら作業全般の効率が上がります。作業時間が短縮されるだけではなく、コンテンツの最低ラインが生成AIの性能によって決まるので品質の底上げが可能になります。クリエイターや技術者は生成AIが作った下地を利用して、余裕をもって品質向上に時間を割くことが可能です。必然的に生産数も増加しますし、デザインを少しだけ変更したカスタム品や特注品の生産コストも大幅に下がるでしょう。
生成AIは1つのキーワードやタスクに対し、多数のコンテンツを同時に生産することが可能です。さらに、優れたコンテンツをベースにして色違いや微調整を指示することで、簡単にバリエーションを増やすことができ、バリエーションの中から比較検討をすることでより優れたアイデアを見つけ出すことが可能です。また、生成AIは「ランダム性の調整」をすることが可能で、既存の作品やデータベースに存在するコンテンツから「どれくらい外れたものを作るか」といった加減の調整ができるため、今までにないまったく新しい作品を作ることが可能です。
技術の民主化というのは、従来は特殊な技能を持った技術者だけに独占されていた技術が多くの人々に共有されることを意味します。高度な技術を必要とするイラスト・デザイン・設計・プログラムをある程度は生成AIに任せられるようになることで「生成AIにできることなら誰にでもできる」という環境が作られるのです。これにより、創造的な作業に従事するクリエイターや技術者の絶対数が増加します。
生成AIのデメリット
デメリットの中で最も懸念されているのが、生成AIによってフェイクコンテンツが作られ、悪用されることです。本物そっくりの画像・ニュース・ウェブサイトを生成し、誤った情報を広め、詐欺に利用し、社会を混乱させる恐れがあります。また、特定の人物そっくりの画像を生成できるので、なりすましやコラージュに利用され、誹謗中傷などに利用される可能性が高まります。フェイクコンテンツの精度が上がるにつれて、コンテンツだけでは本物と区別がつかなくなるため、新しい真偽判定の手法が必要になるでしょう。
生成AIのデメリット
- フェイクコンテンツの生成
フェイクニュース、詐欺サイト、コラージュ、なりすましのリスクがある
- 不安定な品質
同じような作品、非常識な作品を生み出してしまう可能性がある
- クリエイターの雇用・収入減
競争激化、平均値向上によりクリエイターの雇用・収入の減少につながる可能性がある
- 複雑な権利問題
学習データの権利、生成データの権利についてトラブルに発展する可能性がある
一方で、優れた品質のコンテンツを作り続けることは簡単ではありません。生成AIを使う場合、指示に対して複数のコンテンツを生成し、優れたコンテンツをベースにブラッシュアップしていくことで品質を向上していきますが、最終的には同じような構成のコンテンツになってしまいます。大きく変化させる場合には、ふたたびゼロから指示を与えなければならない場合も多く、生成AIで独創性のある優れた品質のコンテンツを作り続けるというのは意外と難しいのです。
また、生成AIはクリエイターや技術者に対し、さまざまな不安を与えます。一定レベルのコンテンツは生成AIによって駆逐される恐れがあり、競争が激化することで収入や雇用が失われるほか、生成AIに「作風を学習される」ことによってクリエイターのアイデンティティが喪失するほか、ほかのクリエイターの作品を生成AIでブラッシュアップしてみずからの作品とした場合の著作権の帰属問題などが解決されていません。
今後、生成AIが普及するにつれて、クリエイターや技術者との間に抱える問題はより複雑で大きなものになるでしょう。
【次ページ】画像・文章・音楽生成AIの事例13選まとめて解説 【次ページ】画像・文章・音楽生成AIの事例13選まとめて解説
関連コンテンツ
関連コンテンツ
PR
PR
PR