- 会員限定
- 2019/10/07 掲載
「ディープフェイク」とは何か?AI技術やフェイクポルノとはどう関係しているのか?
VISTEC スパソーン・スワジャナコーン氏×Appier ミン・スン氏
本来の意味は「機械学習アルゴリズムのディープラーニングを利用して、2つの写真や動画の一部をスワップ(交換)させる技術」。しかし現在、定義が広がっており、単に「フェイク動画」「偽動画」のことを指すことが多い。
「ディープフェイク」とは?
いま話題になっているディープフェイクとはどのようなものだろうか?元の定義は「2つの写真や動画の一部をスワップ(交換)させる技術」のことだ。ただし、いま世間でいうディープフェイクは「フェイク動画」「偽動画」のことを指している。
フェイクビデオが登場した背景には、AIの急激な進歩がある。名前のとおり、ディープフェイクは、画像認識に優れた機械学習アルゴリズムのディープラーニングを利用したもの。これにより偽(フェイク)の動画が作られるので、「ディープフェイク」と呼ばれているわけだ。
2012年以前は、CG技術を使って顔の凹凸や目など、エリアごとに特徴を抽出し、画像を認識していた。それがディープラーニングの登場により、顔の特徴を簡単に把握できるようになり、わざわざスタジオの高価な器材を使わなくても、顔のスワッピングができるようになったのだ。
タイ・VISTECで講師を務めるスパソーン・スワジャナコーン氏は「最近はディープフェイクの技術が高度化しています。たとえば音声も合成してフェイクビデオが作れます。私自身は音声から動画を作り出す技術を研究をしていますが、顔の表情も含めて簡単に変えられるようになりました」と語る。
ディープフェイクの作り方
ではディープフェイクは、どのようにして生成されるのだろうか。まず交換したいソース(元)の写真や動画を用意し、対象となる顔の特徴をつかんで、顔の交換が必要であれば顔を交換する。また顔の表情なども読み込み、3Dモデリング技術で操作できるようにする。
台湾の国立清華大学で准教授を務めたあと、AIスタートアップのAppierに参画したミン・スン氏は「自然な頭や口の動き、顔の表情のほか、音声も使われるので、写真・動画・音声の素材がそろっていることが条件になります」と指摘する。
スワジャナコーン氏は「ディープフェイクの範疇に入るか不明ですが、私はいま声の信号と口の動きを紐づけ、音声から動画を合成するリップシンキング技術に取り組んでいます。これにより特定人物の声でテキストを読み上げられます」と付け加える。
ディープフェイク作成に利用される技術「GAN」とは?
偽の写真や動画の作成プロセスにディープラーニングを組み込むと、それらの質を効果的に上げることができる。ディープフェイクでは、教師なし学習の敵対的生成ネットワーク「GAN」(Generative Adversarial Network)が利用されるようになってきた。スワジャナコーン氏は「必ずしもディープフェイクにGANが使われるわけではありませんが、非常に有用な技術として注目を浴びています」と語る。GANは、本物と同様の内容を作り出そうとする「ジェネレーター」と、本物かどうかを識別する「ディスクリミネイター」という2つのネットワークから成り立つ。
「たとえばGANで偽の動画をつくる場合、ジェネレーターで可能な限りリアルな偽の動画を作ります。一方、ディスクリミネイターで、その動画が偽物かどうかを検知します。GANは、この2つのネットワークが互いに競い合う仕組みです。最終的に学習が終わる頃には、偽の動画を作る技術がどんどん向上し、リアルな動画が作られていくのです」(スワジャナコーン氏)
スン氏は「GANなしに顔を交換して生成する場合は、私自身が相手の顔の“表情”や身振り手振りを真似なければなりません。しかしGANを利用することで、到底真似られないような表情まで生成することが可能になります。そのため従来CG技術を使っていたプロセスに、GANが利用されるようになりました」と、その効果について語る。
ただし他に優れた技術に代替される可能性もある。その1つが「VAE」(Variational Auto Encoder)だ。これは画像や動画を自動でエンコード・デコードする技術だが、単に圧縮伸長するのではなく、パラメータで多様性を担保し、リアルな動画を生成できるものだ。
スン氏は「すでにGANを利用した動画生成ツールは市場が出回っています。しかし以前はプログラマーでないとツール自体を使いこなせませんでした。今後は専門家でなくても使いやすいツールが出てくるでしょう」と予想する。
【次ページ】フェイクビデオの悪用が社会的な問題に
関連コンテンツ
PR
PR
PR