「ディープフェイク」とは何か？AI技術やフェイクポルノとはどう関係しているのか？

VISTEC スパソーン・スワジャナコーン氏×Appier ミン・スン氏

ありがとうございます！
いいね！した記事一覧をみる

会員になると、いいね！でマイページに保存できます。

コンテンツ・エンタメ・文化芸能・スポーツ

|

タグをもっとみる

今年6月、ある美術展に関連し、フェイスブック CEO マーク・ザッカーバーグ氏、米国大統領ドナルド・トランプ氏らの偽動画が公開された。こうした動画は「ディープフェイク」と呼ばれ、注目を浴びている。同時に、あまりに本物そっくりなので、社会問題になりつつある。ディープフェイクとはどういったもので、どんな可能性を秘めているのか。タイ・VISTEC（Vidyasirimedhi Institute of Science and Technology）で動画生成技術を研究するスパソーン・スワジャナコーン氏と、AIスタートアップ AppierでチーフAIサイエンティストを務めるミン・スン氏に話を聞いた。

聞き手・構成：編集部佐藤友理、執筆：井上猛雄、撮影：大参久人

タイ・VISTECで動画生成技術を研究するスパソーン・スワジャナコーン氏（左）と、AIスタートアップ Appier チーフAIサイエンティストを務めるミン・スン氏（右）

ディープフェイクとは
本来の意味は「機械学習アルゴリズムのディープラーニングを利用して、2つの写真や動画の一部をスワップ（交換）させる技術」。しかし現在、定義が広がっており、単に「フェイク動画」「偽動画」のことを指すことが多い。

「ディープフェイク」とは？

　いま話題になっているディープフェイクとはどのようなものだろうか？

　元の定義は「2つの写真や動画の一部をスワップ（交換）させる技術」のことだ。ただし、いま世間でいうディープフェイクは「フェイク動画」「偽動画」のことを指している。

　フェイクビデオが登場した背景には、AIの急激な進歩がある。名前のとおり、ディープフェイクは、画像認識に優れた機械学習アルゴリズムのディープラーニングを利用したもの。これにより偽（フェイク）の動画が作られるので、「ディープフェイク」と呼ばれているわけだ。

この投稿をInstagramで見る

‘Imagine this...’ (2019) Mark Zuckerberg reveals the truth about Facebook and who really owns the future... see more @sheffdocfest VDR technology by @cannyai #spectreknows #privacy #democracy #surveillancecapitalism #dataism #deepfake #deepfakes #contemporaryartwork #digitalart #generativeart #newmediaart #codeart #markzuckerberg #artivism #contemporaryart

Bill Postersさん(@bill_posters_uk)がシェアした投稿 - 2019年 6月月7日午前7時15分PDT

　2012年以前は、CG技術を使って顔の凹凸や目など、エリアごとに特徴を抽出し、画像を認識していた。それがディープラーニングの登場により、顔の特徴を簡単に把握できるようになり、わざわざスタジオの高価な器材を使わなくても、顔のスワッピングができるようになったのだ。

　タイ・VISTECで講師を務めるスパソーン・スワジャナコーン氏は「最近はディープフェイクの技術が高度化しています。たとえば音声も合成してフェイクビデオが作れます。私自身は音声から動画を作り出す技術を研究をしていますが、顔の表情も含めて簡単に変えられるようになりました」と語る。

タイ・VISTEC 講師スパソーン・スワジャナコーン氏（博士）

ディープフェイクの作り方

　ではディープフェイクは、どのようにして生成されるのだろうか。

　まず交換したいソース（元）の写真や動画を用意し、対象となる顔の特徴をつかんで、顔の交換が必要であれば顔を交換する。また顔の表情なども読み込み、3Dモデリング技術で操作できるようにする。

　台湾の国立清華大学で准教授を務めたあと、AIスタートアップのAppierに参画したミン・スン氏は「自然な頭や口の動き、顔の表情のほか、音声も使われるので、写真・動画・音声の素材がそろっていることが条件になります」と指摘する。

Appier チーフAIサイエンティストミン・スン（Min Sun）氏

　スワジャナコーン氏は「ディープフェイクの範疇に入るか不明ですが、私はいま声の信号と口の動きを紐づけ、音声から動画を合成するリップシンキング技術に取り組んでいます。これにより特定人物の声でテキストを読み上げられます」と付け加える。

ディープフェイク作成に利用される技術「GAN」とは？

　偽の写真や動画の作成プロセスにディープラーニングを組み込むと、それらの質を効果的に上げることができる。ディープフェイクでは、教師なし学習の敵対的生成ネットワーク「GAN」（Generative Adversarial Network）が利用されるようになってきた。スワジャナコーン氏は「必ずしもディープフェイクにGANが使われるわけではありませんが、非常に有用な技術として注目を浴びています」と語る。

　GANは、本物と同様の内容を作り出そうとする「ジェネレーター」と、本物かどうかを識別する「ディスクリミネイター」という2つのネットワークから成り立つ。

「たとえばGANで偽の動画をつくる場合、ジェネレーターで可能な限りリアルな偽の動画を作ります。一方、ディスクリミネイターで、その動画が偽物かどうかを検知します。GANは、この2つのネットワークが互いに競い合う仕組みです。最終的に学習が終わる頃には、偽の動画を作る技術がどんどん向上し、リアルな動画が作られていくのです」（スワジャナコーン氏）

　スン氏は「GANなしに顔を交換して生成する場合は、私自身が相手の顔の“表情”や身振り手振りを真似なければなりません。しかしGANを利用することで、到底真似られないような表情まで生成することが可能になります。そのため従来CG技術を使っていたプロセスに、GANが利用されるようになりました」と、その効果について語る。

　ただし他に優れた技術に代替される可能性もある。その1つが「VAE」（Variational Auto Encoder）だ。これは画像や動画を自動でエンコード・デコードする技術だが、単に圧縮伸長するのではなく、パラメータで多様性を担保し、リアルな動画を生成できるものだ。

　スン氏は「すでにGANを利用した動画生成ツールは市場が出回っています。しかし以前はプログラマーでないとツール自体を使いこなせませんでした。今後は専門家でなくても使いやすいツールが出てくるでしょう」と予想する。

【次ページ】フェイクビデオの悪用が社会的な問題に

コンテンツ・エンタメ・文化芸能・スポーツ