必要なのは「15秒」だけ？OpenAIの音声AI「もはや怖い」スゴすぎる実力とは

ようこそゲストさん

ビジネス+ITを始める

フォローの多い人気のタグ
人気のタグ一覧へ
注目のイベント・セミナー
イベント・セミナー一覧へ

ITと経営の融合でビジネスの課題を解決する

ビジネス＋ITとは？

ログイン

無料登録

閉じる

トップページ
IT戦略
AI・生成AI
必要なのは「15秒」だけ？OpenAIの音声AI「もはや怖い」スゴすぎる実力とは

会員限定
2024/06/18 掲載

必要なのは「15秒」だけ？OpenAIの音声AI「もはや怖い」スゴすぎる実力とは

ありがとうございます！
いいね！した記事一覧をみる

いいね！でマイページに保存して見返すことができます。

AI・生成AI

|

タグをもっとみる

OpenAIが今年3月に発表した、音声生成AIモデル「Voice Engine」。超短時間の音声サンプルから話者の声を模倣できる高い実力を持つ一方、そのクオリティの高さから悪用も懸念されている。日本でも現在、俳優や声優の声を無断で使用して作成される「AI声優」の問題が顕在化しており、政府が今月公表した新たな「クールジャパン戦略」内では、生成AIによる俳優や声優の声の利用・生成に関して、不正競争防止法との関係整理を行い、必要に応じて見直しを検討する旨が明記された。Voice Engineは、こうした悪用のリスクに対してどう対策を講じているのか。同ツールの特徴とともに解説する。

執筆：細谷元

OpenAIの音声合成サービスについて解説する

（Photo：Koshiro K / Shutterstock.com）

OpenAIの「音声生成AI」とは

　テキスト生成から画像、動画生成へとAIモデルを次々と発表してきたOpenAIが、新たな領域に踏み込んだ。音声生成AIだ。同社は今年3月、話者の声を模倣する音声クローンAIモデル「Voice Engine」を発表した。

　Voice Engineは、2022年から開発が進められてきたモデルで、OpenAIのテキスト読み上げAPIやChatGPTの音声機能を支えている技術でもある。その仕組みは以下の通りだ。

Voice Engineの仕組み

人間の話者が、電話やコンピューターのマイクを通して15秒間の音声を録音する
Voice Engineが、その音声サンプルを解析し、話者の声の特徴を学習する
以降、ユーザーが入力したテキストを、学習した話者の声で自然に読み上げることができる

　事前に大量の音声データを学習させる必要がなく、ごく短い音声サンプルから特定の話者の声を再現できる点が特徴だ。音声コンテンツ制作の効率化や、音声ベースのインタラクションの向上など、さまざまな用途が期待されている。

　OpenAIのWebサイトでは、Voice Engineで生成された音声を聴くことができるが、英語の音声クローニングはほぼ完璧な印象を受ける。ただ、日本語に関しては、若干不自然さが残っており、今後さらなる改善が期待されるところだ。

OpenAIのWebサイトでは、Voice Engineで生成された音声を聴くことができる

（出典：Open AI）

　OpenAIはすでに一部のパートナー企業とVoice Engineを活用した取り組みを進めている。

　たとえば、教育テクノロジー企業のAge of Learningは、Voice EngineとGPT-4を組み合わせ、生徒のために音声コンテンツを事前生成したり、リアルタイムで個別の応答を生成したりしている。

　ビジュアルストーリーテリングプラットフォームのHeyGenは、Voice Engineを利用した動画の翻訳機能を提供。話者のアクセントを保ったまま多言語の音声を生成し、グローバルなオーディエンスにリーチする方法を模索中だという。

編集部おすすめ記事

同じハッカーに攻撃された「KADOKAWAとCDK」を徹底比較、明暗を分けた「ある存在」

「なりすまし」への対策は？

　Voice Engineの活用事例の中でも特に注目を集めているのが、医療分野でのユースケースだ。

　OpenAIの公式ブログで紹介されているように、非営利医療機関のLifespanは、Voice Engineを活用し、がんや神経疾患により発話能力を失った患者の音声再生に取り組んでいる。Lifespanの医師であるロハイド・アリ氏らは、脳腫瘍のために流ちょうな発話ができなくなった若い患者の声を、学校のプロジェクト用に録音されていた動画の音声サンプルから復元することに成功したという。

　Voice Engineは、わずか15秒間の音声サンプルから話者の声を学習できるため、過去の限られた録音データからでも患者の声を再現することが可能だ。このような音声再生技術は、疾患により声を失った患者のQOL（生活の質）向上に大きく貢献すると期待されている。

　ただし、音声合成技術の悪用リスクも無視できない。特に2024年は、アメリカ大統領選挙をはじめとして各国でさまざまな選挙が行われる年で、なりすましの音声による影響が危惧されている。

　なりすましに関しては、政治分野以外でも、声優や俳優の声をAIにより無断で再現する、いわゆる「AI声優」により本人に損失が発生する「声の権利」問題も懸念されている。

　日本でも、今月4日に政府が5年ぶりに改訂し公表した「クールジャパン戦略」内で、生成AIに関する対応方針が新たに盛り込まれた。生成 AI における俳優や声優などの肖像・声の利用・生成に関し、不正競争防止法との関係について考え方の整理を行い、必要に応じて見直しの検討を行うとした。また併せて、民間でも俳優、声優、アナウンサーなどの肖像・声を利用して、 AI によりデジタルレプリカを生成してコンテンツとして利用することについて、人格・職域保護の観点から民間ルールの検討に取り組む旨も明記された。

　OpenAIは、限られたパートナーに限定しVoice Engineを提供することで、こうした悪用の懸念増大を抑えつつ、同技術の可能性を探っているところだ。

　Voice Engineの利用にあたっては、事前に厳格なポリシーへの同意が求められる。パートナーは、本人の同意や法的権利なしに他者や組織になりすます行為を禁止され、音声提供者からの明示的な同意を得る必要がある。また、Voice Engineで生成された音声であることを視聴者に明確に開示することも求められる。

　さらにOpenAIは、Voice Engineで生成された音声の出どころをトレースするための透かし入れや、不正利用の積極的なモニタリングなどの安全対策も実装しているという。【次ページ】アップルの元AIリーダーも注目の「ライバル」とは

投稿したコメントを
削除しますか？

機能制限のお知らせ

現在、コメントの違反報告があったため一部機能が利用できなくなっています。

そのため、この機能はご利用いただけません。
詳しくはこちらにお問い合わせください。

通報

このコメントについて、
問題の詳細をお知らせください。

スパム行為誹謗中傷・嫌がらせ犯罪予告差別・侮辱その他

ビジネス＋ITルール違反についてはこちらをご覧ください。

通報

報告が完了しました

コメントを投稿することにより自身の基本情報が
本メディアサイトに公開されます

２度と表示しない

必要な会員情報が不足しています。

必要な会員情報をすべてご登録いただくまでは、以下のサービスがご利用いただけません。

記事閲覧数の制限なし
[お気に入り]ボタンでの記事取り置き
タグフォロー
おすすめコンテンツの表示

詳細情報を入力して
会員限定機能を使いこなしましょう！

詳細はこちら詳細情報の入力へ進む

報告が完了しました

「」さんのブロックを解除しますか？

ブロックを解除するとお互いにフォローすることができるようになります。

ブロック

さんはあなたをフォローしたりあなたのコメントにいいねできなくなります。また、さんからの通知は表示されなくなります。

さんをブロックしますか？

ブロック

ブロックが完了しました

ブロック解除

ブロック解除が完了しました

機能制限のお知らせ

現在、コメントの違反報告があったため一部機能が利用できなくなっています。

そのため、この機能はご利用いただけません。
詳しくはこちらにお問い合わせください。

ユーザーをフォローすることにより自身の基本情報が
お相手に公開されます

２度と表示しない

ようこそゲストさん

フォローの多い人気のタグ

注目のイベント・セミナー

必要なのは「15秒」だけ？OpenAIの音声AI「もはや怖い」スゴすぎる実力とは

OpenAIの「音声生成AI」とは

「なりすまし」への対策は？

製造DX最前線、AIスタートアップに聞く世界に勝つ「シン・ニホンのものづくり」

マイクロソフト西脇氏とパナソニックが語る、製造業が今すぐ生成AIを活用すべき理由

“AI活用上手”のツムラが「生成AIチャットボット」を断念した納得の理由

関連コンテンツ

Hugging Faceとは何か？ 5行のPythonで始める基本的な使い方からAIモデル一覧まで

生成AI時代の今こそ重要になるメインフレームのモダナイゼーションと3つのアプローチ

応答速度が爆速化したCopilot新機能「6選」、TeamsやOneDriveの「新たな可能性」とは

「AIにバックオフィスはどう付き合うか？」～あなたの業務に溶け込む“ちょうどいいAI”を探そう～

「AIにバックオフィスはどう付き合うか？」～あなたの業務に溶け込む“ちょうどいいAI”を探そう～

成功する生成AI導入プロジェクトのポイント

成功する生成AI導入プロジェクトのポイント

NECにおける社内DXの取り組み「クラウドコスト･パフォーマンス最適化」のご紹介

NECにおける社内DXの取り組み「クラウドコスト･パフォーマンス最適化」のご紹介

人気のタグ

投稿したコメントを
削除しますか？

機能制限のお知らせ

通報

通報

必要な会員情報が不足しています。

「」さんのブロックを解除しますか？

ブロック

ブロック

ブロック解除

機能制限のお知らせ

ようこそゲストさん

フォローの多い人気のタグ

注目のイベント・セミナー

必要なのは「15秒」だけ？OpenAIの音声AI「もはや怖い」スゴすぎる実力とは

OpenAIの「音声生成AI」とは

「なりすまし」への対策は？

製造DX最前線、AIスタートアップに聞く世界に勝つ「シン・ニホンのものづくり」

マイクロソフト西脇氏とパナソニックが語る、製造業が今すぐ生成AIを活用すべき理由

“AI活用上手”のツムラが「生成AIチャットボット」を断念した納得の理由

関連コンテンツ

Hugging Faceとは何か？ 5行のPythonで始める基本的な使い方からAIモデル一覧まで

生成AI時代の今こそ重要になるメインフレームのモダナイゼーションと3つのアプローチ

応答速度が爆速化したCopilot新機能「6選」、TeamsやOneDriveの「新たな可能性」とは

「AIにバックオフィスはどう付き合うか？」～あなたの業務に溶け込む“ちょうどいいAI”を探そう～

「AIにバックオフィスはどう付き合うか？」～あなたの業務に溶け込む“ちょうどいいAI”を探そう～

成功する生成AI導入プロジェクトのポイント

成功する生成AI導入プロジェクトのポイント

NECにおける社内DXの取り組み「クラウドコスト･パフォーマンス最適化」のご紹介

NECにおける社内DXの取り組み「クラウドコスト･パフォーマンス最適化」のご紹介

人気のタグ

投稿したコメントを削除しますか？

あなたの投稿コメント編集

機能制限のお知らせ

通報

通報

必要な会員情報が不足しています。

「」さんのブロックを解除しますか？

ブロック

ブロック

ブロック解除

機能制限のお知らせ

投稿したコメントを
削除しますか？