テキスト・画像の次は「音声生成AI」？将来の1.4兆円市場を支える注目スタートアップ7社

ありがとうございます！
いいね！した記事一覧をみる

会員になると、いいね！でマイページに保存できます。

AI・生成AI

|

タグをもっとみる

生成AIに関して、テキスト生成だけでなく、画像・動画生成分野も注目されているが、「音声生成AI」も次のフロンティアとして関心が集まっている。特にVCによる音声AIスタートアップへの投資が増え、メタなどの大手だけでなく、Resemble AIやElevenLabs、Voice.aiなどの取り組みも活況しているようだ。現在どのような音声生成AIが登場しているのか、メタや注目スタートアップの開発動向を紹介しよう。

執筆：細谷元

音声生成AI市場、2030年には約1.4兆円規模に達する見込み

（Photo/Shutterstock.com）

音声生成AI市場、100億ドル（約1.4兆円）へ

　現在生成AI市場は、ChatGPTに見られるように「テキスト・トゥ・テキスト（text to text）」が主流となっているが、今後はテキストから音声、また音声入力に対して音声出力を行う音声生成AIの利用も増えてくるものと思われる。

　Grand View Reseachは2023年5月のレポートで、テキスト生成や音声生成などを含む生成AI市場全体の規模に関して、今後、年平均35.6％で拡大し、2030年には1,093億ドル（約16兆円）に達すると予想した。

　これに続き6月には音声生成AIに注目した市場レポートを発表。同レポートによると、音声生成AI市場は、2023～2030年に26％の年平均成長率となり、2030年には市場規模が97億5,000万ドル（約1.4兆円）に達する見込みという。

　バーチャルアシスタントやチャットボット需要の高まりに伴い、音声生成AIへの需要も急増、さらに今後はポッドキャスト、オーディオブック、吹き替え、オンラインビデオなどでも利用増加が見込まれている。

　音声生成AI分野では、テキスト生成におけるChatGPTのような圧倒的人気を誇るツールはなく、現在その座を狙った競争がテック大手だけでなく、スタートアップを交え、激化している。

　GAFAMの中で生成AI関連の取り組みが遅れているといわれるメタだが、6月16日には音声生成AI「Voicebox」の開発を進めていることを発表し、音声生成AI分野における存在感をアピールした。

メタのVoiceboxのページ

（出典：メタ）

　Voiceboxは、入力されたテキストに対して、複数のスタイルで音声を生成するだけでなく、音声データに入ってしまったノイズを除去し、その除去された部分を生成された音声でカバーできる音声編集機能を持つ生成AIだ。また、オリジナルの音声スタイルを学習し、そのスタイルを維持しつつほかの言語に変換できる機能も持っている。

編集部おすすめ記事

「管理職は罰ゲーム」の真因、日本の人事部門「企業の最底辺扱い」の愚かしさ

注目される音声AIスタートアップ7社

　音声生成AI領域では、すでにサービス提供を開始しているスタートアップが多数存在する。VCによる投資も積極的に行われており、テック大手よりも活況している印象を受ける。

　音声生成AI領域での注目スタートアップとしては、Resemble AI、ElevenLabs、Papercup、Deepdub、Respeecher、Acapela、Voice.aiなどがある。ここではこのうち3社について詳しくみていこう。

　Resemble AIは、独自に開発したディープラーニングモデルを活用した音声生成AIを開発するスタートアップ。2023年7月には、シリーズAラウンドで、Javelin Venture Partners、Craft Ventures、Ubiquity Venturesなどから800万ドルを調達したばかり。これにより累計調達額は1,200万ドルとなった。

　Crunchbaseのデータによると、同社は2018年に創業されたカナダ・トロントを拠点とする企業で、従業員規模は11～50人となっている。

　創業者は、ザハイブ・アフメッド氏とサキブ・ムハンマド氏の2人。アフメッド氏はBlackBerry、Hipmunkを経てMagic Leapのリードソフトウェアエンジニアを務めた人物。その後、ビデオゲームの音声がゲームのアップデートに追いついていない点に着目し、 Resemble AIを創業した。

　Resemble AIはもともとゲーム業界に焦点を当てていたが、スタイル転送と翻訳、声優音声のカスタマイズ、リアルタイム会話エージェントなどを開発し、一般向けに展開するようになった。今回調達した800万ドルを使い、開発チームを40人に倍増し、エンタープライズ向けのプロダクト開発を加速する計画という。

　また同社は現在「Resemble Detect」という製品を開発中だ。これは、音声の編集や操作から生じる周波数を検出し、音声クリップの「真実度」を0～100％で推計するツール。音声ファイルのウォーターマーク技術「PerTh Watermarker」を補完する技術として開発が進められている。

　Techcrunchによると、Resemble AIのプラットフォームには100万人以上のユーザーがおり、過去12カ月間で35年分の音声が生成されたという。

　Resemble AIのWebサイトでは、同社の音声生成AIの精度を確認することができる。英語に関しては自然な音声であり、違和感はほとんどない。また、感情を込めた表現も可能で、これも英語に関しては、高い精度で生成されることが確認できる。一方、日本語も確認できるが、英語ほど自然かつ流暢ではなく、改善の余地があることがうかがえる。【次ページ】GitHub元CEO、インスタ共同創業者などが注目