ようこそゲストさん

ビジネス+ITを始める

ITと経営の融合でビジネスの課題を解決する

ビジネス＋ITとは？

ログイン

無料登録

閉じる

トップページ
IT戦略
AI・生成AI
Stable DiffusionとMidjourneyはどちらが優れている？「画像生成AI」の可能性と課題

会員限定
2023/08/29 掲載

Stable DiffusionとMidjourneyはどちらが優れている？「画像生成AI」の可能性と課題

ありがとうございます！
いいね！した記事一覧をみる

会員になると、いいね！でマイページに保存できます。

AI・生成AI

|

タグをもっとみる

生成AIにおける「text to text」領域では、OpenAIのChatGPTが圧倒的な人気を誇るが、テキストから画像を生成する「text to image」領域では、Stable DiffusionとMidjourneyが二強として君臨している。そのStable Diffusionで新たなモデルがリリースされ、実写性が大幅に向上、本物の写真と見分けがつかないクオリティの画像が生成できるようになった。進化する画像生成AI、その最新動向を探ってみたい。

執筆：細谷元

「text to text」領域ではChatGPTが圧倒的だが「text to image」では？

（Photo：olivia_Brown / Shutterstock.com）

画像生成AI二強の最新動向

　マイクロソフトの検索エンジンBingで画像生成機能が追加されたほか、デザインプラットフォームCanvaでも画像生成が可能になるなど、生成AI技術を活用した画像生成ツールが身近な存在になりつつある。

　この画像生成領域を牽引してきたのは、Stable Diffusionを展開するStability AI（ロンドン拠点）とMidjourneyを展開するMidjourney, Inc（サンフランシスコ拠点）の2社だ。

　ChatGPTの開発企業として知られるOpenAIも画像生成AI「DALL-E」を開発しているが、現時点では、画像のクオリティでStable DiffusionとMidjourneyには及ばず、後塵を拝する状況となっている。そんな中、Stability AIが最新の画像生成モデルをリリース、画像クオリティがさらに向上したとして注目を集めている。

　Stability AIは2023年7月26日、同社が「最も先進的」と位置づける「Stable Diffusion XL 1.0」のリリースを発表した。同社によると、この最新モデルは、前モデルに比べ、より鮮明な画像を、正確な色彩で生成することが可能となり、またコントラスト、シャドー、ライティングにおいてもパフォーマンスが向上したという。Stable Diffusion XL 1.0は、GitHubで公開されており、オープンソースとして利用可能であるほか、同社のAPIや消費者向けアプリを通じて利用できる。

　Techcrunchは同社応用機械学習責任者ジョー・ペナン氏の話として、新モデルのパラメータ数は35億に上り、さまざまなアスペクト比に対応、数秒で高解像度（1メガピクセル）の画像を生成できると伝えている。

　VentureBeatなどの報道によると、Stable Diffusion XL 1.0はインペインティング（画像の欠落部分の再構成）、アウトペインティング（既存の画像の拡張）、および「画像対画像」プロンプトをサポートしている。

Stable Diffusion XL 1.0が生成した画像

（出典：Stability AIウェブサイト（https://stability.ai/blog/stable-diffusion-sdxl-1-announcement））

　画像のファインチューニングに関して、以前のモデルでは、長い詳細なプロンプトが必要であったが、新モデルでは短いプロンプトでハイクオリティ画像の生成が可能になったという。

　このファインチューニングの大幅な改善は「ControlNet」を採用したことで実現した。ControlNetは、今年初めにスタンフォード大学の研究論文で手法の詳細が説明され、画像生成領域で注目を集めるアプローチとなった。

　Stable Diffusionを含め、これまでの画像生成AIツールでは、被写体に対しユーザーが望む正確なポーズを取らせることが非常に困難であった。プロンプトで指示できるものの、AIツールの判断により画像が生成されるため、望むポーズが取れるまで、何度かプロンプトを実行する必要があった。

　ControlNetを用いることで、ポーズのベース画像を読み込ませ、ベース画像と同じポーズを取らせたり、ベース画像を基にさまざまなスタイルのアートを生成できるようになった。

ControlNetを活用した生成画像

（出典：Stability AIウェブサイト（https://stability.ai/blog/stable-diffusion-sdxl-1-announcement））

編集部おすすめ記事

ドラゴンボールパークが「サウジ」に建つ残念な理由…“利用される”日本の致命的弱点

MidjourneyとStable Diffusionの強みと弱み

　画像生成分野の二強であるMidjourneyとStable Diffusionであるが、フォトリアルな画像生成においては、Midjourneyの評価が高かった印象がある。実際、Midjourneyが生成する画像は、写真のようにリアルであり、数カ月前には、同AIツールで生成されたトランプ前大統領の逮捕シーンが物議を醸したばかりだ。

　しかし、Stable Diffusion XL 1.0へのアップグレードにより、フォトリアル画像の生成におけるStable DiffusionとMidjourneyの差はほとんどなくなった。

　今回Stable Diffusion XL 1.0のリリースを受け、いくつかのメディアは、Stable DiffusionとMidjourneyの比較検証が実施している。その1つDecyptは2023年8月1日の記事で、Stable Diffusionの新旧モデルとMidjourneyの比較を行い、いくつか興味深いインサイトを伝えている。

　Decyptが比較したのは、Stable Diffusionの最新モデル XL 1.0、前モデルであるStable Diffusion v1.5、そしてMidjourneyの3つだ。

　これら3つを比較したところ、まず使いやすさで軍配が上がったのがMidjourneyだ。Stable Diffusionは、GitHubでのダウンロード、Pythonのインストール、またコマンドプロンプトでのインストールなど、使うまでのハードルが若干高い。また、その画像生成スピードは、ユーザーのコンピュータスペック（特にGPU）に依存する。

　一方、MidjourneyはDiscordにログインするだけで、ユーザーのハードウェアスペックに関係なく利用することが可能だ。ただし、無料で利用できるStable Diffusionとは異なり、Midjourneyを利用するには1カ月8ドル、年間96ドルを支払う必要がある。

　画像を生成するには、DiscordにあるMidjourneyサーバで、プロンプトを入力するだけ。「portrait（ポートレート）」などのワードをプロンプトに入れると、ポートレート写真のようなリアルな画像を生成することができる。

　Decyptは、Midjourneyがオープンソースでないこと、描写制限が厳格であることなどを考慮すると、AIアートのパワーユーザーにとっては物足りなくなるであろうと指摘。そこで、登場するのがStable Diffusionという。

　今回の比較において、3つのモデルを馬にたとえ、Midjourneyが初心者にもやさしいポニー、Stable Diffusion v1.5が馬車馬、そして最新のStable Diffusion XL 1.0がサラブレッドに相当すると評価している。

　Stable Diffusion v1.5を実行するには、NVIDIAのGPU「RTX2000」シリーズ以上のスペックが推奨される。一方、Stable Diffusion XL 1.0では、最低6GBのVRAMを備えたGPUが必須となる。【次ページ】Stability AIが直面する深刻な課題

AI・生成AI

Stable DiffusionとMidjourneyはどちらが優れている？「画像生成AI」の可能性と課題

画像生成AI二強の最新動向

MidjourneyとStable Diffusionの強みと弱み

【マンガ】無茶な…！スキル無いのに「生成AIで業務変革せよ」絶望社員の意外な結末

営業AIエージェント「Origami」の大躍進、異次元のノウハウで「人はもう不要」に

CIOの「IT投資」の裏で…ストレス溜め続ける“ある部門”の業務実態がキツイ理由

関連コンテンツ

市場成長「驚異の年32％超」、予備校は不要に…ベネッセら提供「AIチューター」の凄み

IT運用に生成AIを使うと生じる「劇的変革」、他社と差がつく「5つ」の手法とは

Deep Researchを比較、OpenAI vs グーグル vs Perplexity vs xAI vs 中国Manus

博報堂と考えるデータドリブンマーケティングの最前線

博報堂と考えるデータドリブンマーケティングの最前線

話題の「DeepSeek-R1」日本語モデル解説！ウェビナー

話題の「DeepSeek-R1」日本語モデル解説！ウェビナー

Microsoft 365 とCopilotの連携で業務革命！

Microsoft 365 とCopilotの連携で業務革命！

人気のタグ

Stable DiffusionとMidjourneyはどちらが優れている？ 「画像生成AI」の可能性と課題

画像生成AI二強の最新動向

MidjourneyとStable Diffusionの強みと弱み

【マンガ】無茶な…！スキル無いのに「生成AIで業務変革せよ」絶望社員の意外な結末

営業AIエージェント「Origami」の大躍進、異次元のノウハウで「人はもう不要」に

CIOの「IT投資」の裏で…ストレス溜め続ける“ある部門”の業務実態がキツイ理由

関連コンテンツ

市場成長「驚異の年32％超」、予備校は不要に…ベネッセら提供「AIチューター」の凄み

IT運用に生成AIを使うと生じる「劇的変革」、他社と差がつく「5つ」の手法とは

Deep Researchを比較、OpenAI vs グーグル vs Perplexity vs xAI vs 中国Manus

博報堂と考える データドリブンマーケティングの最前線

博報堂と考える データドリブンマーケティングの最前線

話題の「DeepSeek-R1」日本語モデル解説！ウェビナー

話題の「DeepSeek-R1」日本語モデル解説！ウェビナー

Microsoft 365 とCopilotの連携で業務革命！

Microsoft 365 とCopilotの連携で業務革命！

人気のタグ

Stable DiffusionとMidjourneyはどちらが優れている？「画像生成AI」の可能性と課題

博報堂と考えるデータドリブンマーケティングの最前線

博報堂と考えるデータドリブンマーケティングの最前線