• 会員限定
  • 2024/01/15 掲載

Transformerとは何か? 「ChatGPT」や「Gemini」を生み出した超重要技術の進化

  • icon-mail
  • icon-print
  • icon-hatena
  • icon-line
  • icon-close-snsbtns
会員になると、いいね!でマイページに保存できます。
圧倒的な汎用性で世界中を席巻している「GPT」「PaLM」「LLaMA」といったLLM(大規模言語モデル)の根幹を成す技術が「Transformer」です。従来のディープラーニングが抱えていた大きな課題を解消し、ChatGPTなどのAIを生み出したことで落ち着いてきたかに思えたAIブームを爆発的に再加速させたこの重要技術は、いまだに発展を続けています。今回は、Transformerについて、分かりやすく解説していきます。
photo
グーグルが開発した新たな深層学習モデルである「Transformer」とは?仕組みを解説
(Photo/Shutterstock.com)

Transformerとは?

 Transformerとは、グーグルで開発されたディープラーニング(深層学習)のアーキテクチャのことです。

 後述するTransformerの発展型となる「Vision Transformer(ViT)」「Unified Transformer(UniT)」「Decision Transformer(DT)」「Robotics Transformer(RT)」などのベースの技術となっており、発展型を含めてTransformer系の技術は、自然言語を扱うあらゆるタスクで極めて高い汎用性を示しました。

 このTransformerがそれ以前の技術であるディープラーニングより優れている点は下記の3点です。
■Transformerが従来のディープラーニングより優れている点
  • スケーラビリティ(拡張性)
  • 長期的記憶力
  • 学習能力と汎用性

 これだけを見ると、すべてにおいて優れているような印象を受けますが、記憶保持や学習能力だけを見ればTransformerよりも優れている方式はほかにもありました。しかし、この中で最も重要な要素は、機械学習に求められる機能を実現しつつ、大規模化が容易な「圧倒的なスケーラビリティ」を誇る点にあります。Transformerのアーキテクチャは従来のものに比べて非常にシンプルだったのです。

 今ではTransformerを使ったLLMが数多く登場しています。小規模ながらもGPT-4に匹敵する性能を持つ新しいLLMも登場していますが、基本的には「LLMの規模が大きいほど性能が高い」という原則は健在です。さらに、LLMの知能はその規模が一定ラインを超えた瞬間に突然賢くなる(創発的能力)があることが分かっています。つまり、学習モデルの大規模化はAIが人間の知能に近づくために重要な要素の1つということです。

画像
LLMの規模が一定ラインを越える急激に賢くなることを示したグラフ
(出典:Emergent Abilities of Large Language Models, Published in Transactions on Machine Learning Research (08/2022), https://arxiv.org/pdf/2206.07682.pdf

 Transformerはこの重要な課題を解決しました。しかし、Transformerの中にはさらに重要な「Attention機構(注意機構)」と呼ばれるアーキテクチャが隠れています。このAttention機構がTransformerの高い性能を引き出しているのです。そこで、次にAttention機構について簡単に説明します。

超重要な関連キーワード、Attention機構とは?

 Attention機構というのは、人間の「注意能力」に関する認知機能を模倣したアーキテクチャを持つ機構のことで、目的に応じてさまざまなタイプがあります。どれも似たような機能を持っているものの、その仕組みは少しずつ異なります。

 Attention機構の基本的な機能は「重要度に合わせた数値計算を行う」という機能で、ニューラルネットワークの重み付けに似ています。ただ、Attention機構では重み付けをより大胆かつシンプルに行っていると考えると良いでしょう。

 たとえば、Attention機構を用いて言語処理を行う場合は「単語同士の距離」を見つつ、ある単語にとって「どこの単語が重要か」という考え方で重み付けをしています。単語によって近い単語が重要であったり、遠い単語が重要であったりしますが、距離によって重要性を判別している点は変わりません。極めて単純な関係性の考え方です。

 普通に考えれば距離よりも意味のほうが重要に思われがちですが、人間の認知機能でも空間的な距離の関係性は極めて重要な情報に位置付けられており、人間も多かれ少なかれ情報同士の距離で大雑把な関係性を把握していることが分かっています。同じ意味の言葉であっても「倒置法」で言葉のニュアンスが変わることがありますが、言葉の意味ではなく距離や位置を見ることでこうしたニュアンスの違いも把握できるようになります。

 このように関係性の把握をシンプルな「距離」によって把握するようになったことで計算コストが軽減されるほか、逆に従来の手法では落としがちだった「遠い情報」を把握しやすくなりました。距離だけで関係性を把握するので、長い文章の最初から最後までの関係性を理解できるということです。これが長期的な記憶力として機能します。文頭の情報が文末まで保持されて、ある程度の長い文章でも綺麗に関係性を理解できるのです。

それだけで言語処理ができる? Attention機構の実力

 このAttention機構はシンプルな仕組みだったため、どちらかと言えば発見当初は補助的な技術としてCNNRNNに導入され、性能を向上させる手法として注目されていました。しかし、TransformerではAttentionを補助ではなくメインに据えて言語処理を行ったことで世界を驚かせたのです。

画像
Attention機構とTransformerの関係性
(出典:Attention Is All You Need, https://arxiv.org/pdf/1706.03762.pdf

 上の図はTransformerのアーキテクチャを示す図です。左の「Scaled Dot-Product Attention」が多層化されて「Multi-Head Attention」というモジュールになり、それがTransformerのエンコーダー部分とデコーダー部分に組み込まれています。また、中には順伝搬型のニューラルネットワークも入っています。ちなみに、エンコーダーは機械が理解しやすい形にデータを変換する装置で、デコーダーは人間向けに変換する装置とざっくり考えると良いでしょう。

 見る人が見れば「え、それだけ」となるようなシンプルなアーキテクチャで、大規模化することも難しくありませんでした。さらに、近年のLLMでは左半分のエンコーダー部分を切り離して「デコーダー」部分を大量に重ねて動かしています。シンプルで単純なアーキテクチャだからこそ、大規模化も容易になるというわけです。

発展型(1):映像処理向けのVision Transformer

 そして、シンプルなアーキテクチャであれば、それを発展させるのも難しくありません。映像向けに開発された「Vision Transformer(ViT)」では画像を細かく切り分けてTransformerの「エンコーダー」に入れる手法がとられました。

画像
「Vision Transformer (ViT)」のアーキテクチャ
(出典:TRANSFORMERS FOR IMAGE RECOGNITION AT SCALE, Published as a conference paper at ICLR 2021, https://arxiv.org/pdf/2010.11929.pdf

 映像においても、切り取った映像間の距離に関する情報を付与して関係性の分析をさせています。映像分析においても距離・位置の情報は、情報の判別・分類をする上で極めて重要なのです。ViTは従来のCNN型の画像分析手法よりも少ない学習データで高い性能を発揮しました。

 また、エンコーダーを利用しているのでデコーダーのみで構成されるLLMとの相性も良く、映像と言語のマルチモーダルAIを構築する際にもスムーズにアーキテクチャを構築できる点も強みです。後述のロボット版でも、ViTに近い方式が使われています。 【次ページ】発展型(2):マルチモーダル対応のUnified Transformer
関連タグ タグをフォローすると最新情報が表示されます

関連コンテンツ

あなたの投稿

    PR

    PR

    PR

処理に失敗しました

人気のタグ

投稿したコメントを
削除しますか?

あなたの投稿コメント編集

機能制限のお知らせ

現在、コメントの違反報告があったため一部機能が利用できなくなっています。

そのため、この機能はご利用いただけません。
詳しくはこちらにお問い合わせください。

通報

このコメントについて、
問題の詳細をお知らせください。

ビジネス+ITルール違反についてはこちらをご覧ください。

通報

報告が完了しました

コメントを投稿することにより自身の基本情報
本メディアサイトに公開されます

必要な会員情報が不足しています。

必要な会員情報をすべてご登録いただくまでは、以下のサービスがご利用いただけません。

  • 記事閲覧数の制限なし

  • [お気に入り]ボタンでの記事取り置き

  • タグフォロー

  • おすすめコンテンツの表示

詳細情報を入力して
会員限定機能を使いこなしましょう!

詳細はこちら 詳細情報の入力へ進む
報告が完了しました

」さんのブロックを解除しますか?

ブロックを解除するとお互いにフォローすることができるようになります。

ブロック

さんはあなたをフォローしたりあなたのコメントにいいねできなくなります。また、さんからの通知は表示されなくなります。

さんをブロックしますか?

ブロック

ブロックが完了しました

ブロック解除

ブロック解除が完了しました

機能制限のお知らせ

現在、コメントの違反報告があったため一部機能が利用できなくなっています。

そのため、この機能はご利用いただけません。
詳しくはこちらにお問い合わせください。

ユーザーをフォローすることにより自身の基本情報
お相手に公開されます