7
会員になると、いいね!でマイページに保存できます。
SolverLearnerの評価で発覚したLLMの新事実
研究チームは、GPT-3.5とGPT-4を対象に、構文推論、算術演算、空間推論、暗号解読などの多様なタスクでSolverLearnerを用いた評価を行った。その結果、LLMは帰納的推論において驚くべき能力を示した。特にGPT-4は、ほとんどのケースで完璧な精度(ACC=1)を達成した。
一方で、同じタスクセットに対する演繹的推論の評価では、LLMの性能は大幅に低下した。特に、事前学習データにほとんど含まれていないような「反事実的」な推論タスクにおいて顕著な性能低下が見られたのだ。たとえば、通常の10進法の算術では高い性能を示すが、8進法や11進法などの珍しい基数での計算では著しく性能が落ちる傾向が確認されたという。
この研究結果は、LLMが明示的な指示に従うよりも、例から学び、データのパターンを発見することに長けている可能性を示唆している。つまり、LLMは与えられた規則を正確に適用する能力(演繹)よりも、例から一般的なパターンを学習する能力(帰納)において優れているということだ。
これらの発見は、LLMの実世界での応用に大きな影響を与える可能性がある。LLMを用いたアプリケーション開発においては、明示的なルールベースのアプローチよりも、適切な例示を通じた学習アプローチの方が効果的である可能性が高いからだ。また、LLMの訓練においても、演繹的推論能力の向上に特に注力する必要があることが示唆された格好となる。
これらを踏まえたプロンプトアプローチ
大規模言語モデル(LLM)が帰納的推論に強く、演繹的推論に弱いという特性を踏まえると、LLMを活用する際のプロンプト設計において、新たなアプローチが必要となってくる。効果的なプロンプトは、LLMの帰納的推論能力を最大限に引き出しつつ、演繹的推論の弱点を補完するものでなければならない。
まず、帰納的推論能力を活用するためには、適切な例示が重要となる。単に規則や指示を与えるのではなく、具体的な入出力例を複数提示することで、LLMはパターンを認識し、一般化することができる。たとえば、特定の計算タスクを行う際には、類似の計算例をいくつか示すことで、LLMはその背後にある規則を推論し、新しい問題に適用できる可能性が高まる。
また、例示の際には、タスクの本質を捉えた多様な例を提供することが重要だ。単一のパターンに偏った例ではなく、タスクの様々な側面を網羅する例を提示することで、LLMはより堅牢な一般化を行うことができる。算術タスクであれば、異なる桁数や演算子を含む例を提示することで、より幅広い状況に対応できるようになる。
数学的問題解決の例:
悪い例示:
10 + 5 = 15
20 + 7 = 27
質問: 30 + 8 = ?
良い例示:
10 + 5 = 15
23 - 7 = 16
6 × 4 = 24
15 ÷ 3 = 5
質問: 18 + 9 = ?
※良い例示では、加減乗除の全ての基本演算を含み、さらに一桁と二桁の数字を混ぜている。
自然言語処理タスクの例(感情分析):
悪い例示:
「この映画が大好き!」→ ポジティブ
「この映画は素晴らしい!」→ ポジティブ
質問: 「演技が素晴らしかった」→ ?
良い例示:
「この映画が大好き!」→ ポジティブ
「この映画はひどかった」→ ネガティブ
「演技は良かったけど、ストーリーが分かりにくかった」→ 中立
「こんなにひどい映画だとは信じられない」→ ネガティブ
質問: 「特殊効果は印象的だったが、ストーリーに物足りなさを感じた。」→ ?
※この良い例示では、ポジティブ、ネガティブ、中立の感情を含み、また単純な表現から複雑な表現まで多様な例を提供。
一方、演繹的推論の弱点を補完するためには、複雑なタスクを小さな帰納的ステップに分解するアプローチが有効かもしれない。複雑な論理パズルを解く際には、各ステップを個別の帰納的タスクとして扱い、それぞれに適切な例示を行うことで、全体としての演繹的推論を実現できる可能性がある。
また、「チェーン・オブ・ソート(CoT)」プロンプティングのような手法も、LLMの推論プロセスを支援する上で有効だ。CoTは、中間的な思考ステップを明示的に示すことで、複雑な推論タスクをより小さな管理可能なステップに分解する。これにより、LLMは各ステップでの帰納的推論を行いつつ、全体として演繹的な推論を模倣することができる。
さらに、LLMが苦手とする「反事実的」な推論や珍しいシナリオに対しては、そのような状況を明示的に例示することが重要となる。通常とは異なる基数での計算を行う場合、その基数でのいくつかの計算例を提示することで、LLMはそのコンテキストでの推論方法を学習できる可能性がある。
プロンプト設計においては、LLMの基礎モデルの違いも考慮に入れるべきだろう。研究結果が示すように、より高度なモデル(例:GPT-4)はより優れた帰納的推論能力を持つ。したがって、使用するLLMの能力に応じて、提供する例示の量や複雑さを調整することが効果的だと考えられる。
最後に、プロンプトにおいては、LLMに対して明示的に「帰納的に推論せよ」と指示することも有効かもしれない。たとえば、「与えられた例からパターンを見出し、一般的な規則を導き出してください」といった指示を含めることで、LLMの帰納的推論能力を直接的に引き出すことができるかもしれない。
なお、最新の
OpenAI o1については、演繹的推論の弱点をカバーしたモデルと言われる。一方で、従来モデルよりも時間がかかり、また計算負荷が大きいのも事実だ。
そのため、上述したアプローチを組み合わせることで、LLMの強みである帰納的推論能力を最大限に活用しつつ、演繹的推論の弱点を補完することが期待できる。
今後、LLMの推論能力がさらに進展することで、プロンプトはより簡易化するかもしれないが、一方で洗練されたものが求められる可能性もありそうだ。
評価する
いいね!でぜひ著者を応援してください
会員になると、いいね!でマイページに保存できます。
関連タグ