ビジネス+IT編集部
大規模言語モデルの開発において、アウトプットの質をチェックする「エバリュエーション(評価)」プロセスは非常に重要だ。ChatGPTが人間らしい回答を生成できるのも、このプロセスがあってこそといわれている。しかし、このプロセスには大量の人的資源・時間・資金が必要となるだけでなく、バイアス問題などの課題が多数存在しており、現在その課題解決に向けた動きが活発化している。そんな中、メタが2024年8月に発表した「Self-Taught Evaluator」は、LLMに自己改善ループの能力を与えるアプローチとして注目を集める存在に。どのようなアプローチなのか、評価プロセスの現状に触れつつ、その詳細を解説したい。
オープンソース言語モデルや小型言語モデル(SLM)の精度は従来、それほど高いものではなく、実際に活用することは難しかった。しかし、現在はローカル環境でも十分に利用できる小型モデルが続々登場しており、その様相は大きく変わってきている。グーグルが7月末にリリースした「Gemma 2」は、その好例といえるだろう。20億パラメータという非常に小さなモデルでありながら、GPT-3.5を超えるパフォーマンスを示したのだ。さらに、グーグルは「日本語版 Gemma 2 2B」を発表、髙い日本語性能を発揮したという。パラメータ数に関わらず、Gemma 2が高いパフォーマンスを発揮できる理由はどこにあるのか、その理由を探りつつ、実際にローカル環境で動作させる方法と必要なマシンスペックについてもわかりやすく解説する。