細谷 元
バークリー音大提携校で2年間ジャズ/音楽理論を学ぶ。その後、通訳・翻訳者を経て24歳で大学入学。学部では国際関係、修士では英大学院で経済・政治・哲学を専攻。国内コンサルティング会社、シンガポールの日系通信社を経てLivit参画。興味分野は、メディアテクノロジーの進化と社会変化。2014〜15年頃テックメディアの立ち上げにあたり、ドローンの可能性を模索。ドローンレース・ドバイ世界大会に選手として出場。現在、音楽制作ソフト、3Dソフト、ゲームエンジンを活用した「リアルタイム・プロダクション」の実験的取り組みでVRコンテンツを制作、英語圏の視聴者向けに配信。YouTubeではVR動画単体で再生150万回以上を達成。最近購入したSony a7s3を活用した映像制作も実施中。
http://livit.media/
大規模言語モデルの開発において、アウトプットの質をチェックする「エバリュエーション(評価)」プロセスは非常に重要だ。ChatGPTが人間らしい回答を生成できるのも、このプロセスがあってこそといわれている。しかし、このプロセスには大量の人的資源・時間・資金が必要となるだけでなく、バイアス問題などの課題が多数存在しており、現在その課題解決に向けた動きが活発化している。そんな中、メタが2024年8月に発表した「Self-Taught Evaluator」は、LLMに自己改善ループの能力を与えるアプローチとして注目を集める存在に。どのようなアプローチなのか、評価プロセスの現状に触れつつ、その詳細を解説したい。
オープンソース言語モデルや小型言語モデル(SLM)の精度は従来、それほど高いものではなく、実際に活用することは難しかった。しかし、現在はローカル環境でも十分に利用できる小型モデルが続々登場しており、その様相は大きく変わってきている。グーグルが7月末にリリースした「Gemma 2」は、その好例といえるだろう。20億パラメータという非常に小さなモデルでありながら、GPT-3.5を超えるパフォーマンスを示したのだ。さらに、グーグルは「日本語版 Gemma 2 2B」を発表、髙い日本語性能を発揮したという。パラメータ数に関わらず、Gemma 2が高いパフォーマンスを発揮できる理由はどこにあるのか、その理由を探りつつ、実際にローカル環境で動作させる方法と必要なマシンスペックについてもわかりやすく解説する。