0
会員になると、いいね!でマイページに保存できます。
米国で世界初の自律型AIソフトウェアエンジニア「Devin」が発表され、衝撃を生んでいる。人間の指示に応えてタスクをサポートする従来型のAIアシスタントとは異なり、Devinはコーディングから実装までの開発プロセス全体を自ら行える、いわゆる自律型の「
AIエージェント」だからだ。同ツールは「(サポート型の)Github Copilotなどとはユーザー体験が大きく異なる」という。Devinの登場により、人間のITエンジニアが職を奪われる時代が到来してしまうのか。その具体的な実力とともに解説する。
AIソフトウェアエンジニア「Devin」とは
Devinとは、ほぼ無名だった米国のAIスタートアップ
Cognitionが今年3月に発表した自律型AIソフトウェアエンジニアだ。
コーディングをサポートしてくれるだけでなく、バグの修正から実装に至るまで、開発プロセス全体をエンドツーエンドで自律的に処理する能力を持ち、既存のAIアシスタントとは一線を画す。これまでとは別次元の、世界初の「AIソフトウェアエンジニア」の誕生として、良くも悪くも話題の的となった。
人間のリクエストに応えて、コード生成などのタスクをサポートしてくれるAIアシスタントはGithub Copilotを筆頭に、すでに複数存在する。
しかしDevinは、従来のAIアシスタントのような人間の指示にその都度応えるサポート役にとどまらず、自ら判断して作業するワーカーとして機能するのが売りだ。実際にDevinを使用したコンサルティング会社Peripety Labsのマーク・ヒンクルCEOは「Github CopilotやCodeWhispererとは、ユーザー体験が大きく異なる」と、Devinを評価している。
Devinが実際に企業のIT環境に投入される時期はまだ不明だが、システムエンジニアの職を代行するAIエージェントの実戦投入が現実味を帯びてきた。
GPT-4などを引き離す「圧倒的実力」とは
GitHubが提供するリアル世界のソフトウェアエンジニアリングの課題をどれだけ解決できるかを比較するためのベンチマークテスト、
「SWE-bench」では、Devinの問題解決率は13.86%と、ほかの生成AIモデルを抑えて圧倒的なトップだった。
2位のアンソロピックのClaude 2は4.80%、3位のメタのLlama13Bは3.97%。OpenAIのGPT-4はこのタスクでは、1.74%にとどまった。しかもこのテストでは、Devinのみ、どのファイルを修正するのかという指示を必要としない状態での実施だったという。
Cognitionの共同創業者であるスコット・ウーCEOのブログによれば、Devinの突出した能力は、サンドボックス(隔離・保護された仮想環境)化された計算環境内で、独自のシェルやコードエディタ、ブラウザを含む一般的な開発者ツールにアクセスし、幾千もの決定を必要とする複雑なエンジニアリングタスクを自ら計画・実行できる点にあるという。
人間はDevinのチャットボックス型のインターフェースにプロンプトを入力する。それだけで、Devinは自ら、作業を進めるための詳細かつ段階的な計画を作成。人間が行う作業と同じように、開発ツールを使ってプロジェクトを開始し、コードを書き、問題を修正し、テストする。
ブルームバーグによれば、たとえば「シドニーにあるイタリアンレストランをすべて地図上に表示するWebサイトを作成して」と指示すると、Devinはレストランを検索し、住所と連絡先情報を取得し、その情報を表示するサイトを作成して公開するという。リアルタイムで進捗状況を報告してくれるため、人間のオブザーバーがすべての作業過程を追うことが可能で、必要なら修正命令を出すこともできる。
CognitionはそんなDevinのことを、「疲れ知らずの熟練したチームメイト」と形容する。人間のエンジニアリングチームはAIに作業を任せることで、より野心的な目標に向けた創造的なタスクに取り組む時間が作れるとしている。同社は「人間+AI」のコラボという展望を示すことで、AIとの共存によるメリットを強調した格好だが、これはすなわち、人間の監督の下、AIエンジニアが自らのみで一連の作業を行うという新たな時代が迫っていることを意味する。
【次ページ】実際の仕事依頼もすでに達成?
関連タグ