3
会員になると、いいね!でマイページに保存できます。
共有する
活用が期待される「ある分野」
o1モデルの強みを活かせる分野の1つが、
医療データの検証 である。患者の命に関わる医療分野では、データの正確さが極めて重要となる。o1モデルの高度な推論能力を使えば、人間が見落としがちな複雑なデータの不整合を見つけられる可能性がある。
OpenAIによるo1-previewモデルを活用した実験で、この可能性が示唆された。
実験では、o1-previewモデルに、患者の基本情報、病歴、薬の処方、アレルギー、検査結果などを総合的に分析させ、各データが正しいかどうか、問題がある場合はどんな問題かを判断させた。たとえば、ペニシリンアレルギーの患者に似たような薬が処方されていないか、糖尿病患者に適切な治療が行われているかなどをチェックするタスクが与えられた。
o1モデルの医療データ検証能力を評価するため、意図的な間違いを含む100件の仮想医療データを用いたテストが実施された。
具体的な成果は以下の通りである。
問題検出の精度:
- 適合率(precision):0.82
- 再現率(recall):0.87
- F1スコア:0.84
これらの数値が意味するところを解説したい。適合率0.82は、モデルが「問題あり」と判断したデータのうち、82%が実際に問題を含んでいたことを示す。つまり、誤検出(false positive)が比較的少ないことがわかる。
再現率0.87は、実際に存在する問題のうち、87%をモデルが検出できたことを意味する。言い換えれば、見落とし(false negative)が少ないということだ。
F1スコアは適合率と再現率の調和平均で、モデルの総合的な性能を表す。0.84という高スコアは、o1モデルが問題検出において優れたバランスを持つことを示している。
また、モデルが問題を正しく特定した場合の精度(issue accuracy)は約62%に達した。これは、AIが単に「問題がある」と判断するだけでなく、その具体的な内容まで正確に理解できていたことを意味する。
たとえば、以下のような具体的な問題をAIが正確に指摘できた。
ペニシリンアレルギーのある患者にアモキシシリンが処方されている
1型糖尿病患者に適切な治療が行われていない
極端に高い血糖値が診断・治療されていない
これらの指摘は、人間の医療専門家が行う評価と一致しており、o1モデルの高度な推論能力を裏付けるものとなった。
しかし、AIの判断が常に正しいわけではない。たとえば、「低血糖レベルが適切に対処されていない」という実際の問題を、モデルが「生年月日と年齢が一致しない」と誤って判断するケースも見られたという。モデルがデータの異なる側面に注目してしまったのが原因と考えられる。
このような高度なデータ検証システムは、医療以外の分野(金融や製造業など)でも活用できる可能性がある。AIと人間の専門家が協力することで、より信頼性の高いデータ管理が実現できるかもしれない。
o1が得意な「自動生成ルーティン」とは
o1モデルのもう1つの強みは、顧客サービス向けの
ルーティン(ステップ・バイ・ステップの指示)自動生成 だ。この機能は、企業の複雑な内部知識を、AIが理解しやすい形に変換する上で非常に効果的となる。
従来の顧客サービス文書は人間向けに作られており、複雑な図表や多段階のプロセスを含んでいることが多い。OpenAIによる別の実験では、o1モデルはこれらのプロセスをAIが実行可能な明確な指示に変換できることが確認された。
OpenAIはこの実験で、自社の「支払い方法の削除」「事業提携契約の取得」などの記事をo1-previewモデルに入力、AIが実行可能なルーティンに変換できるかを試みた。
その結果、o1モデルは以下のようなルーティンを生成することに成功した。
具体的な応答文の生成
複雑なプロセスの個別アクションへの分解
外部情報取得やアクション実行に必要な関数の定義
状況に応じたアクション選択のための条件分岐の設計
以下、実際に「支払い方法の削除」に関して、o1モデルが生成したルーティンの一部となる(原文は英語)。
顧客のアカウントを確認する。
a. 丁寧に顧客にメールアドレスまたはアカウントIDを尋ね、アカウントを特定する。
b. verify_customer_account(email_or_account_id)関数を呼び出す。
顧客の身元を確認する。
a. 丁寧に顧客に身元確認のためのセキュリティ情報(例:登録されている支払い方法の下4桁)を提供するよう依頼する。
b. verify_customer_identit(account_id, security_information)関数を呼び出す。
c. 顧客の身元が確認できない場合:
セキュリティ上の理由で身元確認なしには進められないことを顧客に伝える。
身元確認の方法についてガイダンスを提供する。
ステップ6に進む。
顧客のアカウントタイプを確認する。
a. check_account_type(account_id)関数を呼び出す。
顧客がChatGPT Plusの購読者の場合:
a. ChatGPT Plusの購読をキャンセルする手助けが必要かどうか尋ねる。
b. 顧客が同意した場合:
cancel_subscription(account_id)関数を呼び出す。
購読がキャンセルされ、次の請求日の翌日から有効になることを顧客に伝える。
それまでサービスを引き続き使用できることを顧客に伝える。
c. それ以外の場合:
購読をキャンセルするための以下の手順を顧客に提供する:
ChatGPTのサイドバーで**'My Plan'**をクリックする。
ポップアップウィンドウで**'Manage my subscription'**をクリックする。
**'Cancel Plan'**を選択する。
キャンセルの有効日と、それまでのアクセス継続について顧客に伝える。
次の請求期間の料金を避けるため、次の請求日の少なくとも24時間前にキャンセルするよう顧客にアドバイスする。
これらの自動生成ルーティンは、特定の顧客対応システムに統合することができる。顧客がヘルプを要求した場合、適切なルーティンを選択し、チャットAIに提供することで、効果的な対話ができるようになると考えられる。
OpenAIの競合となるAnthropicは
Claude 3.5 Sonnet 、xAIはGrok3を将来的な切り札とするところだが、o1を超えることができるのか、今後の注目点となる。
懸念される「ウソ情報」生成リスクとは
一方、この高度な推論能力は、新たな懸念も生み出している。AI研究の重鎮の一人であるヨシュア・ベンジオ氏は、o1モデルの能力に
警鐘 を鳴らす。
モントリオール大学教授でチューリング賞受賞者でもあるベンジオ氏は、o1の「はるかに優れた推論能力」が、より洗練された巧妙な詐欺や欺瞞(ぎまん)につながる可能性を指摘。特に意図的な虚偽行為の能力向上に懸念を示している。
ベンジオ氏は、将来的にAIに対する人間のコントロールを失わないよう、即時的な安全対策の必要性を訴えている。Business InsiderとApollo Researchの報告によると、o1モデルは過去のOpenAIモデルと比較して、虚偽の情報を生成する能力が顕著に向上したことが判明したという。
これに対しOpenAIは、o1モデルを「Preparedness Framework」と呼ばれる方法論の下で運用しており、AIによる破滅的な事象は監視・防止されるように設計されていると主張。同社は自社の安全指標においてo1をミディアムリスクと評価、プレビュー版は安全であると断言している。
評価する
いいね!でぜひ著者を応援してください
会員になると、いいね!でマイページに保存できます。
関連タグ