- 2024/12/16 掲載
GraphRAGとは何かを解説、従来型RAGとの違いは?活用手順もイチから紹介(2/3)
アップル財務報告書の分析で示した「圧倒的な実力」
GraphRAGは、ベクトルデータベースRAGで指摘されている課題も解決できる可能性を秘める。ベクトル検索の仕組みは、テキストの意味的類似性を数値化し、関連する情報を抽出するものだ。
たとえば、「ジョンのペットは何か?」という質問に対して、「猫」や「犬」といった単語が「ペット」と意味的に近いことを判断し、関連情報を取得する。しかし、この手法では意味的に類似しているが関連性のない情報や、逆に関連性はあるが意味的に類似していない情報を適切に処理できない場合があるのだ。
一方、グラフ検索は、データ間の関係性を明示的に定義し、より精緻な情報検索を可能にする。
たとえば、アップルの四半期財務報告書を分析する場合、グラフ構造を利用することで、製品パフォーマンス、財務状況、外部経済要因など、複雑に絡み合う要素間の関係を明確に把握できる。
Neo4jが実施したベクトルデータRAGとグラフデータRAGの比較は、その違いを理解する上で大いに役立つ。この比較では、アップルのMac製品に影響を与える市場条件の調査を、2つのRAGアプローチで実施し、回答の違いを分析している。RAGシステムが参照したのは、アップルの四半期報告書だ。
その結果、グラフデータベースを用いると、「COVID-19」「為替」「マクロ環境」「シリコン不足」「サプライチェーンの逼迫(ひっぱく)」など、Mac製品に直接影響を与える25項目もの市場条件を網羅的に抽出することができた。これに対し、ベクトル検索では「為替の逆風」「重大な供給制約」「マクロ経済環境」といった限定的な情報しか得られなかったという。
グラフ検索の優位性は、深さ(depth)と幅(breadth)の両面で効力を発揮できる点にある。深さの面では、たとえばアップルCEOのティム・クック氏が報告した財務指標とそれに影響を与える市場条件を、複数の関係性をたどって詳細に分析できる。幅の面では、iPhone製品を起点に、地理的セグメントや財務指標など、関連する多様な情報を広範囲に探索できるのだ。
ただし、グラフ検索にも課題がある。情報を単純化してトリプル(エンティティ-関係-エンティティ)で表現するため、元のテキストの文脈情報が失われるリスクがあるのだ。
この課題に対し、Neo4jの共同創業者兼CEOのエミル・アイフレム氏は、「ベクトルによって明らかになる暗黙の関係性と、グラフによって明らかになる明示的で事実に基づく関係性やパターンを組み合わせること」が効果的だと指摘する。グラフデータベースとベクトルデータベースの長所を組み合わせるアプローチに期待が寄せられている。
直感的に操作できるワケ
グラフデータベースを理解する上では、最も広く使用されているデータベースの種別であるリレーショナルデータベース(RDBMS)との違いを認識することも大きな助けとなる。RDBMSは、データを行と列で構成されたテーブルに格納する。各行はレコードを、各列はそのレコードの属性を表す。
これを身近な例で説明すると、テーブルはエクセルシートのようなものだ。テーブルは列(カラム)と行(レコード)で構成されており、列は表の縦の項目で、データの種類を表す。たとえば、「氏名」「年齢」「住所」などがこれにあたる。一方、行は表の横の項目で、1つの完結したデータの集まりを指す。たとえば、1人の顧客情報が1つの行となる。
複数のデータテーブルは、プライマリーキーと外部キーを使用して関連付けられる。プライマリーキーはテーブル内の各行を一意に識別し、外部キーは1つのテーブルの行を別のテーブルの行にリンクする。複数のテーブルを関連付けることで、データの重複を減らし、効率的に管理することが可能となるのだ。
RDBMSは構造化クエリ言語(SQL)を使用してデータの操作や管理を行う。SQLは、データベースとの対話を行うための言語。これを用いることで、たとえば、「30歳以上の顧客を表示する」といった操作を簡単に行うことができる。
一方、グラフデータベースは、データをノードとそれらを結ぶリレーションシップ(エッジまたはリンクとも呼ばれる)の形で格納する。ラベル付きプロパティグラフデータモデルに基づくグラフデータベースは、ノード、リレーションシップ、ラベル、プロパティの4つの要素で構成される。ラベルは類似したノードをグループ化する属性で、プロパティはノードやリレーションシップ内に格納されるキー/値ペアだ。
クエリ言語の面でも両者には大きな違いがある。RDBMSはSQLを使用するのに対し、グラフデータベースは主にCypherクエリ言語を採用している。Cypherは、プロパティグラフデータベース向けのオープンクエリ言語として広く採用されており、直感的な方法でプロパティグラフを操作できる。 【次ページ】Neo4jの使い方とは? 手順をイチから解説
関連コンテンツ
PR
PR
PR