- 会員限定
- 2021/03/12 掲載
「コーパス」とは?自然言語を扱うAIのカラクリ
連載:図でわかる3分間AIキソ講座
「コーパス」とは
AIと聞くと、機械学習のように「勝手に必要なことを学習してくれる」といったイメージを持つ人が多いかもしれませんが、扱う対象が「自然言語」となると、そう簡単な話ではないのです。インターネット上には無数の自然言語がありますが、そのほとんどは非構造化データと呼ばれる扱いにくいデータです。AIにとっては読み方の分からない外国語のようなものでしょう。それを「勝手に読んで学んでくれと」言っても、かなり難しいタスクであることが分かります。
人間が外国語を学ぶように、AIにも書かれている単語の文法上の扱い、意味、用例などを記した辞書的なデータベースが必要不可欠となります。そこで、インターネット上の自然言語を収集し、文法などの構造情報を整理したデータベース「コーパス」が世界中の言語で作成されました。
コーパスは構造化されているため、AIはコーパスを参照することで人間の書いた構造化されていない文章を構造化して読むことができるようになります。これは、AIが辞書を引きながら外国語を読むといったイメージです。
クイズに答えるAI、「検索」と何が違う?
コーパスのおかげで、AIも自然言語をある程度は「読める」ようになったと解釈することができます。たとえば、IBMのWatsonはこのコーパスを駆使して、Wikipediaなどインターネット上のさまざまなリソースの内容を読み取れるようになり、知識を問うクイズに答えられるようになりました。今では論文や判決文などを読んで必要な情報を取り出せるようになり、より高度な複雑な文章にも対応できるようになっています。
ただ、質問やクイズに答えられるようになったからといって、意味が分かっているとは限りません。こうしたAIが実際に行っているのはコーパスと機械学習によって非構造化データ(文章)を構造化して扱えるようにし、もっともらしい解答を見つける確率論によって、問い(入力)にふさわしい答え(出力)をデータベースから取り出しているだけ。要するに、私達が普段やっている「検索」を高度にしただけのものということです。
【次ページ】「該当する単語を検索してくること」と「意味を理解し答えること」の差
関連コンテンツ
PR
PR
PR