- 会員限定
- 2021/02/18 掲載
東大CDO 喜連川優氏が語る「デジタビリアム」、データ駆動型社会の課題解決のカギに
データの重要性とデータの取り扱いの難しさ
世界中で多くの研究者が新型コロナウイルス関連の研究を進め、日々、大量の論文が公表されている。そうした中、学術分野で衝撃的な事件が起きた。それが「ランセットゲート」だ。ランセット(The Lancet)とは英国の医学誌で、医学関係者であれば誰もが知る超一流の論文誌である。COVID-19の治療に抗マラリア薬を使用することに安全性の懸念があるとした論文が同誌に掲載されたが、その論文のデータに関してさまざまな懸念が提示され、最終的に著者が論文を取り下げたのである。
「エビデンスとなるデータを出すように求められた著者は、最後の最後に『この論文はなかったことにしてください』と取り下げたのです。世界がコロナで苦しんでいるときに、科学者達はいったい何をしているのか、ということで大きい問題になりました。そこで、ウォーターゲートと同様の意味で『ランセットゲート』と呼ばれたのです」(喜連川氏)
ここで注目すべきは、事件の詳細ではなく「データの重要性が改めて確認されたことです」と喜連川氏は強調する。同様にデータの重要性、もしくはデータの取り扱いの難しさを示す例として、喜連川氏はグーグル(Google)がトロントで進めてきたスマートシティ構想から、2020年に撤退したことを紹介する。
「Googleは2017年から取り組んできたのですが、4年目にして撤退することになりました。その背景には、住民から収集したデータの扱いの難しさがありました」(喜連川氏)
そして喜連川氏は、同様のことが日本でも起きることを懸念する。義務教育を受ける児童生徒1人1台にPCを配布するGIGAスクール構想についてだ。同構想では、生徒の学習履歴(スタディログ)の扱いが、いまだグレーゾーンのままだ。
2011年、ゲイツ財団の出資する企業が、ニューヨークで児童生徒のデータをクラウドに集約して分析するサービスを提供していた。しかし、機密性の高い情報が蓄積されていたことが問題となり失敗に終わった。
GIGAスクール構想についても、同様の可能性がないとはいえない。スタディログの扱いは、今後、慎重に検討される必要がありそうだ。
NIIのCOVID-19 AI解析プラットフォーム開発とは
喜連川氏が所長をつとめる国立情報学研究所(NII)でもデータの使い方の難しさに直面している。NIIは2020年9月、名古屋大学、順天堂大学、日本医学放射線学会などと共同で、新型コロナウイルス(COVID-19)肺炎のCT画像をAI解析するためのプラットフォームを開発した。発表時点で83.3%の精度を持ち、症例数が増えると精度はさらに高まるという。
このプラットフォームでは、NIIの医療ビッグデータクラウド基盤に収集・集積した1億6千万枚を超えるCT画像が活用されている。その大量の画像の中から、まず肺炎CT画像を選別する機械学習手法を開発した。そして、その手法でリスト化された肺炎CT画像に、PCR検査結果と放射線医のCOVID-19肺炎の判定結果を付与してデータベース化し、それをデータセットとして活用したという。
「このプロジェクトの特徴は3つあります。1つは特定の病院ではなく、複数の学会と協力していることです。2つ目は、高精細の画像を送るために、100Gbpsの超高速のSINET5(注1)を利用していることです。そして3つ目が、全大学からの傘下を促すオープンなプロジェクトであることです」(喜連川氏)
今回開発されたAI解析プラットフォームは、すでにCOVID-19関連の研究に活用されている。また、NIIの医療ビッグデータクラウド基盤には、COVID-19に限らない臨床データが網羅的に蓄積されているため、将来の未知の感染症への対応にも期待されるという。
ただ、ここで喜連川氏がテーマとして取り上げるのは、「データは、いったい誰のものなのか」ということだ。
【次ページ】データはできるだけオープンに、競争は解析レイヤーで
PR
PR
PR