0
会員になると、いいね!でマイページに保存できます。
不動産情報サイト「LIFULL HOME'S」などを運営するLIFULLは、先端技術を駆使してより便利なサービスを提供しようと挑戦を続けている。その結果として、スマートフォンのカメラに集合住宅を映すと、その空き室や売り物件を簡単に探せる「かざして検索」や、機械学習で予測した不動産価格を地図に重ねて表示する「プライスマップ」などのサービスが生まれている。これらの最新サービスに深く関係している機械学習への取り組みについて聞いた。
「良質な教師データの確保」が最も難しい
ABEJA主催 「SIX 2019 」に登壇したLIFULL AI戦略室の椎橋怜史(しいばしさとし)氏は、現在LIFULLが開発に取り組んでいる「間取り図の解析」を担っている。間取り図の解析では、物件の間取り図を解析してそれぞれの部屋の用途、広さなどを自動的に推定すること、さらには、物件の3Dモデルを作成することを目指しているという。
まず着手したのは、物件内の部屋それぞれの種類を推定することだった。洋室や和室、キッチン、浴室、トイレなど、部屋の種類と広さを自動的に推定する機械学習モデルの開発だ。
椎橋氏は、この段階で最も注力した点として「良質な教師データの確保」を挙げた。機械学習には、ヒントも正解もないデータを大量に学習させる「教師なし学習」と、正解を付けたデータを学習させる「教師あり学習」がある。現在は、教師あり学習が主流となっており、LIFULLに限らず、機械学習を利用する企業はほとんどの場合教師あり学習を選んでいるという。
そして、教師あり学習の成否を分けるのが、教師データの質だ。教師データは、データに対してそのデータが何を指しているのかを示す関連する情報をひもづける「アノテーション」を施したもの。
たとえば、鳥が写っている画像データには「鳥」というアノテーションが付いていなければならない。「犬」というアノテーションが付いていては、学習には使えない。データに対する正解を、的確にアノテーションとして付加していくことがとにかく重要だという。
しかし、ここで1つ大きな問題がある。機械学習モデルの学習に使うほどの量の教師データ、しかも良質な教師データを確保することが難しいのだ。現時点では、人間が1つひとつのデータを見て、手動でアノテーションを付けている。
このやり方だと機械学習モデルの学習に必要な量を確保するには、あまりに時間がかかりすぎてしまう。複数の人員で手分けして作業するにしても、自社内でやっていては人手が足りない。
外部発注しながらデータの質を確保する工夫
そこでLIFULLは、データへのアノテーション付けを外部業者に委託すると決めた。クラウドソーシングを活用して、データへのアノテーション付けを代行する業者は数多く存在する。
しかしこの作業はとても重要なものだと考えている椎橋氏は、外部に委託することに疑問を感じていた。結果がいい加減では、教師あり学習の精度を確保できないからだ。
そこで、外部業者に発注するに当たって2点工夫したという。1点目は同じ作業を2社に同時に発注するということ。もう1つは、業者にアノテーション付けを依頼するデータに「ダミー」を混ぜておくことだったという。
ダミーとは、どのようなアノテーションを付けるべきかを発注者が事前に理解しているデータだ。依頼のための大量のデータを渡すときに、そのうちの一部をダミーデータとしておく。作業が終わって、アノテーションが付いた形でデータが返ってきたら、仕込んでおいたダミーデータとそのアノテーションを確認すれば、業者による作業が正確かどうかが簡単に分かるというわけだ。
さらに、同じ作業を複数の業者に発注し、それぞれの結果を比較することで、問題のある業者を排除できる。
LIFULLはABEJA Platformの1サービスであるAnnotationを利用しながら、同時に別の業者にもアノテーション付けを発注した。椎橋氏によると、アノテーション付けの精度はどちらも問題なかったという。
しかし、ABEJAではない方の業者を利用するには、ABEJAがABEJA Platform Annotationのサービスや機能としてすぐに使える形で提供しているものを、自社で開発しなければならなかった。この点が決め手となって、最終的には、データへのアノテーション付けにはABEJA Platform Annotationを利用した。
ABEJA Platform Annotationでは、クラウドソーシングで集めた人員にアノテーション付けを委託することもできる。椎橋氏はクラウドソーシングでアノテーションをしてもらうときに重要な点として、「アノテーションのルールを明確にすること」を挙げた。
「こういうときはこうするという基本的なパターンだけでなく、例外のパターンも依頼者が定義しておく。こうして、どんなときもルールを読めば作業ができるようにすることが重要」だという。
ちなみにABEJAでは、アノテーション付けの作業において、作業者のほかにレビュワーを配置し、作業内容をチェックする体制を作っている。チェックの結果、問題が発覚したら作業をやり直す。1人の作業では終わらないように工程を組むことで、作業の質を確保している。
ちなみに2018年12月に米Amazon Web Servicesが、「Amazon SageMaker Ground Truth」というサービスの提供を始めた。ABEJA Platform Annotationと同様、データにアノテーションを付けてくれるサービスだ。椎橋氏は「間取り図解析のための教師データを作成しているときは、まだこのサービスは登場していなかったが、現在なら選択肢の1つとして検討すべきサービス」だと語っている。
【次ページ】人間の骨格を推定するモデルを転用して壁や柱を推定
関連タグ