研究者紹介

画像認識技術ロボットに
『何がどこにあるか』を理解させる

コラボレイティブAI部門 ファン クォク ヴェト

2012年入社 情報理工学専攻

深層学習を利用して画像領域を分割する

私が取り組んでいるのは、ディープラーニング/深層学習を利用して画像領域を分割する研究です。具体的に言うと、カメラで撮影された画像の中から物体を認識して抽出する技術です。例えば下の写真の中で、この部分は一人の人、この部分は一匹の犬、そしてこの部分は別の一人の人というように、写真の中の動物や物を他と区別して理解できるようになります。この技術が役に立つ場面は、たとえば物流会社のピッキングロボットが『何がどこにあるか』を理解する時です。この技術があれば、ピッキングロボットは装備したカメラで箱の中を撮影し、撮影画像から箱の中に商品Aと商品Bがあることを理解することができます。正しく理解できれば、ピッキング作業も正しく行うとことができます。箱の中で商品が重なっていて、その一部しかカメラで捉えることができなくても、それぞれの商品を正しく理解できます。物流業界では、ロボットによる業務の自動化が着実に進んでいます。

画像認識技術の図

成功にたどり着くまで何百回も実験を繰り返す

深層学習では、数多くの事例から学習させます。読み込ませる画像は数万枚の規模になるので、たくさんのGPUが搭載されたサーバで最低でも1日、場合によっては1週間、計算し続けることになります。サーバに計算させている間は、他の受託研究や論文のサーベイをしています。結果を待つのは楽しいですね。ただ、深層学習の世界では皆そうですが、基本的に失敗の繰り返しです。数多くの要素、パラメータがあるので、思い通りの結果が出なかった時に、その理由を考えるのは大変です。ですから、自分の開発した手法が実験で初めて成功したときには、大きな達成感がありました。もちろん、私もそこまでたどり着くのに数百回の失敗をしました。研究開発センターでこのテーマを始めたのは私ですが、現在、論文を書いて製品に実装させる段階に来ています。応用先はロボットやスーパーマーケットの商品管理などです。事業化を目前にしたタイミングで仲間が増え、一緒に研究開発を進めています。

ファン クォク ヴェトの写真

毎日論文をサーベイ

大学の博士課程では単純な画像処理を専攻していました。東芝に入って2年間は画像処理の研究を続け、3年目にから勉強しながら機械学習の研究を開始しました。本格的に機械学習に取り組んでいるのはこの5年で、さらに深層学習/ディープラーニングを始めたのは3年ほど前からです。大学時代はまだ普及していなかったのですが、現在の学会や研究会では深層学習一色ですね。他の手法と比較にならないほど深層学習を利用している状況です。技術が急激に発展する時に研究に取り組めて本当に良かったと思います。その反面、競争はとても激しいです。毎日論文サーベイをしていますが、1日に数十本の新しい論文が発表されています。画像認識の最高性能もほぼ毎月更新されています。今自分がベストの結果を出したとしても、毎月どこかの大学や研究室に抜かれます。ですから、追いつくのはとても大変です。この世界はソースコードを公開するのが通例なので、自分の手法を差異化させる方法も考えなければなりません。性能だけではなく、ハードウエア構成を簡便にするといった工夫もしなければいけません。ロボットへの実装など、製品化するにはコストも考えないといけないですね。

ファン クォク ヴェトの写真

学生の皆さんに一言

『やりたいことを、早めに見つけましょう!』

ファン クォク ヴェトの写真

20代、特に学生の時は一番元気な時。時間も健康も集中力も最高の状態ですから、その最高の状態で自分のやりたいことを早めにみつけて欲しいです。深層学習/ディープラーニングの分野で毎日新しいトレンドを作っているのは若手研究者です。研究だけでなく、ベトナムの友達はアメリカで大学に在籍しながら自分のスタートアップ会社を立ち上げました。学生の時が一番元気でどんなことでもできます。30代40代になってからようやく自分のやりたいことを見つけても、家族や会社の理由で時間がなくなる。その矛盾がありますから、まだ学生のうちにベストな状態で自分のやりたいことを見つけて一所懸命頑張って下さい。