リクルートのディープラーニングを用いた画像解析

リクルートテクノロジーズの白井さんから、リクルートのサービスに畳み込みニューラルネットワークを初めとする画像解析の取り組みと苦労、そのアプローチについての技術報告セッションがありました。ホットペッパービューティーのネイルの類似画像検索、エロやグロなどの不適切画像の検出など、既にサービスインされているものがありました。

beauty.hotpepper.jp

僕もおそ松さんで経験しているのですが、精度が高い画像解析を実現するためには、正しいデータセットを作ることが大事です。さまざまなツールを使って効率化することはできますが、結局は人手でやるしかありません。その過程で、データセットを作る人が、その事柄についてとても詳しくなるという副産物がありますｗ

例えば、ホットペッパービューティーのネイル画像の類似検索では、デザインが似ているものを結果として出したいので、ネイルのデザインを見て、ひたすらタグ付をする必要があるとか。人手を集めて、男ばかりでコツコツをラベリングしていったそうです。その結果、合コンに行くと、「あの娘のネイルは○○だ！」と分かってしまい、ネタになるらしいw その努力を知ってからホットペッパービューティーのサイトを見ると、あの涙ぐましい努力の成果か・・・と思ってすごく思えます。

f:id:bohemian916:20151126172436p:plain

エロ、グロ画像のデータセット作成は苦労されたそうです・・・ 3年ほど前、Googleのエログロ対応の不適切画像のチェック担当者が、こういう画像を見させ続けられて過酷な環境だ、とインタビューしていたのを思い出しました。

www.j-cast.com

人工知能で5年は先に行っているGoogleなら、毎日担当者が不適切画像をチェックすることは少なくなったと思います、その代わりにタグ付けを行う人、具体的には画像処理エンジニア、もしくはクラウドソーシングで依頼を受けた人が行う時代になっていると思います。

これだけディープラーニングでできることが拡大しても、結局人手でやらざるを得ない泥臭い部分はあるものです。

自然言語解析とディープラーニング

こちらの特別セッションは、東北大の岡崎先生、PFIの海野さんのお二人のセッションでした。自然言語解析は門外漢なので、今までの発表を聞いていてもあまり理解できていない状態でした。なんかword2vecとかskip-gram, 共起という言葉がよくでてくるのでなんとなく覚えていたレベルでした。そんな僕にとって、岡崎先生の講演はとてもわかりやすかったです。

単語・区の分散表現と学習

今の言語処理の分野では、「その単語の周辺を見れば、その単語の意味が推測できる」という仮説にもとづく手法が主流みたいです。英語の授業で、「意味がわからない単語があったら、前後の文脈から推測する」、という説明がしっくりきました。 word2vecはすごい面白い！
単語をword2vecでベクトルにし、演算することで、アナロジーが可能となる。例えば

king - man + woman = queen
モスクワ - ロシア + 日本 = 東京

など、前者だと王、後者だと首都という概念が理解できているように振る舞う。すごい。

最近の流れをざっくり理解するのにとても分かりやすかったです。

単語・句の分散表現の学習 from Naoaki Okazaki

www.slideshare.net

Chainerを用いたディープラーニングにおける自然言語解析

PFIの海野さんのchainer解説でした。当日がv1.5のリリース日でもあり、裏でリリースされていたようです。 v1.5は今までとモデルの書き方、保存方法、インストール時のライブラリ依存などが大きく変わったリリースのようです。今までのchainerには、実は生成したモデルのsave,loadはついておらず、pickleでスナップショットを保存しているだけでした。ですのでバージョンが変わりモデルの記述方法が変わると、過去のバージョンで作成したモデルが使えなくなることが度々でした。 v1.5からは、HDF5によるシリアライズがサポートされたので、そういうことはないようにするみたいです。

Chainerの使い方と自然言語処理への応用 from Yuya Unno

www.slideshare.net

アップグレードしてみたのですが、依存パッケージとかいろいろ変わってて苦労した・・・　こんな手順でできました

海野さんは、例の青い本シリーズの「オンライン機械学習」の著者の一人でもあります。