Deep learning

ディープラーニングによる画像解析

リクルート、人工知能のビジネス実用化の現場で起きていることと次の一手(前編)

囲碁で韓国のイ・セドル九段を打ち負かした「AlphaGo」、日経「星新一賞」の一次審査を通過した「きまぐれ人工知能プロジェクト作家ですのよ」など、話題に事欠かない“人工知能”。その技術は日進月歩で高度化しているように思え、近い将来、ビジネスの現場においては高付加価値の仕事も担ってくれるようになるのでは、との期待感が高まります。

すでにリクルートでは人工知能技術の実用化プロジェクトが進行中。読者も使ったことがあるであろうWebサービスの新機能にも活かされ、現場ではワークフローの大幅な効率化が実現されているといいます。

そこで今回は、実用化プロジェクトのディレクターを務める西條晃平さんに、人工知能技術の実用化の最新の状況と、現場で起きていること、そして次の一手について伺います。

大規模サービスにおける人工知能技術の実用化に関心をお持ちの方は要注目です!

聞き手/構成:岡徳之(Livit) 編集/写真:小川楓太(NEWPEACE Inc.)

実用化で分かった人工知能の真髄

—— リクルートにおける人工知能技術の実用化の動きについてお聞かせください。

西條 はい。リクルートテクノロジーズが開発した人工知能技術を、私が所属するリクルートライフスタイルで各サービスに組み込んで実用化し、すでにいくつかの新しい機能を提供しています。
幅広い人工知能技術のなかでも、特に「画像解析技術」の実用化に注力しており、その過程では、現在の第三次人工知能ブームの火付け役にもなった「ディープラーニング」の技術も用いられています。
例えば、美容予約サイトの『ホットペッパービューティー』。このサービスの裏側には、“画像のなかに何が写っているのか”を解析し認識する技術が活用されています。

—— 画像解析技術は各サービスのどのような機能に活かされているのでしょうか。

西條 例えば、『ホットペッパービューティー』のネイルカタログに「ネイルの写真」をアップロードしたとします。すると、それが「フレンチ」なのか、それとも「グラデーション」なのか、どちらの写真らしいかをコンピュータが判断して、保存しておくのです。これまでは人力でリソースが足りず行き届いていないこともありましたが、ネイルの属性を保存して持っておくことで、写真の中に写っているネイルが、他のネイル画像とどれだけ似ているのかを判別することができるようになります。この機能を用いれば、日々画像をアップロードしていくことで、自動的に似ているネイルがレコメンドされる仕組みが作れるわけです。将来的にはこの機能を『じゃらん』や『ホットペッパーグルメ』など、他のサービスでも活用できるようにしていきたいと考えています。
この技術は実は汎用的で、『ホットペッパービューティー』のネイルカタログはもちろん、キュレーションサイトの『ギャザリー』にも活かされています。不特定かつ多数いるサービスのユーザーが、不適切な画像をアップロードしていないかを自動で判断する機能として応用されています。

—— 人間と同じようなレベルで画像の良し悪しについて判断を下すというのは、コンピュータに可能なのでしょうか。

西條 むしろ、人間より得意と言ってもいいかもしれません。例えば、ある画像を見て、人がそれを「良い」と感じたとします。しかし、「それがなぜ良いと思ったのか」、その理由を説明するのは、実は人にとっては難しいこと。なので、良し悪しの定義や基準はどうしても曖昧なものになってしまいます。「良い」という評価は、とても「感覚」的だからです。
感覚というものは、いろんなものが複合的に組み合わさってかたち作られます。しかも、それらを良いと感じるかは人によってまちまち。つまり、「良い」かどうかをルールベースで判断しようとすると、いつか「組み合わせ爆発」が起こり、限界が来てしまうのです。
ディープラーニングなら、より人間に近い判断ができるようになりました。さらに「感覚」をルールの定義によってではなく、学習によって定義できるようになったんです。「この画像が多くの人に良いと思われている理由はこれです」と、「人間が上手く表現できないことを、論理的に説明し、解を提示してくれる」というのは、人工知能技術の真髄かもしれません。

画像の次は「文字」解析、ますます向上するビジネスの生産性

—— 画像解析技術をもつコンピュータは、どのようにして画像の種類を自動で判断できるようになるのでしょうか。

西條 「人の手が介在するやり方」と「まったく介在しないやり方」とがあります。
私たちが採っている前者のやり方では、まず画像(例えば、ネイルの写真)と、その定義(例えば、グラデーションというタグ)をコンピュータに入力します。その後、グラデーションのデザインの写真や、まったく関係のない写真をアップロードし、コンピュータが判断するのを待ちます。その判断に対して、人が「合っている、合っていない」とフィードバックする。そうするうち、コンピュータは自ら学習し、徐々に判断の精度が高まっていきます。
一方、人の手がまったく介在しないやり方では、例えば、『じゃらんnet』のホテルの紹介ページに適当な画像(一部はホテルの部屋の写真、一部はまったく関係のないネコの写真など)を複数アップロードしておく。そしてコンピュータが、「それらのうち、どの画像がユーザーのクリックや予約につながったか」というデータに基づいて自ら学習し、判断の精度を高めていくというものが考えられます。しかしこのやり方だと、一時的にでもサービスの質が低くなってしまうおそれがあるため私たちは採用していませんが、人の手が介在することはなくなります。

—— いずれにせよ、ワークフローの大幅な効率化につながりそうなことが伺えます。

西條 はい。もしくは、「そういうこと(サービスで取り扱う画像の最適化や、不適切な画像を削除すること)をやらないといけないことは認識していたけど、人の手での検閲が現実的でなかった」というジレンマを、こうした技術が解消しているとも言えます。 今後は、この技術を「画像」だけでなく、「文字」を解析する「OCR(光学文字認識)」にも応用できるでしょう。コンピュータが画像にふくまれる文字を識別することで、情報入力のスピード向上などの効率化を図ることができるようになるのです。

—— 現実的に、そうした高度な技術を開発、実用化するのには莫大なリソースが必要ではないでしょうか。

西條 はい。インフラの充実など、技術者が継続して技術を開発し続けられる環境が必要不可欠です。そのためには技術をいち早く実用化し、収益を生み出す必要があります。
その点、大規模なサービスを複数提供しているリクルートライフスタイルにはアドバンテージがあると思います。開発した新技術を、例えば『じゃらんnet』で活用することでホテルの予約率が1%だけでも向上すれば、それは大きな利益となり、それまでにかかっていたインフラ費用などを回収することができるからです。

—— しかし、仮にもう少し先の未来に、いま開発し、実用化している技術やソフトウェアがコモディティ化したとすれば、リクルートライフスタイルのアドバンテージは弱まってしまいませんか。

西條 そうですね。コモディティ化と同時に高度化が起これば、どのサービスにも優れた人工知能が実装され、似たり寄ったりになってしまうかもしれません。しかも、そうした優れた技術が誰にでも使いこなせるようなソフトウェアとして登場したとすれば、私のような技術とサービスの間にいて、そのどちらもわかる人材が要らなくなることすらあり得る。
しかし、それでもきっと、使われるサービスとそうでないサービス、使われるサービスを生み出せる人とそうでない人に分かれてくると思います。

—— その差を生み出すものは何でしょうか。



後編では、人工知能の技術やソフトウェアが社会に広く浸透したとき、それでも良いサービスを生み出せる技術者になるうえで求められる「ノウハウ」や「スタンス」についてお聞きします。



次回「『人が好き』は強みになる、人工知能時代に活躍できるエンジニア像とは」

西條 晃平

(UXデザイングループ)

1989年生まれ、2012年リクルート入社。『じゃらんゴルフ』の開発ディレクション及び開発を担当。その後新規事業を企画提案するプロダクト開発グループに異動。画像解析技術を使った新規案件を提案し、リクルート内でのプラットフォーム化を推進中。画像解析を利用し、サービスの非連続な成長/新しいUXの実現に取り組んでいる。

NEXT