Data Engineering and Data Analysis Workshop #9 を開催しました

こんにちは、株式会社サイバーエージェント　秋葉原ラボの武内慎です。
今回は2019年11月7日に行われた「Data Engineering and Data Analysis Workshop #9」のレポートをお届けします。

秋葉原ラボは「分散システム・検索・機械学習・データマイニングなどを扱う研究開発組織」です。「Data Engineering and Data Analysis Workshop」は秋葉原ラボの所属メンバーが中心となって開催する勉強会で、サイバーエージェントのデータ分析基盤とデータ活用、及びそれらのための技術をテーマにしています。

前回の第8回では、秋葉原ラボの内藤遥より「Sparkを活用した推薦基盤のバッチフレームワーク」、ヤフー株式会社 Roman Shtykh 様より、「Apache IgniteとApache Sparkの統合によるHTAP活用」、LINE株式会社吉永尊洸様より、「継続的インテグレーションによる超高速Spark SQL UDF開発の現場徹底入門」のタイトルでそれぞれ発表が行われました。こちらに第8回のレポートがありますので、ご興味をお持ちの方はご覧ください。
第9回の開催を迎えた今回は、弊社AI事業本部及び、早稲田大学からもスピーカーをお招きして、「コンピュータビジョンと機械学習技術」をテーマにお話頂きました。それでは当日の様子や資料も交えて、発表内容をお伝えします。

発表内容

マッチングサービスの画像審査における機械学習の応用

秋葉原ラボの上岡将也より、マッチングサービスタップル誕生の画像審査における機械学習の応用について発表がありました。

タップル誕生では、ユーザーに自身の顔写真をプロフィール画像として登録していただくのですが、なりすましや写真の悪用などを防ぎ、またユーザー体験を向上させるため、登録された画像の審査を行っています。そのため、審査には厳密な基準が設定されており、それに基づく審査の自動化は、円滑なサービス提供のために不可欠でした。
本発表では、機械学習を用いたプロフィール画像審査の自動化への取り組みをもとに、その開発プロセスや実社会へ機械学習を応用するときの課題と工夫が紹介されました。特に、機械学習の研究分野では「解きたい問題」や「データセット」が決まっていることが多いのに対して、実社会への応用においてはこれらの要素が状況に応じて変化していくものであり、それに対する課題と解決策の具体例がいくつか解説されていますので、ぜひ以下の資料をご覧ください。

広告クリエイティブ制作におけるコンピュータビジョンとグラフィックデザイン

弊社AI事業本部大田和寛からは、デジタル広告のクリエイティブ画像制作に関する課題や関連技術、昨今の社会的事例について発表がありました。

デジタル広告は、個々人に向けたターゲティング配信が可能であるため、広告効果を上げていくために究極的にはn人に対してn通りのクリエイティブを作るということが必要になってきます。大田の所属するAI Lab Creative Researchでは、それをAIを用いて解決するための研究を行なっており、本発表では、その関連技術・研究として、広告以外も含めたグラフィックデザイン生成の研究、CTR予測、広告の作成支援、バナー広告の理解等、幅広い分野の紹介がありました。CTR予測に関しては、クリエイティブ画像も入力データとするようなモデルや、配信メディア毎の差異を分析した研究等が紹介されました。画像生成や理解に関しては、AIの得意な部分を上手く課題解決に活かす研究がいくつか紹介されました。例えば、AIでゼロから何かを自動生成することは難しいのですが、教師データを用いて新しい画像生成を効率化することは得意なため、広告画像に多く存在する手の画像を用いて自由な形の手の画像生成する研究等がありました。他にも興味深い研究が紹介されていますので、ぜひ資料をご覧ください。

広告クリエイティブ制作におけるコンピュータビジョングラフィックデザイン CA Data Engineering & Data Analysis WS #9 from Kazuhiro Ota

類似画像検索の評価とデータ収集

早稲田大学富樫陸様からは、類似画像検索のオフライン評価と収集データ削減について、お話頂きました。

本発表では、類似画像検索の定義を「アプリケーションで定義される類似度における画像検索」とし、実応用における類似画像検索の評価に関する問題と、それを解決する為の取り組みについて解説いただきました。
類似画像検索の見た目に関する評価のためにはセマンティックラベルだけでは足りず、別のデータを集める必要があります。そこで、あるクエリ画像に対して評価プールとして画像群を用意し、ユーザーに対して評価プール内の2画像のうちどちらがより適合かを選ばせた結果(Pairwiseデータ)を集め、それを評価に用いるということを考えます。しかしこの際、全ての組み合わせのデータを収集しようとすると比較回数が膨大になる問題や、推移性(Transitivity)をどう保証するかの問題があり、それらを解決するための確率モデルや、推定結果の信頼性を測る手段についての紹介がありました。また、半自動評価や人間による評価でラベルを補正する方法についても言及されていました。

おわりに

「Data Engineering and Data Analysis Workshop」は、今後も3ヶ月に1回程度のペースで開催していく予定です。秋葉原ラボの勉強会にご興味をお持ちになった方は、ぜひともconnpassのCyberAgentグループをチェックしてみてください。

Designing Visual Stories at Ameba

企業合同プロコンを主催しました