Data Engineering and Data Analysis Workshop #6 を開催しました

こんにちは。秋葉原ラボの山本悠二です。今回は2018年10月5日に行われた「Data Engineering and Data Analysis Workshop #6」のレポートをお届けします。

いつもの前置きですが、秋葉原ラボは「分散システム・検索・機械学習・データマイニングなどを扱う研究開発組織」です。「Data Engineering and Data Analysis Workshop」は秋葉原ラボの所属メンバーが中心となって開催する勉強会で、サイバーエージェントのデータ分析基盤とデータ活用、及びそれらのための技術をテーマにしています。

第5回(前回)は、秋葉原ラボにおけるストリーム処理パイプラインの取り組み、Google I/O 2018でのML/AI関連技術、大規模データにおける機械学習のワークフローとシステム構成にまつわる発表がありました。こちらに第5回のレポートがありますのでご興味がある方は併せてご覧ください。

さて第6回目となる今回は「データ利活用最前線」というテーマを設けて、各業界でのデータ利活用事例を紹介していただきました。それでは当日の様子や資料も交えて、発表内容をお伝えします。

発表内容

番組宣伝に関するAbemaTV分析事例の紹介

秋葉原ラボのTrivittayasil Vipaveeより、AbemaTVの番組宣伝動画をどのリアルタイム放送のコマーシャル時間に流すかについての分析事例の紹介がありました。

AbemaTVの番組宣伝(以下番宣)とは、ニュースやアニメといったチャンネルを選択して見られる放送(リアルタイム放送)のコマーシャル中に流れる番組宣伝動画のことです。AbemaTVを見ていて、画面の下に「この番組の通知を受け取る」というボタンが出てくるコマーシャルを見たことがある方も多いかと思いますが、それが番宣です。

では、ある番宣をどの番組のコマーシャル枠に流せばよいでしょうか? 番宣-番組間の相性のよさをうまく指標化できれば番組配信枠の推薦ができそうです。この発表では、コンテンツや時間帯の類似度とコンバージョン率との関係性を求めることで、番宣-番組間の相性のよさを指標化しています。検証データや類似度計算の工夫についても解説がありますので、ぜひ以下の資料をご覧ください。

番組宣伝に関するAbemaTV分析事例の紹介 from cyberagent

Farmnote が技術で牛と人をつなげるまで

株式会社ファームノート河野信輝さまより、株式会社ファームノートにおけるデータ分析およびデータ基盤の変遷についての紹介がありました。

株式会社ファームノートは、酪農(乳牛)・畜産(肉牛)向けの牛群管理システムの開発・提供を事業しています。このシステムは、牛の発情・繁殖・治療などの活動をスマートフォンやタブレット経由で記録・管理し、リアルタイムに情報を共有できるそうです。

さて、ファームノートでのデータ分析についてですが、Farmnote Colorという牛の活動情報を収集して解析するプロダクトに関するものが紹介されました。これは牛に加速度センサーを取り付けることで発情などの活動を検知するというものです。ちなみに、この分析を行うためのデータ基盤に関して試行錯誤があったようです。初期はシングルノードのSparkを立てていたそうですが、スケールアウトに限界があることからGCPのDataprocに移行したそうです。さらにDataprocからDataflowに移行することでクラスタ管理の手間が省けた上に、コードのどの箇所がどれくらい時間がかかっているかなどの追跡が容易になったそうです。アーキテクチャー図や今後の展望については以下の資料に記載がありますので、ぜひご覧ください。

Farmnote が技術で牛と人をつなげるまで – Data engineering and data analysis workshop #6 from Nobuteru Kawano

AWAにおけるデータ利活用の取り組みと今後の展望

秋葉原ラボの水上裕貴より、AWAと秋葉原ラボにおけるデータ利活用について紹介がありました。

AWAと秋葉原ラボにおける取り組みを簡単に取り上げますと、予測・集計の定期バッチ化やKPIダッシュボードの提供といったサービス現状を把握するものに加えて、プロモーション企画(「#写真で音楽をおしえて」)のロジック提供、類似プレイリスト探索システムの提供といったサービスの成長に関わるものまで多岐に渡ります。この発表では特に類似プレイリスト探索システムついて解説がありました。

類似プレイリスト探索の基本的なやり方は次のとおりです。プレイリストをItemとみなすと、類似プレイリスト探索は似たItemを見つけることに相当します。また、プレイリストはトラック(楽曲)の列で構成されていますが、各トラックの分散表現ベクトルは事前に計算しておきます。そして、プレイリストを特徴付けるベクトルは、その構成要素であるトラック群の分散表現ベクトルを用いて表す(具体的には重心を取る)こととします。このようにするとリアルタイムで問い合わせが来るプレイリストに関してもほぼ待ち時間なく特徴ベクトルを得ることができます。この特徴ベクトルを元に最近傍探索を行い、探索結果として得られる最近傍点に対応するプレイリストを返すことで類似プレイリスト探索が実現できるという仕組みです。

なお、実際のシステムでは、計算対象のスクリーニングや直積量子化に基づく近傍探索といった細かい工夫が施されています。この辺の詳細や課題については、以下の資料に説明がありますので、ぜひご覧ください。

Interactive Sayaの実現に向けたR&D活動について

株式会社博報堂の藤原晴雄さまより、インタラクティブ技術のR&DプロジェクトであるSaya Projectについての紹介がありました。

このプロジェクトはリアルなレンダリングで有名になったフルCGの女子高生キャラクターSayaをインタラクティブ化するというものです。成果としてテクノロジー・スタートアップ・イベントであるSXSW 2018で作品展示を行ったそうです。これは98インチの縦置き4Kモニタの前に立っている体験者の顔の表情をリアルタイムで読み取った上で、その様相に基づいて目の前にあるSayaの映像をチェンジさせることでインタラクティブなUXを提供するというものでした。

直近ではウェブやモバイルでも動かしたいという課題に取り組むべく表情認識モデルの軽量化・高速化を行っているそうです。SXSW 2018の際に利用した表情認識モデルではVGG16をFine-Tuningしたものでしたが、MobileNetベースに変更することでモデルの軽量化やFPSの向上などが実現できたそうです。以下の資料にシステム構成やMobileNetの解説がありますので、ぜひご覧ください。

Saya Projectの感情スコア推定モデル from Haruo Fujiwara

おわりに

「Data Engineering and Data Analysis Workshop」は、今後も3ヶ月に1回程度のペースで開催していく予定です。次回は12月ごろ実施予定です。ご興味をお持ちになった方は、ぜひともconnpassのCyberAgentグループをチェックしてみてください。

アドテクスタジオのインターン「アドテクコンペ」を開催しました

アドテク×開発プロセス「オレシカナイトvol.8」レポート