AbemaTVデータテクノロジーズの梅田です。今年の9月に短期インターンシップ「データコンペ2019」を実施しました。その紹介と次回の開催予告をしたいと思います。
データコンペってなに??
データコンペは、AbemaTVのログデータを使用して、実際のサービス課題を機械学習で解いていくイベントです。ログデータは、弊社社員が日常業務で取り扱っているものとほぼ同じ状態のものを提供しています。
今回は、AbemaTVの広告視聴数(impression数=imp数)を予測するモデルを作成し,その予測性能を競いました。
これまで開催してきたコンペでは、個人戦のみでしたが、今回から1日目は個人戦、2日目はチーム戦で実施しました。
ミッション説明
お題:AbemaTVの広告視聴数を予測せよ
はじめに、AbemaTVの広告について説明します。
- 運用について
通常の地上波テレビ局であれば、1チャンネルしかないので人力でCMを挿入することも可能です。
しかし、AbemaTVでは、現在20以上のチャンネルが24時間放送されています。
24時間体制で一つ一つマンパワーでCM挿入作業をするとなるとかなりの重労働になります。
そこで、AbemaTVでは広告自動配信システムでCMを配信しています。
- AbemaTVの広告商品について
AbemaTVのとある広告商品では、クライアントさまと「7日間で100万imp配信するので、出稿費として〇〇円いただきます。」という契約を結びます。
この”7日間で100万imp”を必ず守るように配信しなければなりません。そのため、クライアントさまとの契約の進捗状況を加味しながら、広告配信を行っていかなければなりません。そこで、imp予測の必要性が出てきます。
- 予測の精度について
imp予測の精度が悪いとどうなるのか。
上図のように、
・実際のimpよりも大きく予測した場合、クライアントさまと契約していたimpから立てた目標よりも実績が小さいため、ショート(契約違反)になってしまいます。
・実際のimpよりも小さく予測した場合、契約したimpよりも多くimpを出してしまうため、オーバーimp(弊社の機会損失)になってしまいます。
このように、AbemaTVの広告事業にとって、配信システムにおけるimp予測は非常に大事なミッションです。今回は、このimp予測という回帰問題に取り組んでもらい、その精度を競いました。
今回のイベントアピールポイント
今回は過去2回のデータコンペとは違う、3つの変更点がありました。
①配布データ量を増やした(4000万レコード以上で実施)
②分析サーバーを参加者人数分提供した
③チーム対抗戦を追加した
①は、普段あまり触れることができない非常に大きなデータを扱うことで、大規模データ処理の難しさを体感してもらうために実施しました。
②では、データ量を増やした関係上、ローカル環境で分析してもらうと持っているPCによって個人差が出てしまいます。そこで、今回は全員同スペックの環境を用意しました。
そして③。これまでは個人戦だけで行ってきましたが、今回はチーム対抗戦を2日目に追加しました。これは、チームで取り組むことによって、各々個人のもつアイデアの”シナジー”が生まれないか。そういった意図で今回チーム対抗を実施しました。
当日の様子
- 1日目
競技開始!!みんなもくもくと作業しています
各テーブルにメンターが一人ついて、しっかりサポートしました!
データ分析においては、ドメイン知識が非常に大切なので、活用してくれてよかったです。
おっと、暫定一位です!!
結果は。。。???
そのまま逃げ切り、優勝!!!のインターン生
1日目で多くの学生が、大規模データの取り扱いに苦戦していた様子。
参加してくれていたみんなにも、どっと疲労感が見られました。
明日大丈夫かなあ。。。といった感じ。
そんな中、明日のチームを発表!!!
でもただのチーム分けとは訳が違う。
そのチームになったのは、ちゃんと理由(わけ)がある。
3人よらば文殊の知恵。アンサンブルして、組み合わせの良い3人をチームにしました!!
チームも決まり、居酒屋でミーティングに行くもの、作業分担して家で作業するものなど行動は人さまざま。
2日目に期待です!
- 2日目
腹が減っては戦はできぬ。朝ごはんを用意しました。
メモリがなければ、メモリを増やせばいいじゃない。ボーナスタイム発動!!!
メンターも入って作戦会議!
Wi-Fiの不調にも弊社メンターは対応します!!
あれ??…なんか1日目より、楽しそうだぞ!!!
見よ。この一体感!!!
3・2・1…
終了!!!
結果発表の前に、感想戦。
みんなどんな感想をもったんでしょう??
みんな大変だったようですねw
実際の現場で直面するような問題を体感してもらえてよかったです。
タイトなスケジュールの中、よくがんばりました!!
- 結果発表
優勝したチームのインターン生
このチームは学習データの数を減らすことで、モデル構築の時間コストを削減し、その分特徴量エンジニアリングに時間をかける作戦をとったようです。
限られた時間の中で、結果をだすために、思い切って切り捨てる。
その思い切りのよさが今回の優勝に繋がったのかもしれません。
- 競技終了後
懇親会では、
「なんでこの会社を選んだんですか?」
「この会社とCA迷ってるんですけど。。。」
「大学の専攻と会社のやっていることはやはり合わせるべきですか?」
「コンペで本当はこんなアイデア実装したかったんです!!」
などなど。
就職活動や技術の話など、弊社スタッフも参考になることが多かったです。
懇親会集合写真
本当に2日間、お疲れ様でした!!
次回開催予告
第4回データコンペ開催の日程が確定しました!!
開催日:2020年3月26日(木) ~2020年3月27日(金)
エントリー締切:2020年2月16日(日)23:59
開催場所:【東京】サイバーエージェント東京オフィス Abema Towers セミナールーム
https://www.cyberagent.co.jp/careers/students/event/detail/id=24152
ふるってご応募ください。