こんにちは
三寒四温な日々が一段落し暖かくなってきた今日この頃、何度でもお花見がしたいメディア広告部門(MDH)アドテクノロジー局DSPチームの石橋です。
今回は先日開催された「オレシカナイトVol.5」の様子と次回開催されるVol.6の宣伝をさせていただきます。
今回のテーマは今流行りの「機械学習」ということもあり、定員を大幅に超える数の応募があり、非常に興味深い内容の多い発表となりました。
それでは順番にご紹介いたします!!
開会挨拶(株式会社AJA 小越 崇広)
まずは弊社小越より「オレシカナイト」と新設組織「PTA」について、ご紹介しました。
「オレシカナイト」とは「俺(オレ)達の屍(シカ)を超えていけナイト」の略称で、MDHのエンジニアが新規技術への挑戦・開発・運用を行うにあたって踏んできた地雷と、蓄積された知見を共有する会として始まった勉強会です。
現在では、パブリッシャーの視点から収益の拡大に加え、メディアの成長まで視野にいれた、当社メディア事業横断でのアドテク組織「Cyberagent Publisher adTechnology Association(略してPTA)」という新設の組織が主催となり、毎回異なるテーマをもとに実際のプロダクト開発から身をもって学んだことを共有する勉強会となっています。
また不定期開催だった「オレシカナイト」が2ヶ月に一度の開催となり、定期的な情報交流の場となりました!
公開と同時に席が埋まってしまう場合があるので、興味のある方は今すぐCompassをフォローしましょう!
https://cyberagent.connpass.com/
機械学習の推定精度向上のための変数作成方法 ~AbemaTVのユーザ属性推定~
(株式会社AbemaTV 阿部 昌利)
発表のトップバッターは今話題の「AbemaTV」より、本名もアベマの阿部 昌利さん!
発表内容としては「AbemaTV」の視聴ログから年齢や性別といったユーザー属性を推定するための説明変数をどうやって作成するかというお話でした。
機械学習をするにあたって予測に用いる説明変数をどのように決めるかとういう問題は誰しもが悩むところなのではないでしょうか。
その説明変数としてレスポンス・スタイルを用いるというのが今回の発表の中で一番面白いところでした。
レスポンス・スタイルとは、例を挙げると「日本人は中間回答を好み、極端回答を避ける」など回答されたデータそのものではなく回答の仕方に着目したものです。
「AbemaTV」の視聴ログから年をとるとザッピングをする時間が遅くなるのではないかという仮説のもとモデルを作成した結果、精度が向上したそうです。
「機械学習の説明変数は自由だ!」という言葉が印象的で、精度改善でもう一歩という場面でぜひ使ってみたいと思う内容でした。
RTBにおける落札率・落札額予測の話 (Dynalystカンパニー 川瀬 英俊)
続いては、スマホアプリに特化したDSPである「Dynalyst」の開発担当である川瀬さんから、落札率・落札額予測に関する発表でした。
RTBに馴染みが無いととっつきにくい内容ではあるのですが、落札率・落札額を知ることができれば市場状況の把握や効率の良い予算配分をすることが可能になる大事な指標です。
落札額は最高入札額と落札率を乗算した期待値で表されるので、上記の問題は入札額とビッドリクエストの情報を入力としたときの落札率の分布を求める問題と解釈することができます。
残念ながら発表スライドは公開することができないのですが、最終的に求められた落札率の分布は、単調減少する分布ではなく、非線形で効率の良い入札額が存在するような形をしていたのが印象的でした。
RTBの入札最適化における機械学習
(株式会社フリークアウト・ホールディングス 三原 秀司氏)
続きましては、株式会社フリークアウトの三原さんより現在のRTBの入札戦略における全体像についての発表でした。
最近DSPチームに入ったので知らなかったのですが、RTBにおけるセカンドプライスオークションのモデル化から入札戦略など様々な理論の論文がgithub上(https://github.com/wnzhang/rtb-papers)にまとまっているそうです。
嘘つくメトリクス(株式会社サイバーエージェント Tristan Irvine)
最後は我がMDHのTristanより、嘘つくメトリクスという題で予測モデルの性能を評価するにあたって、いい結果が出るものを単純に信じては行けないという内容の発表でした。
機械学習で作成した予測モデルを評価する場合、AUROC(AUC)などの指標に基づいてモデルの評価を行うかと思いますが、その結果が良いからといってそれをすぐに信じてはいけません。
自分が発表の中で印象に残っている内容が2つあります。
1つ目は、新しく作成したモデルのAUROCが0.7から0.99に改善した話です。実際に配信を行ってみるとCTRが12%から6%に落ちたそうです。これは学習データとして用いるClickログとImpログで特徴量として使うURLが異なっていたために非常に高い精度が出ていたようです。
あまりにも高すぎる性能を示す場合は学習データなどの前提条件を疑ったほうが良いという話でした。
2つ目は、アルゴリズムとKPIの相性に関する話です。
これまた新しいモデルを作成したところAUROCが0.75から0.77に改善したので配信に使用したら日販が下がったそうです。これは特定の属性に対してのみの予測精度が向上していたのですが、日販に直結するCTR予測では、全体の相対的な予測精度の方が大事であったからです。
結論として達成したいKPIとモデルの性能を測る上で様々な指標を用いるべきであるという教訓を得ました。
懇親 & LTタイム
最後は懇親会<タイムでした!
LTで発表していただいた株式会社Speee 畑中さん、MDHの久留、大澤の皆様ありがとうございました。
LTをしていただける方を常に募集しておりますので、ご興味のある方はぜひ!!
オレシカナイト Vol.6
そんなオレシカナイトのVol.6が2018年4月20日(金)に開催されます!!
次回のテーマは「レコメンドエンジン」
今からどんな発表が聞けるか楽しみですね!
参加希望の型は以下のURLからエントリーください!
https://cyberagent.connpass.com/event/83299/
みなさまのご来場お待ちしております。
Profile:
株式会社サイバーエージェント
メディア広告部門(MDH) ADテクノロジー局
サーバーサイドエンジニア
石橋弦樹