はじめまして、AI事業本部プリズムパートナーカンパニーでデータサイエンティストをしている金子です。

AI事業部本部では、近年も広告配信プロダクトをいくつか立ち上げており、それに伴い、複数人の中途や新卒のデータサイエンティストが参画してくれています。無論、技術的なオンボーディングプログラムを社内でも組んでおり、例えば効果検証であったり予測モデル構築であったりといったトピックを扱ったりはするのですが、このようなオンボーディングをしていく中で最近ある課題に直面しました。それは、広告におけるデータサイエンスの扱っているトピックの多様性と歴史の長さというものです。

広告領域におけるデータサイエンスの遷移

まず、 広告領域におけるトピックの多様性についてです。広告におけるデータサイエンス領域のリサーチがもっとも盛んであったのはおそらく2010 ~ 2015年の期間であったと思いますが、初期の興味は専ら予測モデルを中心としていました。例えば、CTR(クリック率)の予測モデルであったり、CVR(コンバージョン率)の予測モデル、付随してコンバージョンの遅れを考慮した予測モデルの補正などといったトピックが主でした。

このような研究の進展に伴い、興味は自然とこのようにして得られた予測値をどのように使うのか? という点に移っていきます。広告の入札はオークション形式で行われるため、この予測値をどのように値付けに反映していくかという問題であったり、時間を通じた制約付きの動的最適化問題、そこから発展して強化学習の応用などといった形で、予測から制御・最適化というより広いトピックを扱っていくようになっていきました。並行して、このような予測モデルや制御システムの評価をどのように行うかという効果検証であったり、クリエイティブの最適化、近年にはプライバシー領域への配慮といった新しく多様な領域へより進展を見せています。

これらをデータサイエンスの側面で整理すると、予測モデル、制御問題、強化学習、検定やABテストなどの効果検証といったデータサイエンス領域の多様かつ魅力的なトピックをカバーしていますが、一方でそれらを一人で概観するのは非常に困難な課題と言えます。

次に、広告領域におけるデータサイエンスの歴史の長さについてです。先程に言及した通り、広告におけるデータサイエンス領域のリサーチがもっとも盛んであった2010 ~ 2015年の期間の中でも、もっとも初期の論文で以下のような論文が挙げられます。

  • Chen, Ye, et al. “Real-time bidding algorithms for performance-based display ad allocation.” Proceedings of the 17th ACM SIGKDD international conference on Knowledge discovery and data mining. 2011.
  • He, Xinran, et al. “Practical lessons from predicting clicks on ads at facebook.” Proceedings of the eighth international workshop on data mining for online advertising. 2014.

これらの論文は広告実務においては基礎的かつ実用的で、私も新卒入社した時に当時のトレーナーから読むように言われて読んだものですが、その時はまだ3 ~ 5年前の論文でした。しかし、それから時が経ち、これらの論文は今では10年以上前の論文となってしまいましたが、これらの論文で紹介された手法や問題系の価値は時を経ても決して失われていません。具体的には、あるトピックではより発展的な課題としてアップデートされていることもあり、またあるトピックではいい意味での「枯れた技術」として使われることもあります。例えば、初期に提案されたロジスティック回帰によるCTR予測モデルは、DSPなどの推論制約の厳しさを考慮すると、パフォーマンスや実装の簡易性を考えると現在でも十分に採用の価値はあるでしょう。

そして、このような変化が起きている中で、最近広告実務に取り組み始めたデータサイエンティストが過去の基礎論文を読んで枯れた技術とそうでない技術を識別して適切に知見を得ることは、非常に難易度が高いでしょう。また、社内実務において使われている手法がこのような研究の蓄積の中でどのような経緯で採用され、あるいは技術的改善やチャレンジの余地があるかを判断することも困難でしょう。さらには、誤解を恐れずに言えば、このような分野の成熟とともに基礎的なことはやり尽くされていくにつれ、実応用が困難であるような研究が増えていきます。そのような点を考慮すると、実務のデータサイエンティストは近年の研究を参照しても、どの手法が実用的かそうでないかを判別することは更に困難となります。

それでは、どのようにして新しいメンバーに適切な知識の伝達や継承を行っていくべきでしょうか? 例えば、プロダクトごとにこのようなオンボーディングをやってもいいのですが、このようなプログラムを組織するのは大変です。さらには、このようなプログラムを構築できるようなメンバーもあまり多くはありません。そこで、今回、わたしたちの部署では広告配信プロダクト所属のデータサイエンティストで広告領域の論文の輪読会を行いました。目的は以下の3点です。

  • 新規メンバーと基礎的な知識基盤を共有し、現在のシステムの理論的背景への理解を深める
  • 組織として重要な技術的知見を再定義し、共通の理解基盤を構築する
  • その上で、最新の技術動向をキャッチアップし、今後の技術選定や改善提案に活かせる知見を得る

このような目的で、具体の構成や選定論文は後述しますが、KDDやSIGIR等のトップカンファレンスやCIKM等の主要カンファレンスからあえて2018年以降のpaperを選定し、全9回で輪読会を構成しました。これは、前述の広告領域における多様なトピックを内包しつつ、最新の技術動向をキャッチアップするという目的に即したものです。しかし、これでは前述したような広告実務における基礎的な2018年以前の基礎論文の知識は得られず、新規メンバーとの基礎的な知識基盤の共有が達成できません。そこで、この輪読会用に2018年以前の基礎的な知識基盤のまとめを行ったスライドを私が作成し、各回の2週間前にイントロスライドとして配布するようにしました。これは結果的に300pほどのスライドとなりました。

さて、今回はこの技術ブログにおいて輪読会の発表スライドおよびイントロスライドを全て公開します。私が述べてきたようなことと同じ課題感を持っている方々に届き、フィードバックがいただければ嬉しいです。また、広告配信領域におけるLLM以外の技術トピックの概観に、あるいは広告事業のデータサイエンティストとして同じ課題を持つ人の参考になることを願っています。

締めくくりとして、広告におけるLLMの話が出てくるのはまだまだこれからだと思いますが、すでにその萌芽は見られています。先日、WSDMに参加してきたのですが、Industry TrackではGoogleがGoogle Adsにおける広告審査パイプラインへの適用について扱っていました。(Luo, et al. [2025]) このようなLLMの広告への適用が進む中で、私もより次のtopicについても学び、実践に繋げていきたいと思っています。

  • 全イントロスライド
  • 第1回: 予測モデル
    • Intro: 予測モデルの進展(LR → FFM → DeepFM → DeepFFM), cookieの廃止に伴う予測モデルの変化とMLOpsの課題
    • paper: Škrlj, Blaž, et al. “A Bag of Tricks for Scaling CPU-based Deep FFMs to more than 300m Predictions per Second.” (AdKDD 2024).
  • 第2回: CVR予測モデルの応用トピック
    • Intro: 遅れCVモデル& selection bias ; Chapelle & Zhang et al(2016)まで
    • paper : Entire Space Multi-Task Model: An Effective Approach for Estimating Post-Click Conversion Rate(SIGIR ’18)
  • 第3回: 値付け, Bid shading
    • Intro: Pricing周りの根拠と進展; First Price Auctionへの移行
    • paper: Gligorijevic, Djordje, et al. “Bid shading in the brave new world of first-price auctions.” Proceedings of the 29th ACM International Conference on Information & Knowledge Management. 2020.(CIKM 2020)
  • 第4回: Bid Land scape、winrate予測
    • Intro: winrate予測、bid land scapeとは?
    • paper: Ren, Kan, et al. “Deep landscape forecasting for real-time bidding advertising.” Proceedings of the 25th ACM SIGKDD international conference on knowledge discovery & data mining. 2019. (KDD 2019)
  • 第5回: Pacing; 予算制約内の最適化問題
    • Intro: フィードバック制御からより洗練された予算最適化へ : Feedback control of real-time display advertising(WSDM 2016) and Real-Time Bidding by Reinforcement Learning in Display Advertising by Han Cai et al. WSDM 2017 まで
    • paper: Wu, Di, et al. “Budget constrained bidding by model-free reinforcement learning in display advertising.” Proceedings of the 27th ACM International Conference on Information and Knowledge Management. 2018.(2018 CIKM)
  • 第6回: RL: 複数の広告主や複数のキャンペーンが存在する環境下での入札最適化問題: Optimal real-time bidding for display advertising まで
    • Intro: 予測と制御の統一と、意思決定問題としてのRL
    • paper: “Jin, Junqi, et al. “Real-time bidding with multi-agent reinforcement learning in display advertising.” Proceedings of the 27th ACM international conference on information and knowledge management. 2018(CIKM 2018)
  • 第7回: Creative
    • Intro: Thompson Samplingによるクリエイティブ最適化と、非定常性への敗北
    • paper: Fiez, Tanner, et al. “Best of three worlds: Adaptive experimentation for digital marketing in practice.” Proceedings of the ACM on Web Conference 2024. (WWW 2024)
  • 第8, 9回: AB testing
    • Intro: ABテストと発展トピック
    • paper
      • ABテストバスターズ
        • Kohavi, Ron, Alex Deng, and Lukas Vermeer. “A/B testing intuition busters: Common misunderstandings in online controlled experiments.” Proceedings of the 28th ACM SIGKDD Conference on Knowledge Discovery and Data Mining. 2022. (KDD 2022)
      • 予算付きABテスト
        • Liu, Min, Jialiang Mao, and Kang Kang. “Trustworthy and powerful online marketplace experimentation with budget-split design.” Proceedings of the 27th ACM SIGKDD Conference on Knowledge Discovery & Data Mining. 2021. (KDD 2021)
  • おまけ回: Look-alike Modeling
    • Intro: Look-alike Modelingの発展

参考文献

  • Chen, Ye, et al. “Real-time bidding algorithms for performance-based display ad allocation.” Proceedings of the 17th ACM SIGKDD international conference on Knowledge discovery and data mining. 2011.
  • He, Xinran, et al. “Practical lessons from predicting clicks on ads at facebook.” Proceedings of the eighth international workshop on data mining for online advertising. 2014.
  • Enming Luo, et al.  “Zero-Shot Image Moderation in Google Ads with LLM-Assisted Textual Descriptions and Cross-modal Co-embeddings.” In Proceedings of the Eighteenth ACM International Conference on Web Search and Data Mining 2025.