3月24日、サイバーエージェントのエンジニア・クリエイターによる技術カンファレンス「CyberAgent Developer Conference 2022」を開催しました。本記事では、AI Lab リサーチサイエンティストの張培楠による「自然言語処理を用いた効果的な広告テキストの自動生成」の模様をお届けします。

インターネット広告の需要は年々増加の一途をたどっており、その激しい新陳代謝から人手によるクリエイティブ制作は限界を迎えています。さらに、近年の人工知能技術の成功から、広告クリエイティブ、特に自然言語処理技術を使った広告テキストの自動生成には大きな期待が寄せられています。本セッションでは、NAACLやEMNLPなどの難関国際会議にも採択され、AI Labと極プロダクトを中心に研究開発してきた、自然言語生成技術を用いた広告効果を考慮した広告テキストの自動生成手法と、その周辺の取り組みについてご紹介します。

■広告テキストの現状

●自動生成をめぐる背景

まずは、高品質な広告の自動生成に取り組む背景について説明します。背景としては「制作物の需要拡大」「制作リソースの枯渇」「人工知能技術の台頭」の3つが挙げられます。

制作物の需要拡大

下記のグラフが示す通り、インターネット広告は、この10年で約3倍もの規模に成長しています。そのうち、検索連動型広告、そしてディスプレイ広告を合わせた総広告費は、インターネット広告全体の約7割ものシェアを誇っています。

ディスプレイ広告とは、ウェブページの広告枠に表示される種類の広告です。主に行動履歴などからユーザーの趣味、嗜好に合うターゲティングがされており、画像やテキスト、もしくは動画といった、さまざまな表示形式が存在します。

検索連動型広告は検索エンジンで使用される広告です。ユーザーが何かを検索エンジンを使って検索するときに、入力するキーワードと広告主の設定したキーワードがマッチした場合に表示されます。こちらは基本的にテキストのみで構成されています。

制作リソースの枯渇

検索連動型広告を例にとると、検索キーワードは増加の一途をたどっており、調査によると、毎年、前年の約8パーセント前後で増え続け、2019年時点で2兆以上もの検索キーワードに到達するといわれています。膨大なキーワードの全てに対して、人手によって高品質な広告を制作することは非常に難しい実情があります。

人工知能技術の台頭

近年、多くの分野で人工知能技術を使ったブレイクスルーが起きています。例えば、2012年、画像から文字を認識するOCRコンペティションにおいて、Hintonらの研究チームが、深層学習を使った手法によって、既存手法に大差をつけて優勝しました。また、2017年には、DeepMind社の強化学習モデルのAlphaGoが、囲碁の当時の世界機種のレート1位の柯潔に勝利しました。さらに、1～2年ほど前にOpenAIの言語モデルのGTP-3がまるで人間が書いたような高精度で流暢な文章を生成できるようになっています。

こうした背景の下、高品質な広告の自動生成に取り組んでいます。

■高品質な広告とは

高品質な広告とはなんでしょうか。
例えば、以下の2つの広告のどちらがより高品質と言えるのでしょうか。

判断するための根拠などが少ないため、これだけだと判断しにくいかもしれません。では、どちらとも同じ回数だけ表示されているとていう前提で、左の広告が1000回クリックされていて、右のほうは10回クリックされているとするとどうでしょうか。
もちろん、よりクリックされる左のほうがより高品質であると考えることができます。

●品質確認のための判断指標

もうひとつ、例を提示します。

よりクリックされるほうがよい広告とするならば、ここで表示されている広告は、どちらがよりクリックされる可能性があるのでしょうか。

これらはすべて左のほうがクリックされるだろうという仮説を立てることができます。
上段の例において、左の広告文は自然で流暢な日本語である一方で、右は単語のつながりが不自然です。下段では、検索キーワードの「ウマ娘　ゲーム」に対して、左はPCゲームやソーシャルゲームといった、キーワードに対する関連性が高い情報が入っています。一方右はゲームではなく、テレビアニメに関するワードが表示されています。

絶対的な正解ではないものの、これらから「CTRやインプレッションといった広告配信実績」「出される広告テキストの自然さ・流暢さ」「広告と検索キーワードとの関連性」の3つの軸を品質確認のための指標として考えることができます。

■いかにして自動生成するか

次に、上で述べた指標を満たす広告を、自動で制作するためにはどうすればよいのかを考えていきたいと思います。

●基本的な広告運用のフロー

まずよくある広告運用のフローについて説明します。商品やサービスに紐づくランディングページの情報や関連するキーワードをもとに、広告クリエイターが広告を作成します。作られた広告は、検索連動型広告であればGoogleやYahoo!といった検索エンジンに配信されます。配信された広告に対して、ユーザーが何らかのアクション（表示やクリックなど）をすることによって得られた実績値をもとに、より効果の高い広告を作るためにさらに良い広告を作っていきます。
このフローにおいて自動化したいのは、商品情報から広告クリエイティブを作るという、クリエイターの役割に該当する部分です。

●自動化へのアプローチの歴史

広告制作の自動化は10年ほど前から、様々なアプローチが行われてきました。
ある程度のキーワードが挿入できるようなテンプレートを作り、そのテンプレートに対して適切なキーワードを挿入するテンプレートベースなアプローチ [Bartz+ 2008, Fujita+ 2010] もあれば、商品情報を説明した長い文章に対して構文木を作成し、適切に枝刈りすることで短い広告を作っていくアプローチ [Fujita+ 2010]もあります。また、LPから単語の連なりを抽出し、極性判定器でポジティブなものを取り出して、それを言語モデルに入れて広告文を作るというアプローチ [Thomaidou+ 2013] もあったりします。

●seq2seqの広告への応用と課題

2014年頃、テキストからテキストを生成する系列変換モデルであるseq2seq [Sutskever+ 2014] が登場し、機械翻訳、自動予約、対話処理といった、さまざまな分野で数々の成功を収めてきました。それは広告文生成の分野でも例に漏れず、多くの手法が登場しました。

対象のテキストが教師データとなり、それに近づくように学習します。しかし、これではCTRなどの広告の実績値は微分ができないことから計算グラフにうまく組み入れられないため、広告効果を考慮することができませんでした。

●SCSTの採用

一方、2017年にSCST [Rennie+ 2017] という一種の強化学習手法が提案されました。

従来のseq2seqで計算される損失関数と、サンプリングで得られる各単語やtokenに対する報酬を計算して、損失関数に同時に加えて最適化するという考え方です。SCSTを使うことで、非連続な広告の実績値なども報酬として考慮することができるようになります。

下図が広告文生成モデルの全体図です。

左上の点線で囲われた部分が報酬になります。前述した高品質と定義した指標を報酬に組み込みました。例えば、「広告配信実績 (QS)」では、生成結果に対して、過去の広告配信で得られた実績データで訓練した回帰モデルによる推定値を算出します。「自然さ、流暢さ (Flu)」では、生成結果に対して、言語モデルで広告らしさスコアを算出します。「検索キーワードとの関連性 (Rel)」では、検索キーワードと実際の生成結果の関連性、つまりどれぐらい生成結果が対象としているキーワードをカバーしているか、もしくは、キーワードの位置がどこにあるかといった情報を取り入れたりしています。
より詳しく知りたい方はプレスリリースや論文を参照していただければと思います。

こうして品質を考慮した広告文の自動生成モデルのひとつができあがりました。

■生成された広告の評価

このようにして作ったモデルを、正しく評価する方法を考えなければいけません。評価するための方法はいくつかありますが、大きくは「オフライン評価」と「オンライン評価」に分けられます。

●オフライン評価

オフライン評価は、ここでは実際に配信をせずに定められた指標で評価値を算出する方法と定義します。自動評価と人手評価があり、前者は人が今まで制作した広告テキストを正解として考え、実際に自動生成されたものと比較してスコアを出す方法です（今回は詳しい説明は省略します）。後者は、生成された広告テキストを人が直接見てスコアを付けていく方法です。
私たちは、実際に広告を作った人、広告クリエイターの人と、エンドユーザーを想定したクラウドソーシングで、流暢性 (Fluency)・魅力 (Attractiveness)・キーワードとの関連性 (Relevance) の3項目で評価しました（下表）。

「Reference」が人手による制作で、「Seq2seq」は強化学習を介さないノーマルなseq2seqモデル、「+Flu,QS」「+Flu,Rel」「+Flu,Rel,QS」は今回提案した強化学習による手法です。
結果を見てみると、流暢性に関しては強化学習を介さないノーマルなseq2seqが高めに出る傾向がありますが、魅力度や関連性に関しては、強化学習を使った提案手法のほうが高い結果となりました。

●オンライン評価

オンライン評価は、実際に広告配信を行い、その配信結果で評価する方法です。
評価軸として表示回数 (Impression) とクリック率 (CTR)、そして消費予算 (Cost) を使いました。こちらも、従来のseq2seqに比べて、今回の提案手法のほうが全ての軸で上回ることができました。

■人手評価のためのツール、FASTについて

今回提案した手法で、品質を考慮した広告テキスト生成という目的は達成できました。しかし、人工知能や自然言語処理の分野の技術はどんどん進歩しますし、実際に配信する広告も変化していきます。したがって、ここで止まることなく、改善し続けていく必要があります。改善のループをより高速・効率的に行うためのひとつのアプローチとして、人手評価を効率的に行うためのツール「FAST」を開発しました。

FAST：https://www.fast-annotation-tool.app/

●FASTの特徴

FASTでは、特にモバイルでの操作を重視しています。これまでも多種多様なアノテーションツールや、評価ツールが開発されてきましたが、PC用に作られているものが多く、モバイル用の画面があったとしても、モバイル最適化されていないものがほとんどでした。そこでFASTでは、モバイル操作に最適化し、スワイプやタップでかんたんにアノテーションできるようなUI、UXを目指しました。

●Fastと従来ツールの比較

FASTと従来のツールについて、作業効率 (Efficiency)、作業精度 (Quality)、使用感 (Usability) の3つの軸で比較してみました。

作業精度に関しては、従来のツールと大きな変化はありませんが、作業効率や使用感は、どちらもFASTが上回る結果となりました。

※なおFASTは「EMNLP2021」にて論文採択されています。
自然言語処理分野のトップカンファレンス「EMNLP 2021」の System Demonstration Track にて論文採択ーモバイル端末用の効率的なアノテーションツールを提案ー

■まとめ

今回紹介した内容は、極予測TD・極予測AIといった実際のプロダクトで検証・導入されており、今後は更なる品質の向上を求めていきたいと考えています。流暢性の部分はもちろん、広告として表現の幅も広げていきたいですし、忠実性も向上させていきたいです。また現時点では、ランディングページの上の文字をあまりちゃんと活用できておらず、今後は画像やレイアウトなどのいわゆるマルチモーダルな情報も使っていきたいと考えています。