こんにちは。AI 事業本部 AIクリエイティブDiv でデータサイエンティストをしている川本(@shunyo_k)です。

今回は2021年度人工知能学会全国大会にて澤井(@tuxedocat)、脇本(@KoheiWakimoto)、張(@so1owingpixy)とアノテーションツールに関する発表を行いました。本記事では私達が開発したアノテーションツール「FAST」のご紹介と、その開発に至った経緯を説明いたします。

WebSite: https://www.fast-annotation-tool.app
Github: https://github.com/CyberAgent/fast-annotation-tool

FAST: スマートデバイス用の高速なアノテーションツール

私達はこれまでの既存ツールでは注目されていなかった、モバイル体験の UI/UX を重視したアノテーションツール「FASTを開発しました。

FAST はモバイル端末のポータビリティや作業の手軽さから、アノテーションの効率向上を目指したツールとなります。

FAST が対応するタスク

FAST では二値選択のカード式と、複数選択を想定したマルチラベル式の2つの UI を用意しています。

アノテーションの質問/回答はユーザが自由に設定でき、例えば、生成結果が崩壊しているかどうかの二値判定や、モデルのペアワイズ評価、データラベリング等のアノテーションに対応可能です。

現段階はテキストのみ対応していますが、今後は画像や音声、動画といったマルチメディア形式にも順次対応予定です。

FASTのユースケース

高速なアノテーションを実現する UI/UX

アノテーション効率向上のために、FAST ではモバイルを重視した UI/UX を採用しています。

特にスワイプ動作を主としたカード式 UI では、既存ツールと比較して約43%の時間でアノテーション可能であることが評価実験を通して確認できました。

開発者側のコスト削減

後述しますが、私達は継続的なアノテーションの運用を想定しており、アノテータの作業コストと同様に、開発者側の運用コストもできるだけ削減したいと考えています。

FAST では API 経由でデータのアップロードや結果の取得が可能で、生成結果の吐き出しから分析までシームレスに移行できます。

また、Firebase を使用したサーバーレスな設計にしているため、一度デプロイしてしまえば、その後の DB の増強や OS のアップデートは必要なく、ほぼ手放しで運用可能です。

Firebase は従量課金制であるためアノテーションツールのような低頻度アクセスのアプリではサーバーコストも非常に低く抑えられます。例えば月100万件のアノテーションをしたい場合、月額250円程度のコストで運用できます。

詳細なログ機能

アノテーションに関する詳細なログを取ることは、ツール自体の不具合の発見やアノテーション設計の見直しのきっかけになります。FAST では、ユーザのアクション(表示, 選択, 再選択, 決定)のタイムスタンプやユーザエージェント、画面の大きさといった詳細なログを取っています。

また Google Analytics とも連携可能なため、アノテーションしている場所やデバイス情報、イベント情報をリアルタイムに確認できます。

FAST 開発の裏側

今回 FAST は論文として発表しましたが、ツールの開発に踏み出した経緯は元々プロダクトで抱えていた課題に由来しています。本記事では、FAST の開発における背景についても紹介させていただきます。

クリエイティブ生成モデルの評価における課題

CyberAgent では広告クリエイティブの自動生成に力をいれています。広告文や人間モデルなど、生成に関わるドメインは多岐に渡ります。

私は広告文の自動生成モデルの開発に携わっており、モデルを改善していく中で「評価が非常に難しい」という壁にぶつかりました。このような課題はアカデミックな領域でも議論が活発な所ではありますが、そのベストプラクティスは未だ見つかっていません。

ここからは広告文生成タスクに焦点を絞って、もう少し課題を掘り下げてみます。

自動評価 < 人手評価となるシチュエーション

生成文の評価手法は大きく「自動評価」と「人手評価」に分けられます。

自動評価の例として、よく用いられる BLEU や ROUGE といった指標では、予め用意しておいたテストデータの入力に対し、どれだけ正解ラベルを再現できたかを評価します。

これらは評価コストが低く、大量のデータで評価できる点で優れていますが、そもそも人間の評価と差異があるという報告がされています。(参考: Best practices for the human evaluation of automatically generated text

特に広告文の生成タスクのような正解が多様に考えられるタスクではこの問題が顕著になります。例えば、ある化粧品のコピーには「ていねいに素肌を育てる」も「まるでシルクのような仕上がり」も正解であると考えられます。しかし、先程挙げた自動評価ではこれを捉えられません。

近年では reference-loss な指標として BLEURT のようなNNモデルを用いた自動評価指標も提案されていますが、依然として人間評価との差異は残る上、広告ドメインへの適用コストは高くかかります。

広告クリエイティブ生成における A/B テストの難しさ

広告クリエイティブにおける生成モデルの性能評価は、生成されたものが広告として世に出てどれだけ反応があったかを計測するべきで、これを測るためには A/B テストが必要です。

しかし実際には生成結果がそのまま配信されるわけではありません。

生成したクリエイティブはクリエイターによる選定と修正が施され、その中で薬機法やクライアントチェックを通過したもののみが入稿されます。その後、入稿されたクリエイティブは媒体の配信アルゴリズムに従って配信されます。

このようにクリエイティブを配信するまでに人間の判断が多く介在する上、配信自体も媒体に強く依存してしまうことから A/B テストの実施は困難です。また、これらの問題が解決され、いずれ A/B テストを実施するにしても、その前段階で人手評価によりモデルの生成品質をある程度担保する必要があります。

これらの背景から、モデルの性能比較において人手評価の重要性は非常に高いといえます。

人手評価のコスト削減

私が所属するチームではアノテーションを軸にモデルの性能評価を行い、改善を行う PDCA を回しています。

モデルに何らかのアップデートを加えた際、その生成結果をアノテーションし、結果から改善の有無や課題点の分析を行い、その分析結果から再度改善案を検討する、という具合です。

継続的にアノテーションを実施していく上で、アノテーションコストは非常に重要な要素です。作業を高速化できれば件数を増やすことができますし、疲れにくい UI/UX はデータ品質の向上に繋がります。

できるだけコストの低いアノテーションを実現するためにどうすればよいのか。とチームで考えている中で、スマートフォンで手軽に作業できるといいよね、という声が上がり、ここからモバイル体験を重視したアノテーションツール「FAST」が生まれました。

CAゼミ制度との連携

CyberAgent には CAゼミ制度 という全社横断で最新技術等の研究をゼミ形式で実施していく制度があります。社員は自由に参加し業務時間内で活動することができます。

また、ゼミ活動する際に必要なものと認められればある程度の予算を申請、使用することができます。例えば、このプロジェクトにおいては、クラウドソーシングを用いたアノテーション実験や英語論文校正に費用を使いました。

私はアノテーションツールを開発している過程で、「自然言語処理を支えるツールをつくるゼミ」から誘っていただき、そこから論文化・OSS 化をしよう、という流れになりました。

ゼミでは言語処理分野のエキスパートである先輩方の多大なご協力を仰ぎながら、個人で進めるよりも遥かに質の高い成果物を出すことができました。

最後に

今回は人工知能学会全国大会にて発表したアノテーションツール「FAST」と、その開発の裏側をプロダクトにおける課題やテックゼミの連携を交えながらご紹介しました。

再度宣伝になりますが、FAST は OSS 化しておりますので、ご気軽にコミットしていただけると幸いです。

WebSite: https://www.fast-annotation-tool.app
Github: https://github.com/CyberAgent/fast-annotation-tool

また、AI 事業本部では広告クリエイティブにご興味のあるデータサイエンティストやMLエンジニアの方を絶賛募集中です。

新卒採用エンジニアコース

キャリア採用 | 株式会社サイバーエージェント