CAが運営するメディア・サービスは、日々投稿されるたくさんのコンテンツによって成り立っています。一方、ごく一部のコンテンツによって、ユーザやサービスなどに悪影響を及ぼすケースがあります。私たちはそれらに対抗するためのモデレーションシステム基盤として「Orion(オライオン)」を開発・運用し、10年以上にわたってサービスの安心・安全に貢献してきました。今回は、生成AIがどのようにモデレーションに活用できるのか、その試行錯誤の姿を、具体的な事例を交えて紹介したいと思います。

 

本記事は、11月7日に開催した「CA DATA NIGHT #5 〜生成AIのリアル:エンジニアが直面した課題と実践〜」において発表された「生成AIは安心安全に貢献できるのか」に対して、社内の生成AI議事録ツール「コエログ」を活用して書き起こし、登壇者本人が監修役として加筆修正しました。


藤坂 祐介(プロダクトマネージャ/機械学習エンジニア)所属:メディア統括本部 Data Science Center

2012年にサイバーエージェントに新卒入社。入社以来、秋葉原ラボ(現在のData Science Center)に所属し、検索システムやストリーミング基盤の開発ののち、監視基盤システム「Orion」の開発・運用に従事。以来、Orionの運用チームのプロダクトリーダーとして現職。2児の父。


藤坂と申します。「生成AIは安心安全に貢献できるのか」というテーマで、モデレーションシステムに生成AIを導入してみた経験についてお話しさせていただきます。

私は2012年に新卒でサイバーエージェントに入社し、秋葉原ラボという部署で長年勤務していました。現在、秋葉原ラボはDSCとして知られています。これまで、モデレーションシステム「Orion」の担当をしてきた経験があり、今回はその内容についてお話しさせていただきます。

先週、CyberAgent Developers Conference(CADC)でも発表させていただきましたが、そこでモデレーションシステムの概要についてお話ししました。今回は、そこからさらに深掘りして、生成AIに関する詳細な話をお伝えしたいと思っています。もし興味があれば、CADCのサイトにアクセスして、発表内容をご覧いただければ幸いです。

コンテンツモデレーションとは何かについて簡単に説明させていただきます。その後、どのようなAIを活用してモデレーションシステムを作り上げているのかをお話しし、生成AIが実際にどのような部分で使われているのかについても順を追ってお話しさせていただきます。

1. CAにおけるコンテンツモデレーション

ではまず、コンテンツモデレーションについてご説明させていただきます。私たちが運営するメディアサービスには、アメブロ、ピグパーティ、ABEMAなどがありますが、これに限らず多くのサービスが存在しています。これらのサービスは、皆さんが投稿してくださるコンテンツによって成り立っています。

しかし、ごく一部では悪質なコンテンツが存在し、例えば最近話題になっている闇バイトのようなものが、他のユーザーやサービス自体に悪影響を与えることがあります。このような問題が発生しているため、私たちはコンテンツをいくつかのカテゴリーに分けて監視しています。もちろん、これに限った話ではありませんが、例えば低品質なコンテンツや誹謗中傷などが含まれます。

本当にどれぐらい悪質なコンテンツがあるかというと、全件数の中で大体1000件に1件以下という感じで捉えています。具体的な数値については公開できませんが、依然として問題となるコンテンツは存在しています。透明性レポートを今後公開できたらなと考えていますが、現時点ではこのような概要で押さえていただければ幸いです。

もう少し具体的に申し上げますと、例えばエログロ荒らしのようなコンテンツ、また特定の人物や組織を中傷する内容、さらには詐欺行為や個人情報の公開といった問題もあります。これらのケースはもちろん問題視されており、サービス上でのコンテンツモデレーションが重要となります。

そういった悪質なコンテンツを排除するためには、まずそのコンテンツがユーザーに与える影響をしっかり認識する必要があります。具体的には、ユーザーの心身にダメージを与えたり、経済的な損害をもたらす可能性があります。

悪質なコンテンツの影響を最小化するためには、その公開時間が長ければ長いほど影響が大きくなるため、できるだけ早い段階で削除することが必要です。迅速に対応することで、ユーザーへの影響を抑え、サービスや社会への損害を防ぐことができます。このため、コンテンツのモニタリングと迅速な削除が重要な対策となります。

論文などでも示されている通り、悪質なコンテンツの排除は非常に重要です。基本的には、そういったコンテンツは速やかに削除し、投稿者には退出をお願いするというアプローチを取ることが一般的ですが、警告などの対応を行う場合もあります。私たちがこのようなシステムをどのように運用しているかというと、長年にわたり「Orion」というサービスを運用してきました。

2013年に私たちが開発し、10年以上にわたり運用している「Orion」システムは、大きく二つの柱で構成されています。ひとつは、自動的にコンテンツが悪質かどうかを判断するフィルタリングAPIで、もうひとつは、オペレーターが最終的に監視し、コンテンツが悪質かどうかを判断する手動の対応です。

これまで説明したように、悪質なコンテンツを監視した結果得られたデータは、その後に投稿されるコンテンツの判定に活用されるというループを作っています。これが、私たちのコンテンツモデレーションの概要です。

2. OrionとAI

 

実際に対応しなければならないコンテンツには、テキスト、画像、動画などさまざまな種類があります。

コンテンツには短いものや長いもの、ユーザー間のやり取りが迅速に必要なものや、じっくり読んでもらいたいものなど、さまざまな種類があります。また、私たちのように複数のサービスからコンテンツが集まってくる場合、データの種類や長さがバラバラで、場合によってはマルチモーダルなコンテンツも存在します。このような多様なデータを単純に機械学習で扱うことは、非常に難しい課題となります。

私たちのシステムでは、具体的なサービス名を挙げずに説明すると、例えばコメントのフィルタリングにはワードフィルターを使用したり、荒らし行為の検出として連続投稿のパターンを検出する方法を取り入れています。また、特定のルールに基づいてコンテンツを判別する手法も使っています。さらに、ブログの本文などには、よりリッチな機械学習技術を活用した判別を行っています。

私たちのシステムでは、画像が含まれている場合には、画像判別モデルを適用するなど、コンテンツごとに異なるフィルタリングを組み合わせて、そのコンテンツが悪質かどうかを判定しています。現在、約20のサービスを運営しており、機能数は数百に上ります。フィルターの組み合わせはおおよそ800種類運用されている大規模なサービスとなっています。

ものによっては計算量やリソースが少なくて済むフィルターもあれば、逆にもう少しリッチな計算を要するようなフィルターも運用されています。具体的な機械学習の活用例としては、例えば、テンプレートに基づいて特定の文章に類似したものを検出したり、言語に着目して言語を変形したり翻訳を行ったりします。また、悪質なコンテンツを分類するために学習させ、逆に質の良いコンテンツを分類するための仕組みも導入しています。

画像に関しても同様のアプローチを取っています。これまで投稿された画像データを学習に活用したり、特定の物体や顔が含まれているかどうかを判定したり、過去に投稿されたコンテンツと類似したものを検出する仕組みを取り入れています。

QRコードのデコードも行います。これが、現在広く運用されている仕組みとなっています。

運用していく中でいくつか課題が浮かび上がっています。例えば、ワードフィルターを使用する場合、特定の悪質な表現を検出するためにワードを設定しますが、設定したワードに引っかかることで無実のコンテンツが誤って排除されてしまうことがあります。例えば、普通の文章の中に悪意のない表現が混じってしまうと、それが誤検出されるケースがよくあります。こうした誤検出は避けるべきですが、ワードを逆に限定しすぎると、悪質な表現が巧妙に回避されることもあります。

また、皮肉やあいまいな表現に対して、ワードフィルターだけでは対応が難しく、実際には誹謗中傷が含まれているにもかかわらず検出されないこともあります。さらに、検索避けのためにユニコードを使った回避方法が使われることもあり、これに対応するのが大変です。

機械学習を使って学習データを作成し、モデルを適用することも考えましたが、悪質なコンテンツの手口は日々変化しているため、新たなケースに対応できるかどうかは難しいところです。社内データだけで学習を進めるには限界があり、社外のデータを取り入れることも考えましたが、費用や契約面でのハードルが存在します。

また、これらの課題を解決するためには、コンテンツを一目で判断できるシステムを構築することが求められますが、問題はそのために24時間体制で人員を配置してコンテンツを監視し続ける必要があるかという点です。費用面で、こうした体制を維持することは非常に大変です。

さらに、オペレーターが実際にそのコンテンツを監視することによって、オペレーター自身が精神的に傷つく可能性があることも考慮しなければなりません。

3. Orionと生成AI

そこで、生成AIが活用できるのではないかというのが今回の本題です。

では、ワードフィルターの代わりに生成AIを導入することで、どんな利点があるのでしょうか。まず、NGワードに頼らないコンテンツの判断ができる点が挙げられます。これにより、従来のワードフィルターでは対応できなかったコンテンツも適切に判断できる可能性があります。また、プロンプトを工夫することで、カバレッジをうまく調整できる点も期待されます。

さらに、複雑な表現への対応も生成AIの強みです。例えば、比喩や皮肉など、通常のワードフィルターでは対応しづらい表現にも生成AIは柔軟に対応できる可能性があります。

学習データについても、十分なデータを持っていることが期待でき、これによりモデルの精度も高まると考えています。具体的な例として、どのように生成AIを活用できるかを一つ紹介したいと思います。

今回は、ABEMAでのコメントに関するモデレーションの話です。具体的には、ABEMAのコメントの中から悪質なコメントを投稿しているユーザーを抽出するために、生成AIを活用しています。Orionというシステムに投稿されたコメントがコピーされ、そこから悪質なコメントを特定するプロセスを導入しています。この方法により、悪質なコンテンツの特定精度を向上させることを目指しています。

フィルタリングやオペレーターによる確認が行われる中、コメントは一旦格納され、悪質なコメントの抽出には生成AIが活用されています。具体的には、コメントとユーザーの情報が保存され、最終的にオペレーターがそのコメントを悪質と判断し、ユーザーへの対応が決定される仕組みとなっています。

生成AIを適用する際、プロンプトは比較的シンプルで、特に複雑な指示は与えていません。プロンプトでは、投稿されたコメントがどのような種類のものであり、他のユーザーに不安感を与えるような内容かどうかをスコアとして出力することを求めています。このプロンプトによって、AIはコメントの評価を行い、悪質なコメントを効率的に抽出しています。

具体的に言うと、とあるチャンネルなんですけどこういった普通のコメントであれば 別に反応しないですよね。

具体的には、あるチャンネルにおけるコメントを見てみると、普通のコメントであれば問題ないのですが、例えばこのようなコメントは微妙なラインです。こういったコメントが生成AIによりスコアリングされ、適切に対応されるという仕組みが確立されています。運用を開始してから1ヶ月ほど経つと、悪質なユーザーが排除されるケースが減少し、システムが効果的に機能していることが実感できるようになりました。ただし、効果を定量的に測定することは難しいため、具体的な数字で示すことはできません。しかし、生成AIを使うことで、より効率的に悪質なユーザーを抽出することができ、従来よりも人手をかけずに対応できるようになっています。

コスト面では大きな利点があり、インフラも含めて1コメントあたり0.1円未満という非常に低コストで運用できています。今回、Google CloudのGeminiを使用しており、利用量に応じてコストが0.01円程度という結果になっています。これにより、完全なフィルタリングとは言えませんが、非常に安価で効果的なコンテンツ監視システムを実現できたと言えます。

このシステムを運用する中で、いくつかの課題が浮かび上がっています。まず、プロンプトが本当に正当であるのかを確認する必要があります。コンテンツ、プロンプト、そしてその出力との関係をもっと定量的に検証できる方法が求められています。

また、同一のコンテンツに対して出力が異なるケースも散見されます。この場合、ユーザーのコメントがどのような内容であるかを外観で判断するだけで良いため、必ずしも「良い」か「悪い」かを精度高く判断する必要はないという条件で進めています。そのため、この点については現在のところ大きな問題とは捉えていません。

さらに、最も重要な課題の一つは処理時間です。1件あたりの処理にかかる時間が1秒以上かかる場合があり、Google Cloudを使用しているため、レートリミットやリソースの問題が影響を及ぼしています。ABEMAのように多くのユーザーが利用するサービスでは、全量をリアルタイムで処理することが難しいという現状です。このため、ワードフィルタリングの代替としては機能しきれていないという課題があります。

最後に、セーフティーフィルターに関する問題があります。Google CloudやSaaSのLLM(大規模言語モデル)を使う場合、悪質なコンテンツの入力や出力ができないように制限されています。そのため、この業務が正当なものであることを説明し、フィルターを解除してもらう必要があるという点が課題となっています。

最後に、少しざっくりした話になりますが、現在進めていることとして、オペレーターの監視業務を生成AIに置き換える方法を調査しています。これが実現できれば、例えば夜間の1時や2時に眠い中で監視をしなければならないという状況を、生成AIに代替させることが可能になるかもしれません。これにより、オペレーターがより効率的に働けるようになると考えています。

4.まとめ

 

コンテンツを安全に保つためには、コンテンツのモデレーションが必要です。そのために、AIや機械学習を活用したフィルタリングやモデレーションシステムを現在提供しています。

生成AIを用いて、悪質なコンテンツの検出を行っています。今後の展開についても、この取り組みをさらに進めていく予定です。今回の発表で紹介したノウハウについて、皆さまと共有できればと思いますので、ぜひお話を聞いていただければ幸いです。

以上で発表を終わります。ありがとうございました。