ABEMA NEWSには、記事を執筆・公開しYahoo!ニュースなど外部メディアに載ることで記事内のリンクからABEMAへの送客を狙うABEMA TIMESというメディアがあります。その中で、生成AIをプラスアルファの力として活用し、映像データからニュース記事を自動生成するソリューションを導入しました。これにより、今までリソースの問題から記事化できなかったコンテンツの記事化が可能に。通常の記事に加えて、with AIな記事が上乗せされることにより送客数を大きく伸ばすことができました。 ただ、このソリューションを導入し、運用を続けていくためには、それを使っていただくユーザー、すなわち記事制作者との協力が不可欠です。本セッションはこのプロジェクトを実現し、記事制作者に寄り添ったソリューションにするためにやってきたことを発表します。
本記事は、11月7日に開催した「CA DATA NIGHT #5 〜生成AIのリアル:エンジニアが直面した課題と実践〜」において発表された「ABEMA NEWSにおける映像データを活用した記事生成AI 〜記事制作者に寄り添ったソリューションにするまで〜」に対して、社内の生成AI議事録ツール「コエログ」を活用して書き起こし、登壇者本人が監修役として加筆修正しました。
加藤 諒(機械学習エンジニア) 所属:株式会社AbemaTV > Development Headquarters
2022年新卒入社。機械学習エンジニアとしてAmebaブログに用いられる機械学習モデルの開発を経て、現在は「ABEMA」で動画解析基盤の開発や生成AIを活用したプロジェクトに従事。
加藤から「ABEMA NEWSにおける映像データを活用した記事制作や記事制作者に寄り添ったソリューションの実現」について発表させていただきます。
まずは自己紹介をさせていただきます。加藤 諒と申します。現在、株式会社AbemaTVで機械学習エンジニアとして働いており、ちょうど3年目に入ったところです。機械学習モデルの開発にも携わっていますが、生成AIのトレンドを活用する取り組みも推進しています。
本題に入る前に、ぜひxでハッシュタグ #cadn を付けて投稿していただけると嬉しいです。
今日お話しする内容についてですが、主に私がプロジェクトをどのように進めてきたかについてお話しします。具体的な題材としては、「ABEMA TIMES」というメディアに関連した話を中心に進めていきます。ABEMA TIMESは、ABEMAが運営しているニュースメディアで、Yahoo!ニュースや外部メディアにも記事を公開しているメディアです。ご存知の方もいらっしゃるかもしれません。
右側に実際の記事が表示されていますが、その途中にリンクが組み込まれており、そのリンクをクリックするとABEMAの視聴ページに飛ぶ仕組みになっています。こういったリンクは、記事と視聴ページをつなぐ動線としての役割を担っています。そして、ABEMA TIMESの中で、タイトルにも記載した通り、生成AIを活用した記事生成を導入しようというプロジェクトが進行していました。
こちらが実際に公開されている結果ですが、これは生成AIを活用して作成された記事で、タイトルや本文の内容も全て生成AIにより作成されています。もちろん、人のチェックも入りつつ、最終的には公開されて運用されているものです。
最初に、オープニングでちょっとだけ「生成AIで何かできないか?」という話がありましたが、去年あたりからChatGPTが登場し、生成AIという言葉がバズワード、あるいはホットワードとして広まり、こういった依頼が増えてきたのを感じました。ただし、この「何かできないか」という依頼は非常に抽象的で、エンジニアとしては「さて、どうしようか?」と悩むわけです。
どこから始めれば良いのか、というのは重要なポイントです。生成AI自体はツールの一つに過ぎませんから、解決すべき問題が何なのかを考える必要があります。では、私たちは実際にこのようなリクエストが来た時にどうしたかというと、
ABEMA TIMESの記事生成に関して、2023年に行った取り組みをお話しします。その際、最初に行ったのは「生成AIをどう使うか」を知ることでした。具体的には、生成AIの得意なことや苦手なことを実際に検証して確かめることから始めました。
次に、生成AIがどのようなことを得意とし、どんな強みを持っているのかを明らかにしました。これを踏まえて、自社のユースケースを洗い出し、その中で生成AIが活用できるシーンを見つけ出しました。この段階では、インパクトや実現可能性を考慮して、どのユースケースを優先するかを決めることが重要でした。この優先順位に基づいて、実際にPOC(Proof of Concept)を実施しました。
生成AIはさまざまなモデルが存在し、何ができるのかは当時は不明確でした。例えば、2023年当時はGPT-4を活用していましたが、現在ではGPT-4に加えて、ロングテキストや動画の生成に強いGemi 1.5、さらに日本語の文章を生成するためにはClaude 3.5のSonnetなどが良い結果を出しています。これらのモデルは特に定性的な評価となりますが、それぞれに適したユースケースがあると感じています。
次に行ったのは、生成AIで実際に何ができるのかを検証することでした。例えば、タイトル生成、カテゴリ分け、キーワード抽出など、テキストからテキストを生成するNLP系のタスクではかなりうまく機能しました。特に得意としたのは要約や情報抽出のタスクです。これらは非構造化データから構造化データに変換するような作業に適しています。
こうして、生成AIの能力を確認した後、次に行ったのはその技術を自社のどの部分に活かせるかを洗い出すことでした。
まずは活用先を列挙していきます。考え方の一つとして、今自分たちが使えるデータ、または用意できるデータと、生成AIでできることを組み合わせて活用先を挙げることです。生成AIでできることに限らず、単純にデータを変換するだけでもよいのです。ABEMAでの例で言うと、ビデオから音声を抽出し、音声を文字起こしするプロセスが一つの例です。この文字起こしをモデルを通してトランスクリプションに変換し、その後、スタイル変換のタスクを通じて記事として仕上げるといった流れです。これが記事生成のプロセスになります。
また、動画からは、例えばGemini 1.5を使えば、動画を直接入力することができ、その中からキーワードを抽出して、それを使って動画のメタデータを付与することも可能です。こうした活用方法がさまざまに考えられます。
活用先を列挙した後、次にやるべきことは、何から手をつけるかを決めることです。
そのため、活用先を列挙した後は、それぞれの意思決定を行うために、こういったテーブルを作成したいと考えました。実際には、すでに20項目ほど埋まっていますが、元々は空白で始まるものです。テーブルには活用先を縦に並べ、それぞれのインパクトや実現可能性を評価します。そして、それに基づいて優先度を決定するという流れです。インパクトの調査から始めて、それを元に進めていきたいと考えています。
ここで追ったインパクトについてですが、私たちの例では、削減を目指すのではなく、プラスアルファとなるビジネス的な成果に焦点を当てていました。これは、話を進めやすくするためです。削減を目指すことには少し怖さも伴いますが、利益やアウトカムを増やしていけるような成果を目指すほうが、ポジティブな方向に進めやすいためです。
そのため、インパクトの調査は、ビジネス的な成果を増加させることに注力しました。例えば、ABEMA TIMESの話に戻ると、記事数と動画数のカバレッジを考えましたが、動画の方が明らかに労力がかかる部分だと思われるかもしれません。しかし、実際には動画はすでに出来上がっているものを基に記事を作成するため、逆に記事の作成部分に労力が足りていないという状況でした。
例えば、ABEMAプライムの動画が記事として取り上げられ、その内容がYahoo!ニュースに掲載され、それがXなどで拡散されると、多くのアクセスが集まることがあります。しかし、ABEMAプライムの記事を見たことがある方もいるかもしれませんが、実際にはアクセスが多いにもかかわらず、記事化されていない動画が多数存在し、それが非常にもったいないと感じていました。
そのような記事化されていない動画がなぜ記事化されていないのかを調査したところ、権利上の問題がある場合もありますが、ヒアリングの結果、ほとんどの場合はリソース不足が原因で、記事化する動画に優先順位をつけていることが分かりました。
そのため、カバレッジを増やす方向でインパクトを見込めるという結論に至りました。こうした調査を通じて、さまざまなヒアリングや検討を行いました。
インパクト調査は、例えば○や△などの評価を基に進めましたが、次に重要なのは実現可能性です。実現可能性については、技術的な実現可能性だけでなく、実際に業務現場で導入できるかという観点も含まれます。具体的には、ステークホルダーの協力や、時間・ツールの制約といった要素が関わります。これらの制約が少ない場合、そのアイデアやプロジェクトは早期に実現しやすいです。
また、制約が少ないプロジェクトから実行し、成功事例を作ることで、「他の部署でもやっているので、自分たちでもできる」と広げていくことが可能になります。こうした観点を整理するために便利な図も存在します。
BPMN図(ビジネス プロセス モデルアンド ノーテーション)は、ステークホルダーの観点や時間、ツールの制約といった要素を一気に整理するために非常に便利な図です。具体的には、縦に区切られた組織や人物、行で区切られたタスクを表現します。それぞれの四角形は、各人物が行うタスクを示し、タスク間の依存関係も示されています。時間軸は左向きに流れており、この全体の流れで業務プロセスを表現することができます。
このBPMN図を使って、ABEMA TIMESの記事制作のフローを整理しました。例えば、記事の作成がどのように始まり、誰が記事を書いて、誰が動画を公開するのか、その一連の業務プロセスを可視化することができました。こうすることで、どの部分で生成AIのツールを使って置き換えられるかが見つけやすくなります。
生成AIを導入する前に、業務そのものをもっと根本的に整理できる可能性があるかを考えることは重要です。生成AIツールを導入した後に、そのツールが実際に使われ続けるイメージができるか、そしてその後の運用が安定するかを慎重に見極める必要があります。特に、テレビの現行のアズイズ(現状の業務)から、生成AIを使った2B(ビジネス向け)への変化における差分が重要です。この差分を理解することで、どのように業務フローを変革し、ツール導入後の運用を見越した業務設計ができるかを考えることが可能になります。
ということで、インパクトと実現可能性の2つの観点を基に優先度をランキングし、最終的に優先度の高いユースケースとしてABEMA TIMESの記事生成が選ばれました。選んだ理由としては、実現しやすく、またインパクトも大きいと判断したからです。
優先度が高いユースケースが決まった後は、早速PoC(Proof of Concept)を行います。進め方としては、当たり前のことかもしれませんが、実際に記事生成ツールを作成するにあたって、そのツールを使う人とのすり合わせを行うことが重要です。加えて、期待値コントロールも必要で、ツールの導入後にどのような成果を目指すのか、現場と合意を取ることが成功に繋がります。
生成AIは非常に多くのことを実現できるため、魔法の箱のように思われがちですが、実際にはある程度の限界も存在します。そのため、求める出力品質をどこまでAIに任せるか、またその品質をどう擦り合わせるかという点が重要です。特に、TIMESチームと呼ばれるツールを使うユーザーと開発チームの間で、相互に期待や制約を理解し、どこまでAIに頼るかを調整する必要があります。
このプロセスは、両者が不幸にならないようにするための擦り合わせであり、ツールを使うユーザーと開発チームのコミュニケーションを通じて、徐々にリファインやブラッシュアップを行っていきます。このような調整が、PoCの成功に向けた準備となります。
その後、最初に取り組むべきはスピード感を持って作業を進めることだと感じました。システム化することを考えたとき、意外と大変であることがわかりました。私はコードを書くのが得意ではないので、開発作業が大変に思えることもあります。しかし、その手作業を使いながらでも、早い段階でユーザーに価値を提供することが重要です。実際にどんな感じなのかをイメージしやすくするために、手作業を含めたシステム化を擬似的に動かし、ユーザーに体験してもらうことにしました。
実際の例として、TIMESチームが記事生成を希望している場面があります。元となるのは動画で、その動画のIDをSlackで送ってもらいます。そのIDから音声を取り出し、Whisperを使って音声を書き起こすという作業をノートブックで行い、その書き起こしたテキストからタイトルを生成するプロンプトを使い、さらに本文を生成するプロンプトを入力して、生成された結果をSlackに戻すという手作業を行っていました。このような流れで、システムを一ヶ月試してみることにしました。
システムを開発するには、1日でできることが理想ですが、最初の一歩を踏み出すにはハードルが高いと感じることもあります。だからこそ、手作業を厭わず、早い段階でユーザーに活用を提供し、その価値を体験してもらうことが大切だと思います。また、ユーザーに「どんなものか」をイメージしてもらうためには、手作業を通じてその感覚を掴んでもらうことが重要です。
PoCを行い、1ヶ月間の技術的なシステム化運用で成果が出たことは嬉しいことです。もともとインパクト調査や運用しやすさを考慮して進めてきたので、こういった結果が出る可能性は高いと感じていました。また、キー数を単純に増やせば、送客数や記事の数が増え、結果的にお客様も増えるだろうと予測していました。そのため、AIを活用することで期日数が増え、効果が出たという結果が出たため、導入を決定しました。
ここまでが、生成AIの導入を成功させるためにどのように進めたかという話です。
これが2023年の話です。最初に生成AIについて調べて検証し、自社のユースケースを洗い出しました。その際、インパクトと実現可能性の両面で検討を行い、その後、優先度が高いユースケースのレビューを進めました。順を追って進めていったという流れになります。
今であれば、生成AIの特性についての資料がたくさん出ているので、それを学ぶことができます。また、世の中には参考になる事例も多く存在しており、他社の事例を学ぶことができるのは非常に有益です。さらに、これから継続的に仕組みを構築していくことができ、これをブラッシュアップしていくことで、成功させるための要素がより明確になると思います。
このように感じたのは、最初はこの3つの項目だけでスライドを作っていたのですが、先日参加した「Google CloudのGeneration AI Summit」において、同じような結論にたどり着いたことが大きな要因です。特にビジネスインパクトと実現可能性の部分に関しては、Googleの見解を直接聞いて、改めて「やっぱりそうだな」と感じました。Googleもこの5つの要素を重視しているということを実感した瞬間でした。
継続的な仕組みの構築についてですが、最初は手作業で進めていた部分を、よりスケール可能で使いやすいシステムへと改善しました。具体的には、最初のPoC(Proof of Concept)では手作業で対応していましたが、システム化を進めることで、処理できる本数を大幅に増やすことができました。
手作業ではどうしても処理できる量に限界がありましたので、これを解消するために、Slackbotを活用したシステム化を行いました。具体的には、ユーザーがメンションを送ると、ボタンが表示され、そのボタンを押すとモーダルが表示され、必要な情報を入力できるUIが表示される仕組みです。これにより、手作業の部分をシステム化し、より効率的に運用できるようになりました。
より使いやすさという観点で、SlackBotは多くのユーザーに活用され、現在も利用されていますが、いくつかの改善点がありました。特に、時間指定に関しては少し手間がかかる部分がありました。例えば、1時間程度の長い番組の中で、一部分のコーナーだけを切り出したいという場合、時間を指定するのがかなり大変でした。確かにSlack上でも時間指定は可能ですが、例えば「10分から20分まで」といった細かな指定を行う際には、操作が煩雑になりがちです。
この問題を解決するために、切り出し動画の作成などに関連して、開発していたクラウド映像編集システムと連携し、より使いやすい仕組みを提供することにしました。この新しいシステムでは、ユーザーが簡単に時間指定できるようになり、操作性の向上を図っています。
まとめとして、今回は生成AIでできることとできないことを明確にし、その中でインパクトと実現可能性の両面から意思決定を行う重要性をお伝えしました。特に、BPMNを活用することで、業務プロセスや制約を整理しやすく、効率的な意思決定が可能になる点は大きなポイントです。
また、PoCを進める際には、手作業を厭わず、スピード感を持って取り組むことが大切です。そして、最終的には継続的に使ってもらうために、ユーザーにとって使いやすいツールを目指すことが重要であると考えています。
今回の発表では、ABEMA TIMESに関するプロジェクトの推進に関して話をしましたが、報道局や開発局と協力しながら進めている内容や、今後の展望についても触れています。さらに、技術的な詳細やエンジニア向けの解説については、CADCでの動画もありますので、ぜひそちらもご覧いただければと思います。
以上で私からの発表を終わります。ご静聴いただきありがとうございました。