当たり前のことが当たり前にできる音声対話受付ロボットの開発

AI事業本部 AI Labでは、チャットボットやロボットなどの対話エージェントによる接客の自動化を目的とした対話エージェントによる接客対話技術に関する応用研究を進めています。

Interactive Agentチームでは「ヒトが信頼したくなる対話エージェント」の開発を目指し、自律的な接客対話エージェントや遠隔操作ロボットを用いた遠隔接客、ユーザの行動を変えるインタラクションについての技術開発に挑戦しています。

本記事はサイバーエージェント社内で開催された「生成AI活用事例LT会」において、大平義輝(AI Lab Interactive Agent)が登壇した「当たり前のことが当たり前にできる音声対話受付ロボットの開発」の内容に対して、社内の生成AI 議事録ツール「コエログ」を活用して書き起こし、登壇者本人が監修役として加筆修正しました。

AI Labの大平です。今回は、「当たり前のことが当たり前にできる音声対受付ロボットの開発」についてお話しさせていただきます。このプロジェクトの中心は、生成AIを活用した音声対話ロボット「EscortAI」の開発であり、その技術や運用の側面を掘り下げていきます。

生成AIを駆使した音声対話ロボットの挑戦

私たちは、音声対話ロボットの開発において、非常にシンプルかつ直感的な対話体験を提供することを目指しています。特に、受付業務における人間らしい対応をロボットに実現させることに挑戦しています。ちょうど昨日、「EscortAI」のランディングページを公開し、Xで発表しました。すでにロボット音声対話業界でも注目を集め始めており、少しずつ反響が広がっています。

「EscortAI」は、従来の音声対話システムの枠を超え、人間の受付スタッフが自然に行うような気遣いや反応を再現することを目指しています。例えば、車椅子の方が来たとき、ロボットが自律的に多目的トイレの場所を案内するといった対応です。これを実現するために、生成AIが自ら判断し、その場に最適な行動を取ることができるよう設計されています。プログラムで定められたルールに従うのではなく、状況を理解し、柔軟に対応できるロボットを目指しています。

柔軟な応答を実現する生成AIの力

「EscortAI」の大きなポイントは、ロボットが自ら「考えて」行動するという点です。例えば、車椅子を利用するお客様には多目的トイレを案内し、家族連れの方には適切な対応を自律的に行います。これは、私たちが事前に細かい指示をプログラムしたわけではなく、生成AIがその場の状況を認識し、自分で最適な対応を判断する仕組みです。つまり、ロボットはその時々の環境やお客様のニーズに応じて、自律的に最良のサービスを提供するのです。
さらに重要なのは、ロボットが運用者からのフィードバックを元に柔軟に対応を変えていくことができる点です。例えば、新しい仕様に変更したい場合、わざわざベンダーに依頼してプログラムを修正する必要はありません。直接ロボットに「こうしてほしい」と指示を与えるだけで、その指示に基づいて行動を変更できる柔軟性を持っています。このような仕組みにより、運用の効率化や柔軟性が大幅に向上しています。

高速応答の実現と技術的工夫

「EscortAI」のもう一つの大きな特徴は、その高速な応答能力です。ロボットがユーザーの発話に即座に応答するためには、音声認識や生成AIの処理速度が非常に重要です。単純に見える音声対話の背後には、複雑なプロセスが走っています。私たちは、このプロセスを最適化するために、画像認識の経路を高速化し、行動判断モデルを並列処理で実行するなど、さまざまなチューニングを行っています。
通常、音声認識が完了してから次のステップに進むのが一般的ですが、「EscortAI」では、音声区間検出（VAD）を使用してユーザーが話している最中に処理を開始します。たとえば、「鍵を開けてください」という発話であれば、「鍵を開けてくだ」の段階で応答生成が始まるため、非常に短い応答時間で自然な対話が実現されます。生成AIとテキスト音声合成（TTS）のプロセスも並列で進行するため、ユーザーを待たせることなくスムーズな応答が可能になります。

多層的な行動判断モデルの導入

「EscortAI」では、行動判断においても複数のモデルが並列に動作しています。基本的な反応、たとえば「手を振ったら手を振り返す」といったシンプルな動作は1対1の行動生成モデルで処理されます。しかし、より高度な判断が必要な場面、たとえば「このお客様はどこに向かおうとしているのか」といったコンテキストを考慮する行動は、別のモデルが担当します。これにより、単純な応答だけでなく、より深い理解に基づく高度な対応が可能になっています。
さらに、ロボットは未知の状況や予期しないリクエストにも対応できます。生成AIが状況を学習し、適切な行動を即座に生成することで、柔軟な対応が可能になります。こうした多層的なアプローチにより、複雑な対話や行動判断をリアルタイムで行うことができるのです。

自動化と運用効率の向上

私たちは、ロボットの運用管理の自動化にも力を入れています。ロボットが間違った対応をした際、運用者がフィードバックを与えると、そのフィードバックを元にロボットが次回からの行動を修正します。このように、ロボットが自律的に学習し、成長していくことで、運用コストを削減し、より効率的な運用が可能になります。
現在、私たちが目指しているのは、1人の管理者が100体から1000体のロボットを同時に管理できるスキームです。これにより、少人数で大量のロボットを効率的に運用することができ、人件費の削減や業務の効率化が期待されています。このスキームを実現することで、将来的にロボット社会の基盤を築く一歩となるでしょう。

高速な画像認識とリアルタイム対応

技術的には、画像認識AIの高速化も重要なポイントです。私たちは、ユーザーの行動をミリ秒単位で認識し、危険な挙動や異常行動があれば即座に対応する仕組みを構築しています。この高速な認識能力により、ユーザーが安全かつスムーズにロボットと対話できる環境を提供しています。

未来への展望

「EscortAI」は、音声対話技術と生成AIを組み合わせ、柔軟で高速な応答を実現するロボットです。私たちはこの技術をさらに進化させ、1人の管理者が複数のロボットを効率的に管理できるスキームを確立することで、将来的にはロボット社会を支える基盤技術にしていきたいと考えています。今後、生成AIやAutifyなど、さらなる自動化技術との連携を進め、運用の効率化を追求していきます。
これからも、私たちは音声対話ロボットの技術を進化させ、より豊かで自然なユーザー体験を提供することを目指していきます。「EscortAI」は、その一歩であり、未来のロボット社会を実現するための鍵となる技術です。

※ 本記事はサイバーエージェント社内で開催された「生成AI活用事例LT会」において、大平(AI Lab Interactive Agent)が登壇した「当たり前のことが当たり前にできる音声対話受付ロボットの開発」の内容に対して、社内の生成AI 議事録ツール「コエログ」を活用して書き起こし、登壇者本人が監修役として加筆修正しました。

マルチスタックに開発して感じたこと

個人開発しか経験してこなかった僕が初めての業務で気づいた強みと可能性