この記事は虎の穴ラボ Advent Calendar 2024の6日目の記事です。

こんにちは、虎の穴ラボのはっとりです。

今回は、OpenAIのRealtime API Betaを試してみたので、紹介したいと思います。このAPIは、音声とテキストのリアルタイム処理を可能にし、会話型アプリケーションの開発を大幅に簡略化します。

RealTime APIの概要

OpenAIのRealtime APIは、2024年10月1日に発表された新しいAPIです。音声認識、テキスト処理、音声合成を一つのAPIで統合し、低遅延で自然な会話を実現します。

1つのAPIに統合されたことで、音声の感情やアクセントなどの情報を喪失せずに扱うことが可能です。（劇的な変化ではありませんが、返答の声色が内容によって多少変わります。）

サンプルコードとアプリの紹介

公式のサンプルコードを基に、音声とテキストの両方に対応したサンプルアプリを作成しました。

公式サンプルでは音声のみの入出力でしたが、テキストも扱えるように改修しました。また、連続で話すとエラーが発生する問題を修正しました。

実行サンプル

今までの履歴を自分で管理する必要がないため、会話部分の実装が非常に楽でした。これまでのAPIで同じことをしようとすると、会話用のモデル、音声→テキスト変換のモデル、テキスト→音声のモデルなど複数のAPI・モデルの利用が必要でしたが、1つのAPIで実現できるので実装がとてもシンプルです。

特に固有名詞の認識が難しく、間違えやすいことがありました。（単純に使っているマイクの性能である可能性も否定できません。）しかし、長い文章を話すと文脈から補完されるため、誤認識が減る傾向がありました。

このAPIだからというわけではありませんが、マイクとスピーカーの入出力を扱うのは初めてだったので、ここに時間がかかりました。

今回利用したRealtime APIクライアントは音声の入出力に関しては何もしてくれる機能がないので、ここは自前実装が必要になりました。双方向で会話したり、連続で音声再生したりというところが難しそうな部分でした。

音声入力・出力で5分ほど試しただけで約$2.5の料金がかかりました。利用にはコスト面での注意が必要です。

将来的にはもう少し安くなることを期待しますが、現時点では料金が高いため、商用サービスでの利用は慎重に検討する必要があります。

OpenAIのRealtime APIは、音声を考慮したリアルタイム処理が簡単に行えるため、しゃべるBOTを作るのに非常に適しています。レスポンスも早く、使い勝手は非常に良いです。ただし、まだBeta版であり、利用料金等の問題もあるため、今後に期待といったところでしょうか。

虎の穴ラボでは一緒に働く仲間を募集中です！
この記事を読んで、興味を持っていただけた方はぜひ弊社の採用情報をご覧ください。
toranoana-lab.co.jp