めもめも

このブログに記載の内容は個人の見解であり、必ずしも所属組織の立場、戦略、意見を代表するものではありません。

Gemini Live Streaming API の仕様メモ

WebSocket で接続したら、初めに下記のやり取りをする。

  • Client -> Backend:認証情報を送る
{'bearer_token': 'xxxxx',
 'service_url': 'wss://us-central1-aiplatform.googleapis.com/ws/google.cloud.aiplatform.v1beta1.LlmBidiService/BidiGenerateContent'}
  • Client -> Backend:応答形式(AUDIO or TEXT)とシステムプロンプトを含む setup メッセージを送る
{'setup': {'model': 'projects/etsuji-15pro-poc/locations/us-central1/publishers/google/models/gemini-2.0-flash-live-preview-04-09',
  'generation_config': {'response_modalities': 'AUDIO'},
  'system_instruction': {'parts': [{'text': 'system instructions.....'}]}}}
  • Backend -> Client:setup メッセージの受け取り完了メッセージ
{'setupComplete': {}}

この後は、audio / video / text をバックエンドにダラダラと送ると、バックエンド側で応答が必要と判断したタイミングで、応答メッセージが返る。