株式会社スターストリーム・スタジオ

みなさん、こんにちは！今回は、Googleが新しく公開したGeminiの「Stream Realtime」という機能について詳しく解説していきます。
音声でGeminiと会話したり、ビデオ通話したり、パソコンの画面を共有しながらAIと一緒に作業したりできる、かなり革新的な機能なんです。

早速、使い方から実際の使用感までご紹介していきますね。

INDEX

Stream Realtimeで何ができるの？

Stream Realtimeには、実は3つの強力な機能があります：

リアルタイムの音声会話
ビデオストリーミングによる通話
パソコン画面の共有

特にビデオ通話と画面共有機能は、AIとのコミュニケーションの新しい可能性を感じさせる機能です。

使い方を解説！

基本的なセットアップ

とても簡単です：

Google AI Studioにアクセス
画面左にある「Stream Realtime」をクリック
「Talk Gemini」を選択
マイクやカメラの使用を許可

これだけで、もうGeminiとコミュニケーションが取れるようになります。

音声会話の性能は？

実際に試してみると、OpenAIのAdvanced Voice Modeと同じくらいの応答速度で返してくれます。
ただし、現時点での日本語の発音は若干なまっている印象。
でも、これは実験段階の機能なので、きっと今後のアップデートで改善されていくはずです。

ビデオ通話機能が新登場！

マルチモーダルAPIのリリースにより、ビデオストリーミング機能が追加されました。これがなかなか面白い！

Geminiとビデオ通話しながら会話できる
カメラに映った物について質問できる
リアルタイムで視覚的なフィードバックがもらえる

画面共有機能がアツい！

個人的に特に注目なのが、この画面共有機能です。使い方は簡単：

「Share your screen」をクリック
共有したい画面を選択（コードエディターやChromeのタブなど）

実際に試してみると、こんな感じのやり取りができました：

私：「この記事に書かれているチェーンプロンプトについて説明してもらえますか？」
Gemini：「はい、画面の記事を確認しました。チェーンプロンプトとは、複数のプロンプトを連携させて段階的にAIに指示を出す手法です。記事では特に…」
私：「具体的な使用例はありますか？」
Gemini：「記事の中段に記載されている例を見ると、まず最初のプロンプトでテーマを設定し、次のプロンプトで詳細を掘り下げ、最後のプロンプトで具体的なアウトプットを得る、という流れが書かれていますね」

特に便利そうなのが、PC作業中の困りごとへの対応です。
画面を共有しながらGeminiと相談できるので、つまづいたときにすぐにアドバイスがもらえそうです。

ただし、音声モードの時はテキストでの出力ができないので注意です。

現状の課題と可能性

改善してほしいところ

日本語の音声認識精度と発音
音声モード時のテキスト出力対応
全体的な安定性

でも、可能性は無限大！

正直、現時点ではまだまだ発展途上という印象です。でも、これらの機能が実用レベルまで改善されたら？

AIとの自然な会話が当たり前に
ビデオ通話でリアルタイムのアドバイス
画面共有しながらの効率的な作業

想像しただけでワクワクしますよね。

まとめ

Stream Realtimeは、まだ完璧とは言えませんが、AIとのコミュニケーションの未来を垣間見られる非常に興味深い機能だと思います。特にビデオ通話と画面共有機能は、学習や作業効率の向上に大きな可能性を感じました。

なお、Deep Researchについてはまだ利用できない状況ですが、こちらも使えるようになり次第、詳しくレビューしていきたいと思います！

みなさんもぜひ一度試してみてください。新しいAIとの対話体験が待っていますよ！

それでは、また次回の記事でお会いしましょう！

Gemini Stream Realtimeの使い方：音声会話や画面共有ができる新機能を試してみた