Gemini TTSは歌えるのか？ドレミから童謡まで検証してみた

最近の生成AIの進化は凄まじく、音楽生成AIもハイクオリティな楽曲を作れるようになりました。
しかし、ふと疑問に思いました。
「会話用のGemini TTS（Text-to-Speech）に無理やり歌わせたらどうなるのか？」

知識・情報

2026/03/06 UP

※こちらの記事はパソナX-TECH Advent Calendar 2025から引用しています。

はじめに

Geminiの音声は非常に流暢で人間らしい抑揚を持っています。うまく指示（プロンプト）を与えれば、それっぽく歌うことができるのではないでしょうか。

本記事では、Gemini APIを使用して、単純な音階（ドレミ）から有名な楽曲まで「歌わせる」ことができるのか検証してみます。

※こちらに元の記事があります　Gemini TTSは歌えるのか？ドレミから童謡まで検証してみた

検証環境

モデル: Gemini 2.5 Pro プレビュー TTS（Google AI studioより）
URL：https://aistudio.google.com/generate-speech?model=gemini-2.5-pro-preview-tts

実際に生成してみる

パターン１：ドレミ（プロンプトなし）

プロンプト：なし
セリフ：ドレミファソラシド

※音声が流れますので音量にご注意ください

・全く音程がない

パターン2：ドレミ（プロンプトあり）

プロンプト：音階をつけて読み上げて
セリフ：ドレミファソラシド

※音声が流れますので音量にご注意ください

・音痴だけど音階をつけている

パターン３：かえるの合唱

プロンプト：かえるの合唱をうたって
セリフ：かーえーるーのーうーたーがー
きーこーえーてーくーるーよー
クヮ　クヮ　クヮ　クヮ
ケケケケ　ケケケケ
クヮクヮクヮ

※音声が流れますので音量にご注意ください

・歌ってる感じにはなっている
・音程は合っていない
・最後のくゎが一個多い

パターン４：きらきら星（英語）

プロンプト：Please read the following text slowly and rhythmically, like you are singing a lullaby.
セリフ：Twin-kle, twin-kle, lit-tle star~,
How I won-der what you are~.
Up a-bove the world so high~,
Like a dia-mond in the sky~.
Twin-kle, twin-kle, lit-tle star~,
How I won-der what you are~.

※音声が流れますので音量にご注意ください

・最初と最後は音程通り、リズム通りに歌えている
・途中のパートも最初と同じ音程なのだけ間違い

パターン５：きらきら星（日本語）

プロンプト：以下のテキストを、ゆっくりと、一文字ずつリズムを刻むように、童謡を歌う雰囲気で読み上げてください。
セリフ：き、ら、き、ら、ひ、か、るーー。
お、そ、ら、の、ほ、し、よーー。
ま、ば、た、き、し、て、はーー。
み、ん、な、を、み、て、るーー。
き、ら、き、ら、ひ、か、るーー。
お、そ、ら、の、ほ、し、よーー。

※音声が流れますので音量にご注意ください