PLUS

生成AIコラム

一覧に戻る 2025年12月17日

うさぎでもわかる！Gemini文字起こし完全ガイド – 使い方から他サービス比較まで徹底解説

はじめに
Geminiの文字起こし機能とは
Gemini文字起こしの使い方 – Google AI Studioで実践
他の文字起こしサービスとの比較
Geminiの文字起こしのストロングポイント
Gemini文字起こしの活用事例
まとめ

はじめに

会議の議事録作成やYouTube動画の内容まとめ、インタビューの文字起こしなど、音声をテキスト化する作業は時間がかかって大変ですよね。1時間の音声を文字起こしするのに、手作業では数時間かかることも珍しくありません。

そんな悩みを解決してくれるのが、GoogleのGeminiによる文字起こし機能です。ブラウザから簡単にアクセスでき、高精度な文字起こしを実現できます🐰

この記事では、Geminiの文字起こし機能について、基本的な使い方から他サービスとの比較、実際の活用事例まで徹底的に解説していきます。これを読めば、今日からGeminiで効率的な文字起こしができるようになりますよ。

Geminiの文字起こし機能とは

Geminiの文字起こし機能は、AIが音声データを自動的にテキストに変換してくれる技術です。2025年にリリースされたGemini 2.5から本格的に強化され、実用レベルの高精度を実現しています。

Gemini 2.5の特徴

Gemini 2.5 Proは、Googleが開発した最新のマルチモーダルAIモデルで、テキスト・画像・音声・動画など、さまざまな形式のデータを理解できます。音声文字起こしにおいては、以下のような特徴があります。

高精度な音声認識 – 最新のAI技術により、話し言葉を正確にテキスト化
話者分離機能 – 複数人の会話でも、誰が話したかを自動的に識別
長時間対応 – 数時間の長い音声ファイルも一度に処理可能
柔軟なカスタマイズ – プロンプトで指示することで、要約やタイムスタンプ付与など多様な処理が可能

対応ファイル形式

Gemini 2.5 Proは幅広い音声・動画ファイル形式に対応しています。

動画ファイル

項目	詳細
対応形式	FLV, QuickTime, MPEG, MPG, MP4, WebM, WMV, 3GPP
長さの上限（音声あり）	約45分
長さの上限（音声なし）	約1時間

音声ファイル

項目	詳細
対応形式	AAC, FLAC, MP3, M4A, MPEG, MPGA, MP4, OGG, PCM, WAV, WebM
長さの上限	約8.4時間（または最大100万トークン）

一般的に使用される音声・動画ファイルのほとんどに対応しているので、フォーマット変換の手間がかかりません。長時間のセミナーやポッドキャストも一度に処理できます。

参考 Google Cloud – Gemini 2.5 Pro

対応言語

Geminiは多言語対応で、日本語はもちろん、英語、中国語、韓国語、スペイン語、フランス語など、50以上の言語の文字起こしができます。日本語の認識精度も非常に高く、実用的なレベルで使用できます。

Gemini文字起こしの使い方 – Google AI Studioで実践

ここからは、実際にGeminiで文字起こしを行う手順を詳しく解説していきます。必要なのはGoogleアカウントだけで、特別なソフトウェアのインストールは不要です🐰

Google AI Studioへのアクセス

まずは、Google AI Studioにアクセスします。

Google AI Studioとは

Google AI Studioは、Geminiを含むGoogleのAIモデルをブラウザ上で簡単に試せる開発者向けツールです。プログラミング知識がなくても、直感的な操作で文字起こしができます。

アクセス方法

ブラウザで https://aistudio.google.com/ にアクセス
Googleアカウントでログイン
左のパネルで「Chat」をクリック
右のパネルで「Gemini 2.5 Pro」を選択

無料で使える範囲

Google AI Studioには無料枠が用意されています。無料プランでも以下のような利用が可能です。

月に一定回数までのAPI呼び出し
基本的な文字起こし機能
プロンプトのカスタマイズ

詳細な制限や有料プランについては、Google AI for Developersで最新情報をご確認ください。

音声ファイルのアップロード

Google AI Studioにアクセスしたら、次は文字起こしをしたい音声ファイルをアップロードします。

手順

テキスト入力エリアで、「ファイルをアップロード」ボタンをクリック
ローカルPCまたはGoogleドライブから動画/音声ファイルを選択

プロンプトで文字起こしを指示

ファイルをアップロードしたら、プロンプト（指示文）を入力して文字起こしを実行します。

基本的なプロンプト例

最もシンプルな指示方法です。

この動画ファイルを文字起こししてください

これだけで、Geminiが音声を認識してテキストに変換してくれます。

応用的なプロンプト例

Geminiの強みは、プロンプトで柔軟に処理をカスタマイズできることです。以下のような高度な指示も可能です。

タイムスタンプ付き文字起こし

この音声ファイルを文字起こししてください。
各発言にタイムスタンプ（MM:SS形式）を付けてください。

話者分離

この会議の録音を文字起こしして、話者ごとに分けて記載してください。
話者は「話者1」「話者2」のように表記してください。

要約と文字起こしの同時実行

この動画ファイルを文字起こしして、さらに以下の処理を行ってください。
1. 全文の文字起こし
2. 重要なポイントを3つ箇条書きで要約
3. 全体を200文字程度で要約

フィラー除去

この音声を文字起こししてください。
「あー」「えー」「えっと」などのフィラーは除去し、読みやすい文章にしてください。

複合的な指示

この会議の録音を以下の形式で文字起こししてください。
- 話者を分離して記載（話者1、話者2...）
- 各発言にタイムスタンプを付与（MM:SS形式）
- フィラーは除去
- 最後に会議の要点を5つ箇条書きで記載

プロンプトを工夫することで、単なる文字起こしだけでなく、議事録作成や内容整理まで一気に完了できます🐰

法人向け生成AIサービス「ナレフルチャット」では、会議の録音・録画ファイルをアップロードするだけで
文字起こしから議事録の作成までを自動で行う機能を提供しています！
また、料金プランは企業単位の定額制を採用しており、何人で利用しても追加のコストは発生しないため、コスト管理の手間がかからないスムーズな全社導入を実現できます。
初月無料で生成AIが利用できるトライアル期間も用意しておりますので、生成AIの利活用を検討している企業様は、是非一度導入をご検討ください。

生成AIに議事録作成を任せる ▶

他の文字起こしサービスとの比較

文字起こしサービスは数多く存在しますが、Geminiは他のサービスと比べてどうなのでしょうか。主要なサービスと比較してみましょう。

主要サービス一覧

文字起こし市場では、以下のサービスが主流です。

サービス名	提供元	特徴
Gemini	Google	マルチモーダルAI、プロンプトで柔軟にカスタマイズ
Whisper	OpenAI	オープンソース、高精度、多言語対応
Notta	Notta株式会社	ビジネス特化、リアルタイム文字起こし
Otter.ai	Otter.ai	会議特化、AI要約機能

精度で比較

文字起こしサービスを選ぶ上で最も重要なのが、認識精度です。2025年の最新ベンチマークテストによる比較結果を見てみましょう。

音声認識精度ベンチマーク

文字起こしの精度は、WER（Word Error Rate：単語誤り率）という指標で測定されます。WERが低いほど高精度で、5-7%のWERは実用上非常に高精度とされています。

リアルワールド性能ランキング（2025年7月更新）

Voice Writer社が実際の音声データで測定した、最新のベンチマーク結果です。

順位	サービス	Mean WER	コスト（1時間）
1位	GPT-4o Transcribe	5.4%	$0.36
2位	Gemini 2.5 Pro	5.6%	$0.22
3位	Gemini 2.5 Flash	6.7%	$0.14

出典 Voice Writer – Real-World Speech-to-text API Leaderboard

環境別の得意分野

環境	最も優れているサービス	特徴
クリーンな音声	GPT-4o, Gemini	両者とも最高レベルの精度
ノイズ環境	Whisper	ノイズに対する耐性が強い
アクセント対応	Gemini	様々なアクセントに強い
専門用語	Gemini	技術用語の認識が得意

出典 Voice Writer – Best Speech Recognition API 2025

まとめ

Gemini 2.5 Proは5.6% WERで業界トップクラスの精度
精度とコストのバランスが最も優れている
アクセントや専門用語の認識が特に得意

Geminiの文字起こしのストロングポイント

ここまで見てきたように、Geminiは他サービスと比較しても高い性能を持っています。ここでは、Geminiならではの強みをさらに詳しく見ていきましょう🐰

①コストパフォーマンス

Geminiの最大の魅力の一つが、圧倒的なコストパフォーマンスです。

他サービスとのコスト比較

順位	サービス	Mean WER	コスト（1時間）
1位	GPT-4o Transcribe	5.4%	$0.36
2位	Gemini 2.5 Pro	5.6%	$0.22
3位	Gemini 2.5 Flash	6.7%	$0.14

Gemini 2.5 Flashであれば他の高精度のモデルと比べると約1/3で利用できます。長時間の音声ファイルを頻繁に処理する場合、この差は非常に大きくなります。

無料枠も充実

Google AI Studioでは無料枠も提供されているため、個人利用や小規模な用途であれば、コストをほとんどかけずに高精度な文字起こしが可能です。

参考: Arsturn – Cheapest AI Transcription Models

②プロンプトによる柔軟なカスタマイズ

Geminiの最大の特徴は、プロンプト（自然言語の指示）で処理内容を自由にカスタマイズできることです。これは他の専用文字起こしサービスにはない大きな強みです。

できること

文字起こし + 要約 – 全文の文字起こしと同時に内容を要約
文字起こし + 重要ポイント抽出 – 会議の決定事項やアクションアイテムを自動抽出
タイムスタンプの自動付与 – 各発言に時刻を記録
フィラー除去 – 「あー」「えー」などの不要な言葉を自動削除
話者ごとの発言整理 – 誰が何を話したかを明確に分離
議事録形式への整形 – 会議の議事録として読みやすい形式に自動整形

従来のサービスでは、文字起こし後に人間が手作業で整形する必要がありましたが、Geminiならプロンプト一つで一気に処理できます。

③高品質な話者分離

Geminiの話者分離（Diarization）技術は、複数人の会話を正確に識別できる優れた機能です。

実用的な精度

複数人の会議 – 5〜10人程度の会議でも正確に話者を区別
話者の自動認識 – 音声の特徴から自動的に異なる話者を識別
一貫性の保持 – 長時間の音声でも同一話者を正確に追跡

この機能により、会議や対談、パネルディスカッションなどの複数人による音声を、誰が何を話したかを明確に記録できます🐰

④長時間音声への対応

Gemini 2.5 Proは、非常に長い音声ファイルにも対応できます。

対応時間

調査によると、Gemini 2.5 Proは数時間レベルの長時間音声を一度に処理できることが確認されています。これにより、以下のような用途でも安心して使えます。

長時間セミナー – 音声のみの場合最大約8.4時間（または最大100万トークン）を分割せずに処理
ポッドキャスト – 長尺の収録音声も一括で文字起こし

⑤マルチモーダル処理

GeminiはマルチモーダルAIであるため、音声だけでなく動画も直接処理できます。

動画ファイルの直接処理

音声専用の文字起こしサービスでは、動画から音声を抽出する作業が必要ですが、Geminiなら動画ファイルをそのままアップロードして文字起こしできます。

YouTube動画 – URLまたはダウンロードした動画ファイルを直接処理
会議録画 – ZoomやTeamsの録画ファイルをそのまま使用
セミナー動画 – MP4、MOV、WebMなど主要な動画形式に対応

画像との組み合わせ

動画に含まれる視覚情報（スライドや図表）も同時に理解できるため、より文脈に沿った文字起こしが可能です。

この動画を文字起こしして、スライドに表示されている重要な図表やデータも
テキストとして記録してください。

このようなプロンプトで、音声だけでなく視覚情報も含めた包括的な記録が作成できます🐰

Gemini文字起こしの活用事例

ここまでGeminiの機能や強みを見てきましたが、実際にどのように活用できるのでしょうか。YouTube動画のテキスト化を例に、具体的な活用方法をご紹介します。

YouTube動画のテキスト化

YouTube動画の文字起こしは、Geminiの活用例として特に効果的です。さまざまな場面で役立ちます。

長時間の動画を文字起こし

ユースケース

オンラインセミナーや講演会の動画（最大約４５分程度）を文字起こしして、復習用の資料やブログ記事として活用します。

手順

文字起こししたいYouTubeのURLをコピー
今回は以下のニュース動画で検証
https://www.youtube.com/watch?v=j31EKITY170
Google AI Studioのチャット欄にURLを貼り付け
以下のようなプロンプトを実行

この会議の録音を以下の形式で文字起こししてください。

話者を分離して記載（話者1、話者2...）
各発言にタイムスタンプを付与（MM:SS形式）
フィラーは除去
最後に会議の要点を5つ箇条書きで記載

文字起こし結果

発言の明確化 – 誰がどのような意見を述べたかが一目瞭然
要点の整理 – 重要ポイントに絞って整理してもらえる

このように、Geminiを活用すれば、YouTube動画から価値ある情報を効率的に抽出し、さまざまな形で再利用できます🐰

まとめ

この記事では、Geminiの文字起こし機能について、基本的な使い方から他サービスとの比較、実際の活用事例まで詳しく解説してきました。

記事の要点整理

Geminiの文字起こし機能

Gemini 2.5 Proによる高精度な音声認識
ブラウザから簡単にアクセスできるGoogle AI Studioで利用可能
MP3、WAV、M4Aなど主要な音声・動画形式に対応
日本語を含む50以上の言語に対応

Geminiの主な強み

プロンプトによる柔軟なカスタマイズ – 要約、タイムスタンプ、話者分離などを自由に組み合わせ
高品質な話者分離 – 複数人の会話を正確に識別する優れた技術
長時間音声への対応 – 数時間の音声も一度に処理可能
マルチモーダル処理 – 動画ファイルを直接処理、視覚情報も理解

他サービスとの比較

Whisperと並んで最高精度クラス
話者分離ではGeminiが優位

Geminiで業務効率化を実現しましょう

文字起こし作業は、これまで多くの時間と労力を必要とする作業でした。しかし、Geminiを活用すれば、高精度な文字起こしを短時間で、しかも低コストで実現できます。

プロンプトによる柔軟なカスタマイズ機能は、単なる文字起こしを超えて、要約や分析まで一気に処理できる強力なツールです。会議の議事録作成、セミナーのレポート作成、YouTube動画の記事化など、さまざまな場面で活躍します。

まずはGoogle AI Studioにアクセスして、短い音声ファイルで試してみてください。Geminiの文字起こし機能の便利さを、ぜひ体感してくださいね🐰

あなたも生成AIの活用、始めてみませんか？　

生成AIを使った業務効率化を、今すぐ始めるなら
「初月基本料０円」「ユーザ数無制限」のナレフルチャット！
生成AIの利用方法を学べる「公式動画」や、「プロンプトの自動生成機能」を使えば
知識ゼロの状態からでも、スムーズに生成AIの活用を始められます。

まずは無料で、生成AIを使ってみる ▶︎

taku_sid

https://x.com/taku_sid
AIエージェントマネジメント事務所「r488it」を創立し、うさぎエージェントをはじめとする新世代のタレントマネジメント事業を展開。AI技術とクリエイティブ表現の新たな可能性を探求しながら、次世代のエンターテインメント産業の構築に取り組んでいます。
ブログでは一つのテーマから多角的な視点を展開し、読者に新しい発見と気づきを提供するアプローチで、テックブログやコンテンツ制作に取り組んでいます。「知りたい」という人間の本能的な衝動を大切にし、技術の進歩を身近で親しみやすいものとして伝えることをミッションとしています。