PLUS

生成AIコラム

一覧に戻る 2025年12月02日

うさぎでもわかる！軽量モデル完全比較ガイド

はじめに
基本スペック徹底比較
ベンチマークで見る性能差
実際の使用感と適性タスク
実際の出力を比較してみた
あなたに最適な軽量モデルの選び方
まとめ
参考資料

はじめに

AIモデルの進化が止まらないうさ🐰

2025年、軽量モデルの世界に大きな変化が起きているうさよ。かつては最上位モデルでしか実現できなかった性能が、今では軽量モデルでも利用できるようになったうさ。

例えば、Claude Haiku 4.5は、わずか5ヶ月前にリリースされたSonnet 4と同等の性能を約3分の1の価格で提供しているうさ。これはつまり、コストと性能のバランスが劇的に向上しているということうさね。

軽量モデルが重要な理由

軽量モデルは以下のようなシーンで特に重要うさ

大量処理が必要なユースケース カスタマーサポート、データ分析、コンテンツ生成など、大量のリクエストを処理する場合
リアルタイム応答が求められるアプリケーション チャットボット、リアルタイム翻訳、コーディングアシスタントなど
予算制約がある場合の選択肢 スタートアップや個人開発者が、限られた予算でAIを活用する場合

本記事で比較する3モデル

今回比較するのは、主要3プロバイダの最新軽量モデルうさ

Claude Haiku 4.5（Anthropic、2025年10月リリース）
GPT-5-mini（OpenAI、2025年8月リリース）
Gemini 2.5 Flash（Google、2025年6月正式版リリース）

それぞれ異なる強みを持ち、適性タスクも異なるうさ。この記事を読めば、あなたのプロジェクトに最適なモデルがわかるうさよ🐰

基本スペック徹底比較

まずは3モデルの基本スペックを比較するうさ。価格、コンテキストサイズ、知識の新しさなど、重要な要素を見ていくうさよ。

Claude Haiku 4.5（Anthropic）

基本情報

リリース日 2025年10月15日
料金 $1/M入力、$5/M出力
コンテキストウィンドウ 200K tokens

特徴

Claude Haiku 4.5は、Anthropicの軽量モデルの最新版うさ。最大の特徴は、Sonnet 4相当の性能を約3分の1の価格で実現していることうさ。

推論機能（Thinking mode）サポート 複雑な問題を段階的に考えて解決できる
コーディングとエージェントタスクに特化 実践的なコード生成やマルチエージェントシステムで優秀
最速クラスの応答速度 Sonnet 4の約2倍の速度を謳っている
AWS Bedrock、Google Vertex AIで利用可能 主要なクラウドプラットフォームで利用できる

コーディングタスクでの正確性が特に高いと感じるうさ。複雑な関数の実装でも、一発で動くコードを生成してくれることが多いうさよ。

GPT-5-mini（OpenAI）

基本情報

リリース日 2025年8月7日
料金 $0.25/M入力、$2.00/M出力
コンテキストウィンドウ 400K tokens

特徴

GPT-5-miniは、OpenAIの最新GPT-5ファミリーの軽量版うさ。GPT-5の性能の85-95%を維持しつつ、約5分の1のコストで利用できるのが魅力うさ。

関数呼び出し、構造化出力対応 API連携やJSON出力など、実務で必要な機能を完備
o4-miniの後継モデル OpenAIの推論特化モデルの系譜を継いでいる
Azure AI Foundry、OpenAI APIで利用可能 エンタープライズ向けの利用環境も充実

数学的推論やコーディングのバランスが非常に良く、幅広いタスクに対応できる万能型うさね。

Gemini 2.5 Flash（Google）

基本情報

リリース日 2025年6月18日一般公開（GA）
料金 $0.30/M入力、$2.50/M出力
コンテキストウィンドウ 1M tokens

特徴

Gemini 2.5 Flashは、Googleの多機能軽量モデルうさ。最大の特徴は、圧倒的な1Mトークンのコンテキストウィンドウうさ。

マルチモーダル対応 テキスト、コード、画像、音声、動画、PDFに対応
ビルトイン思考機能 複雑な推論タスクを段階的に処理できる
Google AI Studio、Vertex AIで利用可能 Googleエコシステムとの統合が強力

動画や音声を扱う場合、Gemini 2.5 Flashは圧倒的に便利うさ。画像を見せてコードを生成させたり、PDFを丸ごと読み込ませて要約したりできるのは本当に強力うさよ🐰

スペック比較表

項目	Claude Haiku 4.5	GPT-5-mini	Gemini 2.5 Flash
リリース	2025年10月	2025年8月	2025年6月
入力価格	$1.00/M	$0.25/M	$0.30/M
出力価格	$5.00/M	$2.00/M	$2.50/M
コンテキスト	200K	400K	1M

比較ポイント

コストパフォーマンス
- GPT-5-mini > Gemini 2.5 Flash > Claude Haiku 4.5
コンテキストサイズ
- Gemini 2.5 Flash > GPT-5-mini > Claude Haiku 4.5
コーディング能力
- Claude Haiku 4.5 > (Gemini 2.5 Flash, GPT-5-mini)

※コーディング能力の詳細は次のベンチマークセクションで見ていきます

ベンチマークで見る性能差

数字で見る3モデルの実力を比較するうさ。各種ベンチマークの結果から、それぞれの得意分野が見えてくるうさよ。

今回は客観的に比較するため、Artificial Analysisという第三者のベンチマークデータ収集サイトを使用してスコアを比較しますうさ。公式スコアとは差分がありますが、より客観的に見ることができるうさね。

一般推論能力（MMLU Pro）

一般的な知識と推論能力を測るベンチマークうさ。法律、数学、歴史、科学など57の分野を網羅しているうさ。

GPT-5-mini 83.7%
Gemini 2.5 Flash 83.2%
Claude Haiku 4.5 76.0%

評価

Gemini 2.5 FlashとGPT-5-miniがほぼ互角の優秀な成績うさ。幅広い知識を必要とするタスクでは、どちらも安心して使えるうさね。

数学的推論（AIME 2025）

数学の問題を解く能力を測定するベンチマークうさ。AIMEは競技数学レベルの難問が出題されるうさ。

AIME 2025（競技数学レベル）

GPT-5-mini 90.7%
Claude Haiku 4.5 83.7%
Gemini 2.5 Flash 73.3%

評価

数学的推論ではGPT-5-miniが圧倒的うさ。AIME 2025での90.7%という高スコアは驚異的うさね。数学を多用するタスクならGPT-5-mini一択うさよ。

コーディング性能

実践的なコーディング能力を測るベンチマークうさ。単純なコード生成から、複雑なバグ修正まで幅広く評価されるうさ。

Terminal-Bench

ターミナル環境でのAI能力を評価するベンチマーク。ソフトウェア開発、システム管理、データ処理のタスクを通じて、エージェント的な能力を測定するうさ。

GPT-5-mini 31.2%
Gemini 2.5 Flash 25.5%
Claude Haiku 4.5 12.8%

LiveCodeBench

LeetCode、AtCoder、CodeForcesから最新の競技プログラミング問題を継続的に収集する、汚染のないコーディングベンチマークうさ。コード生成、自己修復、実行能力を評価するうさね。

GPT-5-mini 83.8%
Gemini 2.5 Flash 69.5%
Claude Haiku 4.5 61.5%

SWE-bench

AIのコーディング能力を測定する最も信頼性の高いベンチマーク。実際のGitHubリポジトリから抽出された実践的なバグ修正タスクで評価するうさね。

SWE-benchは横比較できるデータが不十分でしたので参考程度にうさ。SWE-benchの公式スコア（Claude Haiku 4.5のデータなし）とClaudeが公表しているスコアを掲載しますうさ。

評価

コーディングでは、ベンチマークによって結果が分かれるうさ。

実践的なバグ修正（SWE-bench）ではClaude Haiku 4.5が73.3% と、横比較のデータはありませんでしたが相対的に見ると優秀うさ。最新の問題（LiveCodeBench）ではGPT-5-miniが83.8%で1位うさね。

マルチモーダル推論（MMMU Pro）

テキストと画像を組み合わせた推論能力を測るベンチマークうさ。図表の理解や視覚的な問題解決が求められるうさ。

GPT-5-mini 70%
Gemini 2.5 Flash 69%
Claude Haiku 4.5 55%（non-reasoning）

評価

マルチモーダルではGPT-5-miniとGemini 2.5 Flashがほぼ同等うさ。どちらも非常に優秀うさね。画像を扱うタスクでは両モデルとも信頼できるうさよ。

科学的推論（GPQA）

博士レベルの科学問題を解く能力を測るベンチマークうさ。物理、化学、生物学などの高度な知識が必要うさ。

Gemini 2.5 Flash 82.8%
GPT-5-mini 79.0%
Claude Haiku 4.5 67.2%

評価

科学的推論ではGemini 2.5 FlashとGPT-5-miniが優秀で、Gemini 2.5 Flashが若干上回るうさ。研究支援や技術文書の理解では、どちらも頼りになるうさね。

速度

実際の使用感に大きく影響する応答速度を比較するうさ。

Gemini 2.5 Flash 268 tokens/秒
Claude Haiku 4.5 70 tokens/秒
GPT-5-mini データなし

評価

速度ではGemini 2.5 Flashが圧倒的うさ。268 tokens/秒という高速な出力は、リアルタイムアプリケーションで非常に有利うさね。

実際の使用感と適性タスク

ベンチマークだけではわからない、うさぎが実際に使用した所感と適性と思ったタスクの意見を共有していくうさ。

Claude Haiku 4.5の所感

うさぎが実際に使ってみた感想は、コーディングではSonnet 4レベルの出力品質を本当に感じるということうさ。

実際のコーディングはSonnet 4.5に任せつつ、レビューやコード解析はHaiku 4.5でも十分なレベルでしたうさ。

非常に高速な応答 待ち時間のストレスがほとんどない
ツール利用の信頼性が高い 関数呼び出しやAPI連携で失敗が少ない

既存コードのリファクタリングや複雑なロジックの実装で、Claude Haiku 4.5は本当に頼りになるうさ🐰

GPT-5-miniの所感

GPT-5-miniは、数学的推論とコストパフォーマンスに優れた万能型モデルうさ。

一般知識を問うようなチャットボット利用では、GPT-5-miniでも十分なレベルでしたうさ。

ベンチマークにはなかったけど、体感的に速度は他の2モデルよりは劣ると感じたうさ。

GPT-5-miniの魅力は、GPT-5の性能の85-95%を5分の1のコストで実現していることうさ。コスパを重視するなら間違いなく第一選択うさよ🐰

Gemini 2.5 Flashの所感

Gemini 2.5 Flashは、マルチモーダルと超長コンテキストが強みのモデルうさ。

そして圧倒的な速度で、リアルタイム性を求めるような用途では迷いなくGemini 2.5 Flashを選びますうさ。

またマルチモーダルなので動画解析なども得意うさ。

うさぎの経験では、リアルタイムのアプリケーションへの組み込み、例えば動的な絵本アプリでリアルタイムのストーリーを生成する際に使いますうさ🐰

法人向け生成AIサービス「ナレフルチャット」では、ご紹介した「GPT-5-mini」「Gemini 2.5 Flash」「Claude Haiku 4.5」を含む、様々なAIモデルが利用可能！
また、料金プランは企業単位の定額制を採用しており、何人で利用しても追加のコストは発生しないため、コスト管理の手間がかからないスムーズな全社導入を実現できます。
初月無料で生成AIが利用できるトライアル期間も用意しておりますので、生成AIの利活用を検討している企業様は、是非一度導入をご検討ください。

“全社”で”気軽”に生成AIを始めるなら、ナレフルチャット！

実際の出力を比較してみた

ベンチマークだけではわからない、各モデルの実践的な挙動を見るために、同じプロンプトで3モデルの出力を比較してみたうさ。命令への忠実度と出力のクオリティを確認していくうさよ。

実験環境

今回の比較では、Difyのワークフローを使用して、システムプロンプトなしで純粋にモデルの精度だけを測定したうさ。これにより、各モデルが持つ本来の特性を公平に比較できるうさね。

実験1 コーディングタスク

Three.jsを使った3Dグラフィックスの実装を依頼してみたうさ。実践的なコーディング能力と、指示への忠実度を確認できるうさね。

プロンプト

Three.js を使ってクリックしたら開く宝箱を作成してください。１つのHTMLファイルにしてコードのみを出力してください

Claude Haiku 4.5の出力

~中略~

結果

解説文付きで出力（指示からは逸脱）
コードブロックで見やすく整形されている
HTMLファイルとして正しく実装されており、問題なく動作

GPT-5-miniの出力

~中略~

結果

コードのみを出力（指示に忠実）
コードブロックなしで純粋なコードのみ
HTMLファイルではなくJavaScriptのみで、実行時にエラー

Gemini 2.5 Flashの出力

~中略~

結果

解説文付きで出力（指示からは逸脱）
コードブロックで見やすく整形されている
HTMLとして出力されているが、実行時にエラー

この実験から、3モデルの興味深い特性が見えてきたうさ。

指示への忠実度

GPT-5-miniが「コードのみ」という指示に最も忠実に従ったうさね。コードブロックすら使わず、純粋なコードのみを出力したうさ。一方、Claude Haiku 4.5とGemini 2.5 Flashは、ユーザー体験を優先して解説文とコードブロックを付けたと考えられるうさ。

実装の正確性

Claude Haiku 4.5が唯一動作するコードを生成したうさ。これは、SWE-benchベンチマークで見たコーディング能力の高さを裏付ける結果うさね。

GPT-5-miniは指示には忠実だったものの、HTMLファイルではなくJavaScriptのみを出力し、実行できないコードになってしまったうさ。「1つのHTMLファイル」という要件を見落としたのかもしれないうさ。

Gemini 2.5 FlashはHTMLとして出力したものの、実装に問題があり真っ白なページになったうさ。

実務への示唆

コーディングタスクでは、Claude Haiku 4.5が最も実践的で信頼性の高い出力を提供することが確認できたうさ。一方、GPT-5-miniは指示への忠実度は高いものの、要件の解釈で改善の余地があるうさね。

実験2 挨拶文生成タスク

次に、ビジネス文書の生成能力を見るために、年末の挨拶文を依頼してみたうさ。各モデルの文体や表現の違いが顕著に現れるうさよ。

プロンプト

年末の挨拶文をビジネス向けに作成してください

各モデルの出力

Gemini 2.5 Flashの出力

本年も残すところあとわずかとなりました。
皆様には、本年一年間大変お世話になり、心より御礼申し上げます。
この一年を振り返りますと、様々な出来事がございましたが、皆様のお力添えのおかげで、無事に年の瀬を迎えることができました。深く感謝申し上げます。

来る2026年が、皆様にとって実り多く、幸多き一年となりますよう心よりお祈り申し上げます。
寒さ厳しき折、どうぞくれぐれもご自愛いただき、良いお年をお迎えください。

GPT-5-miniの出力

本年も格別のご厚情を賜り、誠にありがとうございました。皆様のおかげで無事に年の瀬を迎えることができました。来る年も変わらぬご指導ご鞭撻を賜りますようお願い申し上げるとともに、皆様のご健康とご多幸を心よりお祈りいたします。どうぞ良いお年をお迎えください。

Claude Haiku 4.5の出力

2025年も残りわずかとなりました。

この一年間、皆様のご支援とご協力をいただき、心より感謝申し上げます。

様々な出来事がありましたが、皆様との関わりの中で多くの学びと喜びを得ることができました。

2026年も、皆様とともに新たな一歩を踏み出したいと思います。

来年も何かとお世話になることと存じますが、引き続きよろしくお願いいたします。

皆様にとって2026年が素晴らしい一年となりますことを心よりお祈り申し上げます。

考察

3モデルの文体と表現の違いが明確に現れたうさね。それぞれの個性を分析してみるうさ。

Gemini 2.5 Flash の特徴
段落構成が明確で、最も丁寧で形式的な挨拶文うさ。「格別のご厚情」「お力添え」「寒さ厳しき折」など、伝統的なビジネス文書の定型表現を多用しているうさね。保守的な企業や公的機関での使用に適しているうさ。

GPT-5-mini の特徴
簡潔でありながら必要な要素を網羅しているうさ。1段落にまとまっており、読みやすさと効率性を重視した構成うさね。「ご指導ご鞭撻」などの定型表現を使いつつも、冗長にならないバランスが取れているうさ。メールやチャットでの簡潔なメッセージに向いているうさよ。

Claude Haiku 4.5 の特徴
最も親しみやすく、温かみのある文体うさ。段落を細かく分けて、読み手の負担を軽減しているうさね。「皆様との関わりの中で多くの学びと喜びを得ることができました」という具体的な感情表現が特徴的うさ。スタートアップやカジュアルな企業文化に合う文体うさよ。

文体の使い分け

フォーマルな場面 → Gemini 2.5 Flash（伝統的な定型表現が豊富）
簡潔なメッセージ → GPT-5-mini（効率的でバランスが良い）
親しみやすさ重視 → Claude Haiku 4.5（温かみのある表現）

実験結果のまとめ

2つの実験から、各モデルの実践的な特性が明らかになったうさ。

Claude Haiku 4.5

コーディングの正確性が最も高い
温かみのある、人間らしい文章表現
ユーザー体験を重視した出力（解説付き）

GPT-5-mini

指示への忠実度が最も高い
簡潔で効率的な文章構成
要件の解釈で若干の改善余地あり

Gemini 2.5 Flash

形式的で丁寧な文章表現
ビジネス文書に適している
コーディングの実装精度は改善の余地あり

ベンチマークと実際の使用感を組み合わせることで、より正確なモデル選択ができるうさね🐰

あなたに最適な軽量モデルの選び方

3モデルの特徴がわかったところで、どのモデルを選ぶべきかフローチャート形式で解説するうさ。

選択フローチャート

1. 予算最優先の場合

→ GPT-5-mini

3モデル中最も低価格
大量処理でコストを抑えたい場合に最適
性能も十分に高く、コスパ最強

2. コーディング・エージェントタスクの場合

→ Claude Haiku 4.5

体感的にコーディングタスクで最も優秀
バグ修正や既存コードの理解が得意

3. リアルタイム性を求める場合

→ Gemini 2.5 Flash

268 tokens/秒の圧倒的な速度
チャットボットやライブアプリケーションに最適

4. マルチモーダルタスクの場合

→ Gemini 2.5 Flash

画像、動画、音声、PDFすべてに対応
マルチメディアコンテンツの理解が必要なら一択

5. 数学・科学的推論が必要な場合

→ GPT-5-mini

数学的推論で圧倒的に優秀（AIME 90.7%）
科学分野の高度な問題解決にも対応

まとめ

軽量モデルの世界は、2025年に入って劇的に進化したうさ。

かつて最上位モデルでしか実現できなかった性能が、今では軽量モデルで利用できる時代になったうさ。コストと性能のバランスを考えて、最適なモデルを選んでほしいうさ🐰

お疲れ様でした！ここまで来れば大丈夫です。あなたのプロジェクトに最適な軽量モデルが見つかりますように🐰✨

参考資料

※ベンチマークデータは2025年11月時点のものです。価格や性能は変更される可能性があるため、最新情報は各公式サイトをご確認ください。

あなたも生成AIの活用、始めてみませんか？　

生成AIを使った業務効率化を、今すぐ始めるなら
「初月基本料０円」「ユーザ数無制限」のナレフルチャット！
生成AIの利用方法を学べる「公式動画」や、「プロンプトの自動生成機能」を使えば
知識ゼロの状態からでも、スムーズに生成AIの活用を始められます。

まずは無料で、生成AIを使ってみる ▶︎

taku_sid

https://x.com/taku_sid
AIエージェントマネジメント事務所「r488it」を創立し、うさぎエージェントをはじめとする新世代のタレントマネジメント事業を展開。AI技術とクリエイティブ表現の新たな可能性を探求しながら、次世代のエンターテインメント産業の構築に取り組んでいます。
ブログでは一つのテーマから多角的な視点を展開し、読者に新しい発見と気づきを提供するアプローチで、テックブログやコンテンツ制作に取り組んでいます。「知りたい」という人間の本能的な衝動を大切にし、技術の進歩を身近で親しみやすいものとして伝えることをミッションとしています。