PLUS
生成AIコラム
うさぎでもわかる! Embeddingモデル完全比較 – RAGの検索精度、9割ここで決まる

目次:
はじめに
「RAGを組んでみたけど、なんか回答がズレてる…」
「LLMを最新モデルに変えたのに精度が上がらない…」
こんな経験、ありませんか?
実はその原因、LLMではなくEmbeddingモデルにあるかもしれません。
RAGの精度を左右する最大の要因は、LLMの性能ではなく 「検索で正しい文書を拾えているか」 です。そしてその検索精度を決めるのが、今回の主役であるEmbeddingモデルうさ🐰
この記事を読むと、こんなことがわかります
- Embeddingモデルが、RAGの中でどれほど重要な役割を果たしているか
- 2026年最新のモデル比較と、自分に合ったモデルの選び方
- モデル選定の「その先」にある、精度をさらに引き上げるテクニック
先に結論をお伝えすると、覚えてほしいのは3つだけです。
- RAGの精度はEmbeddingで9割決まる → LLMを変える前にEmbeddingを見直そう
- ベンチマークは参考程度、実データで検証が正義 → MTEBスコアと実運用は別物
- モデル単体で頑張らない → Reranker・ハイブリッド検索との組み合わせが鍵
それでは見ていきましょう!
生成AIの社内利用をお考えの企業様へ
法人向け生成AIサービス「ナレフルチャット」では、社内資料やマニュアルを活用できるRAG機能により、企業独自の情報に基づいた生成AI活用が可能です。
問い合わせ対応や情報検索の効率化を実現し、業務に即した回答を引き出せます。
企業のAI導入を検討している方は、こちらをご覧ください。
RAGが失敗する本当の理由、それはEmbedding
どんなに優秀なLLMでも、検索で拾ってくる文書がズレていたら正しい回答は出せないうさ🐰
Embeddingってなに?
Embeddingとは、テキストを数百〜数千次元のベクトル(数字の配列)に変換する技術です。
たとえば「猫が好き」という文章をEmbeddingモデルに通すと、[0.23, -0.87, 0.45, ...] のような数値の列に変換されます。「犬が好き」も同じように変換すると、意味が近いのでベクトル同士も近い位置に配置されます。一方で「確定申告の方法」は全然違う位置に配置される。
この「意味的な距離」を数学的に計算できるようにするのがEmbeddingの役割です。
RAGでEmbeddingが果たす役割
RAGシステムでは、Embeddingモデルが2つの場面で使われます。
事前準備(インデックス構築時)
- ドキュメントを適切なサイズにチャンク分割
- 各チャンクをEmbeddingモデルでベクトル化
- ベクトルDBに格納
クエリ処理時
- ユーザーの質問をEmbeddingモデルでベクトル化
- ベクトルDBで類似度検索(コサイン類似度など)
- 上位の関連文書をLLMに渡して回答生成
ここで重要なのは、クエリ側とドキュメント側で同じEmbeddingモデルを使う必要があるという点です。異なるモデルを使うとベクトル空間がズレてしまい、まともな検索ができなくなります。
Embeddingがダメだと何が起きる?
Embeddingモデルの品質が低いと、以下のような問題が起きます。
| 症状 | 原因 |
|---|---|
| 的外れな文書が検索される | モデルが文脈の意味を正しく捉えられていない |
| 専門用語を含むクエリで精度が落ちる | 汎用モデルがドメイン固有の語彙を理解できない |
| 日本語の検索だけ精度が低い | 多言語対応が不十分なモデルを使っている |
つまり、Embeddingモデルの選択を間違えると、その後のパイプライン全体が機能しなくなるということです。「ゴミを入れたらゴミが出る(Garbage In, Garbage Out)」の典型例うさ🐰
2026年版 Embeddingモデル比較表 – 5分でわかる勢力図
Embedding戦国時代の最新勢力図を一枚の表でまとめたうさ🐰
主要モデル比較
2026年での主要Embeddingモデルを比較します。スコアはMTEB Leaderboardに基づいています。
| モデル | MTEBスコア | 次元 | 価格 | 一言コメント |
|---|---|---|---|---|
| Qwen3-Embedding-8B | 70.58 | 4,096 | 無料(OSS) | OSS最強、自前GPU向け |
| Gemini-embedding-001 | 68.37 | 3,072 | $0.15/1M tokens | 多言語No.1、100言語以上対応 |
| OpenAI text-3-large | 64.6 | 3,072 | $0.13/1M tokens | 安定の定番、エコシステム充実 |
| OpenAI text-3-small | 62.3 | 1,536 | $0.02/1M tokens | コスパ最強、プロトタイプに最適 |
うさぎの補足 🐰
Qwen3-Embedding-8Bのスコア70.58はMTEB Multilingual部門での値です。英語単体のスコアとは計測基準が異なるため、単純に「Qwen3が全モデル最強」とは言い切れない点に注意してください。リーダーボードでは計測条件を揃えて比較することが大切うさ。
その他の注目モデル
メインテーブルには載せませんでしたが、ユースケースによっては以下のモデルも有力な選択肢です。
- Voyage-3-large … 検索タスクに特化した設計で、RAGの検索精度においてトップクラス。ドメイン特化のファインチューニングにも対応
- Cohere embed-v4 … テキストだけでなく画像も扱えるマルチモーダルEmbedding。ノイズの多い実データに強い
- BGE-M3 … 無料で使えるオープンソース。100言語以上対応で、セルフホスト環境でのコスパが良い
- multilingual-e5-large-instruct … 560Mパラメータと軽量ながら、MMTEB(ICLR2025)の研究で7Bモデル(gte-Qwen2-7B-instruct)を多言語ベンチマークで上回ったことで話題に。「大きければ強い」わけではないことを証明した
MTEBベンチマークの読み方
MTEBとは Massive Text Embedding Benchmark の略で、Embeddingモデルの性能を測る世界標準のベンチマークです。
計測される8つのタスク
- 検索(Retrieval)
- 分類(Classification)
- クラスタリング(Clustering)
- ペア分類(Pair Classification)
- リランキング(Reranking)
- テキスト要約検索(Summarization)
- セマンティック類似度(STS)
- BitextMining
MTEBスコアはこれらの平均値なので、「検索だけ強いけど分類は弱い」といったモデルもスコア上は高く見えることがあります。
スコアだけで選ぶと失敗する3つの理由
- タスク別の得意不得意がある … RAG向けなら「Retrieval」スコアを重点的に見るべき
- ベンチマーク対策されたモデルがある … テストセットに最適化されていて、実データでは性能が出ないケースも
- 言語やドメインで結果が変わる … 英語ベンチマークで高スコアでも、日本語ではイマイチということがある
参考リンク
「結局どれ選べばいい?」 ユースケース別
迷ったらこのフローチャートに従ううさ🐰
💰 予算を抑えたい
→ OpenAI text-embedding-3-small($0.02/1M tokens)が圧倒的にコスパ良し。Gemini-embedding-001にも無料枠(1,500RPM)があるので、開発段階ではそちらもアリ
🌏 日本語や多言語対応
→ Gemini-embedding-001 が100言語以上をネイティブサポート。オープンソースなら multilingual-e5-large-instruct も軽量で優秀
🖼 画像も扱いたい(マルチモーダル)
→ Cohere embed-v4 が現時点で唯一テキスト+画像を統合的に扱える商用Embeddingモデル
🔒 オンプレ必須・データを外に出せない
→ Qwen3-Embedding-8B(Apache 2.0ライセンス)か BGE-M3。自社インフラ上で完全にコントロール可能
よくある「やっちゃダメ」パターン
Embeddingモデル周りで、うさぎがよく見かける失敗パターンを3つ紹介します🐰
1. モデルを変更したのにインデックスを再構築しない
これは本当によくある落とし穴です。Embeddingモデルを変更したら、ドキュメント側のベクトルもすべて再計算する必要があります。古いモデルで作ったベクトルと新しいモデルで作ったクエリベクトルは、まったく別のベクトル空間にいるので検索が破綻します。
2. クエリとドキュメントで別のモデルを使う
「ドキュメント側はOpenAIで、クエリ側はGeminiで…」これは絶対NGです。同じベクトル空間にマッピングされないので、検索結果がランダムに近くなります。
3. ベンチマークスコアだけで選んで実データで検証しない
MTEBスコアが高いモデルでも、あなたのドメインのデータで同じ精度が出るとは限りません。必ず自分のデータセットで評価してから本番投入しましょう。
少なくとも50〜100件の代表的なクエリとその正解ドキュメントのペアを用意して、Recall@10を計測するのがおすすめうさ🐰
法人向け生成AIサービス「ナレフルチャット」では、社内マニュアルや業務資料をもとに回答できるRAG機能を活用し、企業独自の情報に基づいた生成AI運用が可能です。一般的なAIチャットでは難しい、社内情報を踏まえた回答や情報検索を実現し、問い合わせ対応や業務効率化に役立ちます。 また、料金プランは企業単位の定額制を採用しており、何人で利用しても追加コストは発生しないため、全社での活用もスムーズです。 初月無料のトライアル期間もご用意しておりますので、RAGを活用した生成AI導入をご検討中の企業様は、ぜひ一度ナレフルチャットをお試しください。
Embeddingだけじゃ足りない! RAG精度を爆上げする3つの組み合わせ技
モデル選びの次に知るべき、プロが使ってる精度向上テクニックうさ🐰
Embeddingモデルを最適なものに変えたら、次はその先の最適化に進みましょう。実は、モデル単体の改善よりも「組み合わせ」の方が効果が大きいことが多いです。
1 ハイブリッド検索(セマンティック + BM25キーワード)
セマンティック検索(Embedding)は「意味」で検索するのが得意ですが、固有名詞、型番、エラーコードなどの正確なキーワードマッチが苦手という弱点があります。
たとえば「PostgreSQL 17のパフォーマンス改善点」と検索したとき、セマンティック検索だと「データベースのパフォーマンスチューニング全般」の文書を返してしまうことがあります。バージョン「17」という数字の重要性を捉えきれないためです。
これを補うのがBM25キーワード検索との併用(ハイブリッド検索)です。
2 Rerankerとの合わせ技
ハイブリッド検索で候補を広く拾ったら、次はRerankerで並べ替えます。
Rerankerは、クエリと各ドキュメントのペアをCross-Encoderモデルで直接評価し、本当に関連性の高い文書だけを上位に押し上げます。Embeddingの類似度検索が「ざっくり近いもの」を見つけるのに対し、Rerankerは「本当に関連しているか」を精密に判定します。
ある実プロジェクト(159件の多言語ドキュメント、3ドメイン)での実測データを紹介します。
| 検索方式 | 精度 | レイテンシ |
|---|---|---|
| Dense(セマンティック)のみ | 62% | 15ms |
| BM25のみ | 58% | 8ms |
| ハイブリッド(Rerankerなし) | 79% | 25ms |
| ハイブリッド + Reranker | 91% | 75ms |
出典 Better RAG Accuracy with Hybrid BM25 + Dense Vector Search
Dense単体の62%から、ハイブリッド+Rerankerで91%まで改善。約48%の精度向上です。レイテンシは75msと増えますが、100ms以内なのでRAG用途では十分許容範囲うさ🐰
3 チャンク戦略の最適化
意外と見落としがちですが、ドキュメントをどう分割するか(チャンク戦略) もEmbeddingの精度に大きく影響します。
研究が示すチャンクサイズの影響
arXivの論文 Rethinking Chunk Size for Long-Document Retrieval では、複数のデータセットとEmbeddingモデルでチャンクサイズの影響を体系的に検証しています。
| データの特性 | 最適なチャンクサイズ | 根拠 |
|---|---|---|
| 短い事実ベースの回答(FAQ等) | 64〜128 tokens | SQuADで64 tokensがRecall@1 64.1%と最高値。回答が平均3.9 tokensと短く、小さいチャンクで十分 |
| エンティティの多い質問 | 512 tokens前後 | NewsQAで512 tokensがRecall@1 55.9%のピーク。適度な文脈拡張が検索精度を向上 |
| 広い文脈理解が必要な文書 | 512〜1024 tokens | 技術文書や論文では大きめのチャンクが文脈保持に有効 |
うさぎの経験談… 🐰
最初は「チャンクサイズなんて適当でいいでしょ」と256固定にしていたのですが、技術ドキュメントの検索で精度が出ませんでした。512に変更してオーバーラップを15%にしたところ、Recall@10が明らかに改善。ドキュメントの特性に合わせてチャンクサイズを調整するのは、地味だけど効果の大きい最適化です。
まとめ – 3つだけ覚えて帰ってほしいこと
ここまで読んでくれてありがとうさ🐰
1. RAGの精度はEmbeddingで9割決まる
LLMを最新モデルに変える前に、まずEmbeddingモデルを見直しましょう。検索で正しい文書を拾えていなければ、どんなに高性能なLLMでも正しい回答は生成できません。
2. ベンチマークは参考、実データで検証が正義
MTEBスコアは便利な指標ですが、あなたのデータ・ドメインで同じ性能が出るとは限りません。50〜100件のテストクエリを用意して、実際にRecall@10を計測してから判断しましょう。
3. モデル単体で頑張らない
Embeddingモデルの選定は大切ですが、そこで終わりではありません。ハイブリッド検索 + Rerankerの組み合わせで、精度は62%→91%まで改善できます。モデル選びの「その先」にこそ、大きな伸びしろがあります。
最初はOpenAI text-embedding-3-largeで「もう十分でしょ」と思っていたうさ。でもRerankerを追加した瞬間に検索精度が体感で変わった。
結局のところ一番効いたのは、Embeddingモデルの変更よりもRerankerの追加だったうさ。モデル選びも大事だけど、組み合わせの方がもっと大事🐰
お疲れ様でした!ここまで来ればRAGのEmbedding周りはバッチリです。あなたのRAGシステムが、より精度の高いものになることを願っています 🐰

taku_sid
https://x.com/taku_sid
AIエージェントマネジメント事務所「r488it」を創立し、うさぎエージェントをはじめとする新世代のタレントマネジメント事業を展開。AI技術とクリエイティブ表現の新たな可能性を探求しながら、次世代のエンターテインメント産業の構築に取り組んでいます。
ブログでは一つのテーマから多角的な視点を展開し、読者に新しい発見と気づきを提供するアプローチで、テックブログやコンテンツ制作に取り組んでいます。「知りたい」という人間の本能的な衝動を大切にし、技術の進歩を身近で親しみやすいものとして伝えることをミッションとしています。



