Gemini Embedding 2: O Primeiro Modelo de Embeddings Multimodal do Google (Guia Completo)

O Gemini Embedding 2 é o primeiro modelo de embeddings nativo multimodal do Google. Unifica texto, imagem, vídeo e áudio num único espaço vetorial. Veja como usar.

12 min de leitura Atualizado em 12/03/2026

Em 10 de março de 2026, o Google lançou o que pode ser o avanço mais significativo em embeddings desde o surgimento do Word2Vec: o Gemini Embedding 2.

Não é apenas mais um modelo de embeddings de texto. É o primeiro modelo nativo multimodal — que unifica texto, imagens, vídeo, áudio e documentos PDF em um único espaço vetorial.

Isso significa que você pode buscar uma imagem usando uma frase de texto. Encontrar um trecho de vídeo com uma pergunta escrita. Comparar um áudio com um documento. Tudo no mesmo índice, sem pipeline separado.

Neste guia, vou cobrir tudo: specs técnicas, benchmarks, código de exemplo, preços e casos de uso reais.

O que é o Gemini Embedding 2

O Gemini Embedding 2 (nome da API: gemini-embedding-2-preview) é o novo modelo de embeddings do Google, lançado em public preview via Gemini API e Vertex AI.

Seu predecessor, o gemini-embedding-001, era exclusivamente de texto. O Embedding 2 expande isso para cinco modalidades:

  • Texto — até 8.192 tokens, 100+ idiomas
  • Imagens — até 6 imagens por requisição (PNG, JPEG)
  • Áudio — até 80 segundos (MP3, WAV)
  • Vídeo — até 128 segundos (MP4, MOV)
  • Documentos — até 6 páginas PDF

Todas as modalidades são mapeadas para o mesmo espaço vetorial. Isso é a parte revolucionária — não são pipelines separados conectados. É um modelo único que entende a relação semântica entre tipos de conteúdo diferentes.

O que significa embeddings multimodais

Para entender a importância do Gemini Embedding 2, é preciso entender o que embeddings fazem. Um embedding transforma qualquer conteúdo em um vetor numérico — uma lista de números que representa o significado daquele conteúdo.

Até agora, embeddings de texto ficavam em um espaço vetorial e embeddings de imagem ficavam em outro. Se você queria buscar imagens com texto, precisava de um pipeline complexo: um modelo pra texto, outro pra imagem, e alguma forma de conectar os dois.

O Gemini Embedding 2 elimina essa complexidade. Ele coloca tudo no mesmo espaço. Um texto sobre "pôr do sol na praia" e uma foto de um pôr do sol na praia ficam próximos no espaço vetorial, porque o modelo entende que representam o mesmo conceito.

Na prática, isso permite:

  • Buscar imagens com queries de texto (e vice-versa)
  • Encontrar trechos de vídeo com perguntas escritas
  • Indexar documentos PDF com gráficos e tabelas como um todo
  • Comparar áudios de reunião com documentos de briefing
  • Criar sistemas de RAG verdadeiramente multimodais

Especificações técnicas completas

Spec Embedding 001 Embedding 2
ModalidadesTexto apenasTexto + Imagem + Vídeo + Áudio + PDF
Token limit2.0488.192
Dimensões output128 — 3.072128 — 3.072
Imagens/requisiçãoaté 6 (PNG, JPEG)
Áudio max80 segundos
Vídeo max128 segundos
PDF max6 páginas
Idiomas100+100+
Preço/1M tokensUS$ 0,15US$ 0,20
StatusGAPreview

Quer implementar busca inteligente com IA no seu negócio?

A Café Online implementa sistemas de busca semântica e agentes de IA personalizados. Do RAG básico ao multimodal.

Falar com Especialista

Matryoshka Representation Learning (MRL)

Uma das features mais elegantes do Gemini Embedding 2 é o suporte a Matryoshka Representation Learning — uma técnica que permite escolher a dimensão do vetor sem re-treinar o modelo.

O modelo gera vetores de até 3.072 dimensões. Mas você pode truncar esse vetor para dimensões menores e manter qualidade próxima do máximo:

Dimensões MTEB Score Armazenamento relativo Recomendação
3.07268,16100%Máxima precisão
1.53668,1750%Ótimo custo-benefício
76867,9925%Recomendado pelo Google
1284%Alta compressão, edge cases

Perceba: com 768 dimensões (25% do armazenamento), a queda de qualidade é de apenas 0,17 pontos. Isso é praticamente imperceptível na prática e economiza 75% de espaço no banco vetorial.

Benchmarks e performance

O Gemini Embedding 2 lidera os principais benchmarks de embeddings do mercado. Aqui está a comparação com os concorrentes diretos:

Modelo MTEB Geral MTEB Code MTEB Multilingual
Gemini Embedding 268,184,069,9
Cohere embed-v465,2
OpenAI text-embedding-3-large64,6
BGE-M363,0

Destaque especial para o MTEB Code com score 84,0 — o melhor do mercado para embeddings de código-fonte. Se você trabalha com busca semântica em repositórios, documentação técnica ou assistentes de código, essa é a melhor opção disponível.

O Google também afirma que o Embedding 2 supera o Amazon Nova 2 e o Voyage Multimodal 3,5 em tasks de texto-para-vídeo — a área onde o modelo realmente brilha por ser nativo multimodal.

Como usar na prática

A integração com o Gemini Embedding 2 é feita via Gemini API. Aqui estão exemplos práticos:

Embedding de texto (Python)

import google.generativeai as genai

genai.configure(api_key="SUA_API_KEY")

# Embedding de texto simples
result = genai.embed_content(
    model="models/gemini-embedding-2-preview",
    content="Busca semântica com IA multimodal",
    output_dimensionality=768  # MRL: escolha a dimensão
)

print(f"Dimensões: {len(result['embedding'])}")
print(f"Primeiros 5 valores: {result['embedding'][:5]}")

Embedding de imagem

from PIL import Image

# Embedding de imagem
img = Image.open("produto.jpg")
result = genai.embed_content(
    model="models/gemini-embedding-2-preview",
    content=img,
    output_dimensionality=768
)

# Agora você pode comparar com embeddings de texto
# usando distância cosseno no mesmo espaço vetorial

Busca multimodal com LangChain

from langchain_google_genai import GoogleGenerativeAIEmbeddings
from langchain_community.vectorstores import Chroma

# Configurar embeddings
embeddings = GoogleGenerativeAIEmbeddings(
    model="models/gemini-embedding-2-preview",
    google_api_key="SUA_API_KEY"
)

# Criar vector store
vectorstore = Chroma.from_documents(
    documents=docs,
    embedding=embeddings
)

# Buscar com texto (encontra texto, imagens, vídeos, PDFs)
results = vectorstore.similarity_search(
    "gráfico de vendas do último trimestre",
    k=5
)

Casos de uso reais

O Gemini Embedding 2 abre possibilidades que simplesmente não existiam antes com embeddings tradicionais:

1. E-commerce visual

O cliente descreve o que quer ("vestido vermelho midi para casamento") e o sistema busca nas fotos dos produtos. Sem tags manuais, sem categorização prévia — a busca é puramente semântica.

2. Base de conhecimento corporativa

Empresas têm conhecimento em PDFs, gravações de reunião, vídeos de treinamento e wikis de texto. Com embeddings multimodais, tudo vai pro mesmo índice. Um novo funcionário pergunta "como funciona o processo de onboarding?" e recebe trechos de vídeo, páginas de manual e slides relevantes.

3. Moderação de conteúdo

Comparar imagens/vídeos enviados por usuários contra uma base de conteúdo proibido, usando apenas descrições textuais como referência. Escala sem precisar de datasets visuais enormes.

4. RAG multimodal

Sistemas de chatbot com RAG que conseguem citar não apenas textos, mas apontar frames específicos de vídeos ou seções de documentos com gráficos como evidência.

5. Busca em código

Com score 84,0 no MTEB Code, é ideal para ferramentas de busca semântica em repositórios — encontrar funções por descrição, documentação por conceito, ou bugs por padrão.

Precisa de um sistema de busca inteligente?

Implementamos RAG, busca semântica e agentes de IA personalizados para empresas de todos os tamanhos.

Falar com Especialista

Migração do Embedding 001

Se você já usa o gemini-embedding-001, há um ponto crítico: os espaços vetoriais são incompatíveis.

Isso significa que não é possível misturar vetores do modelo antigo com vetores do novo no mesmo índice. Se migrar, você precisa re-embeddar todo o corpus.

Recomendação prática para migração:

  1. Crie um novo índice/collection no seu banco vetorial
  2. Re-embede todos os documentos com o modelo novo
  3. Teste a qualidade das buscas em paralelo (A/B)
  4. Quando validado, migre o tráfego para o novo índice
  5. Mantenha o índice antigo por 1-2 semanas como fallback

Para corpora grandes, use a Batch API do Google — desconto de 50% e processamento assíncrono ideal para re-embedding massivo.

Preços e comparação de custos

Modelo Preço padrão /1M tokens Preço batch Multimodal
Gemini Embedding 2US$ 0,20US$ 0,10Sim
Gemini Embedding 001US$ 0,15US$ 0,075Não
OpenAI text-embedding-3-largeUS$ 0,13Não
Cohere embed-v4US$ 0,10Não

Considerando que o Embedding 2 oferece multimodalidade nativa e lidera os benchmarks, os US$ 0,20/1M tokens representam um custo-benefício excelente. Sem ele, você precisaria de múltiplos modelos separados — o que sairia significativamente mais caro.

Perguntas Frequentes

O que é o Gemini Embedding 2?+
O Gemini Embedding 2 é o primeiro modelo de embeddings nativo multimodal do Google. Ele unifica texto, imagens, vídeo, áudio e documentos PDF em um único espaço vetorial, permitindo busca semântica entre diferentes tipos de conteúdo.
Qual a diferença entre Gemini Embedding 2 e Embedding 001?+
O Gemini Embedding 001 suportava apenas texto. O Embedding 2 é nativo multimodal — aceita texto, imagens, vídeo, áudio e PDF. Também aumentou o limite de tokens de 2.048 para 8.192 e mantém dimensões de saída de 128 a 3.072.
Quanto custa usar o Gemini Embedding 2?+
O Gemini Embedding 2 custa US$ 0,20 por milhão de tokens no modo padrão e US$ 0,10 por milhão no modo batch (50% de desconto). É um dos modelos de embeddings mais acessíveis do mercado considerando suas capacidades multimodais.
O Gemini Embedding 2 é compatível com o Embedding 001?+
Não. Os espaços vetoriais são incompatíveis. Se você migrar do Gemini Embedding 001 para o 2, precisará re-embeddar todo o seu corpus existente. Não é possível misturar vetores dos dois modelos no mesmo índice.
Quais frameworks suportam o Gemini Embedding 2?+
O Gemini Embedding 2 é suportado nativamente por LangChain, LlamaIndex, Haystack, Weaviate, Qdrant, ChromaDB e Google Vertex AI Vector Search. A integração é feita via Gemini API ou Vertex AI.

Artigos Relacionados

Felipe Zanoni

Felipe Zanoni

Fundador da Agência Café Online. Especialista em agentes de IA, automação empresarial e marketing digital. Ajuda empresas a implementar inteligência artificial de forma prática. Ver perfil completo