Gemini Embedding 2: Embeddings Multimodal do Google

Q: Qual a diferença entre Gemini Embedding 2 e Gemini Embedding 001?

O Gemini Embedding 001 suportava apenas texto. O Gemini Embedding 2 é nativo multimodal — aceita texto, imagens, vídeo, áudio e PDF. Também aumentou o limite de tokens de 2.048 para 8.192 e mantém dimensões de saída de 128 a 3.072.

Em 10 de março de 2026, o Google lançou o que pode ser o avanço mais significativo em embeddings desde o surgimento do Word2Vec: o Gemini Embedding 2.

Não é apenas mais um modelo de embeddings de texto. É o primeiro modelo nativo multimodal — que unifica texto, imagens, vídeo, áudio e documentos PDF em um único espaço vetorial.

Isso significa que você pode buscar uma imagem usando uma frase de texto. Encontrar um trecho de vídeo com uma pergunta escrita. Comparar um áudio com um documento. Tudo no mesmo índice, sem pipeline separado.

Neste guia, vou cobrir tudo: specs técnicas, benchmarks, código de exemplo, preços e casos de uso reais.

O que é o Gemini Embedding 2

O Gemini Embedding 2 (nome da API: gemini-embedding-2-preview) é o novo modelo de embeddings do Google, lançado em public preview via Gemini API e Vertex AI.

Seu predecessor, o gemini-embedding-001, era exclusivamente de texto. O Embedding 2 expande isso para cinco modalidades:

Texto — até 8.192 tokens, 100+ idiomas
Imagens — até 6 imagens por requisição (PNG, JPEG)
Áudio — até 80 segundos (MP3, WAV)
Vídeo — até 128 segundos (MP4, MOV)
Documentos — até 6 páginas PDF

Todas as modalidades são mapeadas para o mesmo espaço vetorial. Isso é a parte revolucionária — não são pipelines separados conectados. É um modelo único que entende a relação semântica entre tipos de conteúdo diferentes.

O que significa embeddings multimodais

Para entender a importância do Gemini Embedding 2, é preciso entender o que embeddings fazem. Um embedding transforma qualquer conteúdo em um vetor numérico — uma lista de números que representa o significado daquele conteúdo.

Até agora, embeddings de texto ficavam em um espaço vetorial e embeddings de imagem ficavam em outro. Se você queria buscar imagens com texto, precisava de um pipeline complexo: um modelo pra texto, outro pra imagem, e alguma forma de conectar os dois.

O Gemini Embedding 2 elimina essa complexidade. Ele coloca tudo no mesmo espaço. Um texto sobre "pôr do sol na praia" e uma foto de um pôr do sol na praia ficam próximos no espaço vetorial, porque o modelo entende que representam o mesmo conceito.

Na prática, isso permite:

Buscar imagens com queries de texto (e vice-versa)
Encontrar trechos de vídeo com perguntas escritas
Indexar documentos PDF com gráficos e tabelas como um todo
Comparar áudios de reunião com documentos de briefing
Criar sistemas de RAG verdadeiramente multimodais

Especificações técnicas completas

Spec	Embedding 001	Embedding 2
Modalidades	Texto apenas	Texto + Imagem + Vídeo + Áudio + PDF
Token limit	2.048	8.192
Dimensões output	128 — 3.072	128 — 3.072
Imagens/requisição	—	até 6 (PNG, JPEG)
Áudio max	—	80 segundos
Vídeo max	—	128 segundos
PDF max	—	6 páginas
Idiomas	100+	100+
Preço/1M tokens	US$ 0,15	US$ 0,20
Status	GA	Preview

Quer implementar busca inteligente com IA no seu negócio?

A Café Online implementa sistemas de busca semântica e agentes de IA personalizados. Do RAG básico ao multimodal.

Falar com Especialista

Matryoshka Representation Learning (MRL)

Uma das features mais elegantes do Gemini Embedding 2 é o suporte a Matryoshka Representation Learning — uma técnica que permite escolher a dimensão do vetor sem re-treinar o modelo.

O modelo gera vetores de até 3.072 dimensões. Mas você pode truncar esse vetor para dimensões menores e manter qualidade próxima do máximo:

Dimensões	MTEB Score	Armazenamento relativo	Recomendação
3.072	68,16	100%	Máxima precisão
1.536	68,17	50%	Ótimo custo-benefício
768	67,99	25%	Recomendado pelo Google
128	—	4%	Alta compressão, edge cases

Perceba: com 768 dimensões (25% do armazenamento), a queda de qualidade é de apenas 0,17 pontos. Isso é praticamente imperceptível na prática e economiza 75% de espaço no banco vetorial.

Benchmarks e performance

O Gemini Embedding 2 lidera os principais benchmarks de embeddings do mercado. Aqui está a comparação com os concorrentes diretos:

Modelo	MTEB Geral	MTEB Code	MTEB Multilingual
Gemini Embedding 2	68,1	84,0	69,9
Cohere embed-v4	65,2	—	—
OpenAI text-embedding-3-large	64,6	—	—
BGE-M3	63,0	—	—

Destaque especial para o MTEB Code com score 84,0 — o melhor do mercado para embeddings de código-fonte. Se você trabalha com busca semântica em repositórios, documentação técnica ou assistentes de código, essa é a melhor opção disponível.

O Google também afirma que o Embedding 2 supera o Amazon Nova 2 e o Voyage Multimodal 3,5 em tasks de texto-para-vídeo — a área onde o modelo realmente brilha por ser nativo multimodal.

Como usar na prática

A integração com o Gemini Embedding 2 é feita via Gemini API. Aqui estão exemplos práticos:

Embedding de texto (Python)

import google.generativeai as genai

genai.configure(api_key="SUA_API_KEY")

# Embedding de texto simples
result = genai.embed_content(
    model="models/gemini-embedding-2-preview",
    content="Busca semântica com IA multimodal",
    output_dimensionality=768  # MRL: escolha a dimensão
)

print(f"Dimensões: {len(result['embedding'])}")
print(f"Primeiros 5 valores: {result['embedding'][:5]}")

Embedding de imagem

from PIL import Image

# Embedding de imagem
img = Image.open("produto.jpg")
result = genai.embed_content(
    model="models/gemini-embedding-2-preview",
    content=img,
    output_dimensionality=768
)

# Agora você pode comparar com embeddings de texto
# usando distância cosseno no mesmo espaço vetorial

Busca multimodal com LangChain

from langchain_google_genai import GoogleGenerativeAIEmbeddings
from langchain_community.vectorstores import Chroma

# Configurar embeddings
embeddings = GoogleGenerativeAIEmbeddings(
    model="models/gemini-embedding-2-preview",
    google_api_key="SUA_API_KEY"
)

# Criar vector store
vectorstore = Chroma.from_documents(
    documents=docs,
    embedding=embeddings
)

# Buscar com texto (encontra texto, imagens, vídeos, PDFs)
results = vectorstore.similarity_search(
    "gráfico de vendas do último trimestre",
    k=5
)

Casos de uso reais

O Gemini Embedding 2 abre possibilidades que simplesmente não existiam antes com embeddings tradicionais:

1. E-commerce visual

O cliente descreve o que quer ("vestido vermelho midi para casamento") e o sistema busca nas fotos dos produtos. Sem tags manuais, sem categorização prévia — a busca é puramente semântica.

2. Base de conhecimento corporativa

Empresas têm conhecimento em PDFs, gravações de reunião, vídeos de treinamento e wikis de texto. Com embeddings multimodais, tudo vai pro mesmo índice. Um novo funcionário pergunta "como funciona o processo de onboarding?" e recebe trechos de vídeo, páginas de manual e slides relevantes.

3. Moderação de conteúdo

Comparar imagens/vídeos enviados por usuários contra uma base de conteúdo proibido, usando apenas descrições textuais como referência. Escala sem precisar de datasets visuais enormes.

4. RAG multimodal

Sistemas de chatbot com RAG que conseguem citar não apenas textos, mas apontar frames específicos de vídeos ou seções de documentos com gráficos como evidência.

5. Busca em código

Com score 84,0 no MTEB Code, é ideal para ferramentas de busca semântica em repositórios — encontrar funções por descrição, documentação por conceito, ou bugs por padrão.

Precisa de um sistema de busca inteligente?

Implementamos RAG, busca semântica e agentes de IA personalizados para empresas de todos os tamanhos.

Falar com Especialista

Migração do Embedding 001

Se você já usa o gemini-embedding-001, há um ponto crítico: os espaços vetoriais são incompatíveis.

Isso significa que não é possível misturar vetores do modelo antigo com vetores do novo no mesmo índice. Se migrar, você precisa re-embeddar todo o corpus.

Recomendação prática para migração:

Crie um novo índice/collection no seu banco vetorial
Re-embede todos os documentos com o modelo novo
Teste a qualidade das buscas em paralelo (A/B)
Quando validado, migre o tráfego para o novo índice
Mantenha o índice antigo por 1-2 semanas como fallback

Para corpora grandes, use a Batch API do Google — desconto de 50% e processamento assíncrono ideal para re-embedding massivo.

Preços e comparação de custos

Modelo	Preço padrão /1M tokens	Preço batch	Multimodal
Gemini Embedding 2	US$ 0,20	US$ 0,10	Sim
Gemini Embedding 001	US$ 0,15	US$ 0,075	Não
OpenAI text-embedding-3-large	US$ 0,13	—	Não
Cohere embed-v4	US$ 0,10	—	Não

Considerando que o Embedding 2 oferece multimodalidade nativa e lidera os benchmarks, os US$ 0,20/1M tokens representam um custo-benefício excelente. Sem ele, você precisaria de múltiplos modelos separados — o que sairia significativamente mais caro.

Perguntas Frequentes

O que é o Gemini Embedding 2?+

O Gemini Embedding 2 é o primeiro modelo de embeddings nativo multimodal do Google. Ele unifica texto, imagens, vídeo, áudio e documentos PDF em um único espaço vetorial, permitindo busca semântica entre diferentes tipos de conteúdo.

Qual a diferença entre Gemini Embedding 2 e Embedding 001?+

O Gemini Embedding 001 suportava apenas texto. O Embedding 2 é nativo multimodal — aceita texto, imagens, vídeo, áudio e PDF. Também aumentou o limite de tokens de 2.048 para 8.192 e mantém dimensões de saída de 128 a 3.072.

Quanto custa usar o Gemini Embedding 2?+

O Gemini Embedding 2 custa US$ 0,20 por milhão de tokens no modo padrão e US$ 0,10 por milhão no modo batch (50% de desconto). É um dos modelos de embeddings mais acessíveis do mercado considerando suas capacidades multimodais.

O Gemini Embedding 2 é compatível com o Embedding 001?+

Não. Os espaços vetoriais são incompatíveis. Se você migrar do Gemini Embedding 001 para o 2, precisará re-embeddar todo o seu corpus existente. Não é possível misturar vetores dos dois modelos no mesmo índice.

Quais frameworks suportam o Gemini Embedding 2?+

O Gemini Embedding 2 é suportado nativamente por LangChain, LlamaIndex, Haystack, Weaviate, Qdrant, ChromaDB e Google Vertex AI Vector Search. A integração é feita via Gemini API ou Vertex AI.

Gemini Embedding 2: O Primeiro Modelo de Embeddings Multimodal do Google (Guia Completo)