Em 10 de março de 2026, o Google lançou o que pode ser o avanço mais significativo em embeddings desde o surgimento do Word2Vec: o Gemini Embedding 2.
Não é apenas mais um modelo de embeddings de texto. É o primeiro modelo nativo multimodal — que unifica texto, imagens, vídeo, áudio e documentos PDF em um único espaço vetorial.
Isso significa que você pode buscar uma imagem usando uma frase de texto. Encontrar um trecho de vídeo com uma pergunta escrita. Comparar um áudio com um documento. Tudo no mesmo índice, sem pipeline separado.
Neste guia, vou cobrir tudo: specs técnicas, benchmarks, código de exemplo, preços e casos de uso reais.
O que é o Gemini Embedding 2
O Gemini Embedding 2 (nome da API: gemini-embedding-2-preview) é o novo modelo de embeddings do Google, lançado em public preview via Gemini API e Vertex AI.
Seu predecessor, o gemini-embedding-001, era exclusivamente de texto. O Embedding 2 expande isso para cinco modalidades:
- Texto — até 8.192 tokens, 100+ idiomas
- Imagens — até 6 imagens por requisição (PNG, JPEG)
- Áudio — até 80 segundos (MP3, WAV)
- Vídeo — até 128 segundos (MP4, MOV)
- Documentos — até 6 páginas PDF
Todas as modalidades são mapeadas para o mesmo espaço vetorial. Isso é a parte revolucionária — não são pipelines separados conectados. É um modelo único que entende a relação semântica entre tipos de conteúdo diferentes.
O que significa embeddings multimodais
Para entender a importância do Gemini Embedding 2, é preciso entender o que embeddings fazem. Um embedding transforma qualquer conteúdo em um vetor numérico — uma lista de números que representa o significado daquele conteúdo.
Até agora, embeddings de texto ficavam em um espaço vetorial e embeddings de imagem ficavam em outro. Se você queria buscar imagens com texto, precisava de um pipeline complexo: um modelo pra texto, outro pra imagem, e alguma forma de conectar os dois.
O Gemini Embedding 2 elimina essa complexidade. Ele coloca tudo no mesmo espaço. Um texto sobre "pôr do sol na praia" e uma foto de um pôr do sol na praia ficam próximos no espaço vetorial, porque o modelo entende que representam o mesmo conceito.
Na prática, isso permite:
- Buscar imagens com queries de texto (e vice-versa)
- Encontrar trechos de vídeo com perguntas escritas
- Indexar documentos PDF com gráficos e tabelas como um todo
- Comparar áudios de reunião com documentos de briefing
- Criar sistemas de RAG verdadeiramente multimodais
Especificações técnicas completas
| Spec | Embedding 001 | Embedding 2 |
|---|---|---|
| Modalidades | Texto apenas | Texto + Imagem + Vídeo + Áudio + PDF |
| Token limit | 2.048 | 8.192 |
| Dimensões output | 128 — 3.072 | 128 — 3.072 |
| Imagens/requisição | — | até 6 (PNG, JPEG) |
| Áudio max | — | 80 segundos |
| Vídeo max | — | 128 segundos |
| PDF max | — | 6 páginas |
| Idiomas | 100+ | 100+ |
| Preço/1M tokens | US$ 0,15 | US$ 0,20 |
| Status | GA | Preview |
Quer implementar busca inteligente com IA no seu negócio?
A Café Online implementa sistemas de busca semântica e agentes de IA personalizados. Do RAG básico ao multimodal.
Falar com EspecialistaMatryoshka Representation Learning (MRL)
Uma das features mais elegantes do Gemini Embedding 2 é o suporte a Matryoshka Representation Learning — uma técnica que permite escolher a dimensão do vetor sem re-treinar o modelo.
O modelo gera vetores de até 3.072 dimensões. Mas você pode truncar esse vetor para dimensões menores e manter qualidade próxima do máximo:
| Dimensões | MTEB Score | Armazenamento relativo | Recomendação |
|---|---|---|---|
| 3.072 | 68,16 | 100% | Máxima precisão |
| 1.536 | 68,17 | 50% | Ótimo custo-benefício |
| 768 | 67,99 | 25% | Recomendado pelo Google |
| 128 | — | 4% | Alta compressão, edge cases |
Perceba: com 768 dimensões (25% do armazenamento), a queda de qualidade é de apenas 0,17 pontos. Isso é praticamente imperceptível na prática e economiza 75% de espaço no banco vetorial.
Benchmarks e performance
O Gemini Embedding 2 lidera os principais benchmarks de embeddings do mercado. Aqui está a comparação com os concorrentes diretos:
| Modelo | MTEB Geral | MTEB Code | MTEB Multilingual |
|---|---|---|---|
| Gemini Embedding 2 | 68,1 | 84,0 | 69,9 |
| Cohere embed-v4 | 65,2 | — | — |
| OpenAI text-embedding-3-large | 64,6 | — | — |
| BGE-M3 | 63,0 | — | — |
Destaque especial para o MTEB Code com score 84,0 — o melhor do mercado para embeddings de código-fonte. Se você trabalha com busca semântica em repositórios, documentação técnica ou assistentes de código, essa é a melhor opção disponível.
O Google também afirma que o Embedding 2 supera o Amazon Nova 2 e o Voyage Multimodal 3,5 em tasks de texto-para-vídeo — a área onde o modelo realmente brilha por ser nativo multimodal.
Como usar na prática
A integração com o Gemini Embedding 2 é feita via Gemini API. Aqui estão exemplos práticos:
Embedding de texto (Python)
import google.generativeai as genai
genai.configure(api_key="SUA_API_KEY")
# Embedding de texto simples
result = genai.embed_content(
model="models/gemini-embedding-2-preview",
content="Busca semântica com IA multimodal",
output_dimensionality=768 # MRL: escolha a dimensão
)
print(f"Dimensões: {len(result['embedding'])}")
print(f"Primeiros 5 valores: {result['embedding'][:5]}")
Embedding de imagem
from PIL import Image
# Embedding de imagem
img = Image.open("produto.jpg")
result = genai.embed_content(
model="models/gemini-embedding-2-preview",
content=img,
output_dimensionality=768
)
# Agora você pode comparar com embeddings de texto
# usando distância cosseno no mesmo espaço vetorial
Busca multimodal com LangChain
from langchain_google_genai import GoogleGenerativeAIEmbeddings
from langchain_community.vectorstores import Chroma
# Configurar embeddings
embeddings = GoogleGenerativeAIEmbeddings(
model="models/gemini-embedding-2-preview",
google_api_key="SUA_API_KEY"
)
# Criar vector store
vectorstore = Chroma.from_documents(
documents=docs,
embedding=embeddings
)
# Buscar com texto (encontra texto, imagens, vídeos, PDFs)
results = vectorstore.similarity_search(
"gráfico de vendas do último trimestre",
k=5
)
Casos de uso reais
O Gemini Embedding 2 abre possibilidades que simplesmente não existiam antes com embeddings tradicionais:
1. E-commerce visual
O cliente descreve o que quer ("vestido vermelho midi para casamento") e o sistema busca nas fotos dos produtos. Sem tags manuais, sem categorização prévia — a busca é puramente semântica.
2. Base de conhecimento corporativa
Empresas têm conhecimento em PDFs, gravações de reunião, vídeos de treinamento e wikis de texto. Com embeddings multimodais, tudo vai pro mesmo índice. Um novo funcionário pergunta "como funciona o processo de onboarding?" e recebe trechos de vídeo, páginas de manual e slides relevantes.
3. Moderação de conteúdo
Comparar imagens/vídeos enviados por usuários contra uma base de conteúdo proibido, usando apenas descrições textuais como referência. Escala sem precisar de datasets visuais enormes.
4. RAG multimodal
Sistemas de chatbot com RAG que conseguem citar não apenas textos, mas apontar frames específicos de vídeos ou seções de documentos com gráficos como evidência.
5. Busca em código
Com score 84,0 no MTEB Code, é ideal para ferramentas de busca semântica em repositórios — encontrar funções por descrição, documentação por conceito, ou bugs por padrão.
Precisa de um sistema de busca inteligente?
Implementamos RAG, busca semântica e agentes de IA personalizados para empresas de todos os tamanhos.
Falar com EspecialistaMigração do Embedding 001
Se você já usa o gemini-embedding-001, há um ponto crítico: os espaços vetoriais são incompatíveis.
Isso significa que não é possível misturar vetores do modelo antigo com vetores do novo no mesmo índice. Se migrar, você precisa re-embeddar todo o corpus.
Recomendação prática para migração:
- Crie um novo índice/collection no seu banco vetorial
- Re-embede todos os documentos com o modelo novo
- Teste a qualidade das buscas em paralelo (A/B)
- Quando validado, migre o tráfego para o novo índice
- Mantenha o índice antigo por 1-2 semanas como fallback
Para corpora grandes, use a Batch API do Google — desconto de 50% e processamento assíncrono ideal para re-embedding massivo.
Preços e comparação de custos
| Modelo | Preço padrão /1M tokens | Preço batch | Multimodal |
|---|---|---|---|
| Gemini Embedding 2 | US$ 0,20 | US$ 0,10 | Sim |
| Gemini Embedding 001 | US$ 0,15 | US$ 0,075 | Não |
| OpenAI text-embedding-3-large | US$ 0,13 | — | Não |
| Cohere embed-v4 | US$ 0,10 | — | Não |
Considerando que o Embedding 2 oferece multimodalidade nativa e lidera os benchmarks, os US$ 0,20/1M tokens representam um custo-benefício excelente. Sem ele, você precisaria de múltiplos modelos separados — o que sairia significativamente mais caro.
Perguntas Frequentes
O que é o Gemini Embedding 2?+
Qual a diferença entre Gemini Embedding 2 e Embedding 001?+
Quanto custa usar o Gemini Embedding 2?+
O Gemini Embedding 2 é compatível com o Embedding 001?+
Quais frameworks suportam o Gemini Embedding 2?+
Artigos Relacionados
Fundador da Agência Café Online. Especialista em agentes de IA, automação empresarial e marketing digital. Ajuda empresas a implementar inteligência artificial de forma prática. Ver perfil completo