Há três métricas que importam em GEO: citation rate (com que frequência és mencionado), share of voice (a tua quota face aos concorrentes) e taxa de menção (que evolução depois de uma iniciativa). Este post descreve a metodologia para correr cada uma internamente — prompt set, cadência, runs, controlo de variabilidade — sem ferramentas pagas. As mesmas três métricas que usamos com os nossos clientes.
- Três métricas resolvem 90% da pergunta “está a funcionar?”
- Prompt set fixo (30–100 prompts) é a fundação — sem isso não há comparação válida
- Medir nos 4 motores principais (ChatGPT, Claude, Gemini, Perplexity) em paralelo
- Mensal para baseline; semanal em fase activa de optimização
- 3 a 5 runs por prompt + temperatura zero = reduz variabilidade ao mínimo
Porque há três métricas, não uma
Cada métrica responde a uma pergunta diferente. Citation rate responde a: aparecemos? Share of voice responde a: aparecemos comparado com a concorrência? Taxa de menção (mais conhecida em inglês como mention lift) responde a: melhorou desde que começámos?
Em isolamento, qualquer uma delas mente. Citation rate de 60% parece bom — até descobrir que os concorrentes estão a 80%. Share of voice de 40% parece bom — até descobrir que o mercado total está a colapsar. Taxa de menção positiva parece bom — até perceber que a base era zero.
As três em conjunto dão a fotografia. É assim que medimos.
A fundação: prompt set
Tudo começa por um conjunto fixo de prompts que representa como compradores reais investigam o sector. Sem prompt set estável, as métricas mudam por mudança de input — e perde-se a capacidade de comparar entre períodos.
Boas regras na construção:
- 30 a 100 prompts. Para SaaS B2B PT, 50 cobre o terreno relevante.
- Mix de intenções. Comparação (melhor X para Y), avaliação (X é bom para Y?), descoberta (quem oferece X), técnicas (como X resolve Y).
- Linguagem natural. Não imitar query Google (curta, com keywords). Compradores em ChatGPT escrevem parágrafos.
- Em PT-PT e EN. Compradores B2B portugueses alternam idioma conforme a profundidade técnica.
- Fixar e versionar. O prompt set é tratado como código: versionado, change-log, com data de update.
Métrica 1: Citation rate
A pergunta: em que percentagem dos prompts do set somos citados?
Fórmula: (prompts em que aparecemos) ÷ (total de prompts no set) × 100.
Definição operacional importante: “ser citado” = nome da marca explícito na resposta. Se o motor menciona uma característica do produto sem nomear, não conta. Se aparece numa lista, conta uma vez (não por número de ocorrências). Se aparece com URL, conta — mas tracking separado da menção pura, porque o sinal é diferente.
Baseline típica para empresa portuguesa de SaaS B2B sem investimento prévio em GEO: perto de 0%. Após 3–6 meses de trabalho consistente, 30–60% é razoável dependendo da competitividade do nicho.
Métrica 2: Share of voice
A pergunta: das menções totais para o sector, quanto é nosso?
Fórmula: (menções da nossa marca em todo o prompt set) ÷ (menções totais de qualquer marca relevante no mesmo set) × 100.
Para calcular, precisas de uma lista de 5–15 marcas competidoras directas — não inclui marcas que não são competidoras reais, mesmo que apareçam (ex.: AWS, Salesforce em respostas genéricas não conta para a tua share of voice na tua categoria).
Esta métrica é a mais difícil de mover, e a mais informativa. Citation rate alto com share of voice baixo significa que estás a aparecer, mas em terceira ou quarta posição quando o utilizador lê a resposta. Para B2B, em que a recomendação é decisiva, isso é ainda fraco.
Métrica 3: Taxa de menção (mention lift)
A pergunta: quanto subiu o nosso citation rate desde o baseline?
Fórmula: ((citation rate actual) − (citation rate baseline)) ÷ (citation rate baseline) × 100.
Se o baseline é 0% (cenário comum), trata como pontos percentuais absolutos. Subiu de 0 para 28%? Lift = +28 pp.
Esta é a métrica para reportar progresso. Tem o cuidado de contextualizar com share of voice simultânea — caso contrário, o lift pode ser ilusório (mercado todo subiu, posição relativa manteve-se).
Metodologia operacional
O processo mensal típico:
- Sessões limpas. Cada prompt vai num novo chat, sem histórico. Em alguns motores isso obriga a abrir janela anónima.
- Temperatura zero. Onde a API permitir (Claude, Gemini, ChatGPT via API). Reduz variabilidade.
- 3 a 5 runs por prompt. Usa a média ou a moda das menções. Para SaaS com poucos competidores, 3 é suficiente; em sectores muito competitivos, 5.
- Quatro motores em paralelo. ChatGPT, Claude, Gemini (preferencialmente em AI Mode), Perplexity. Cada um tem o seu citation rate.
- Registo estruturado. Spreadsheet ou ferramenta com colunas: motor, prompt, citado (sim/não), posição na lista, marcas concorrentes mencionadas, run, data.
- Análise mensal. Comparação mês a mês das três métricas, por motor. Tendências por trimestre.
O que NÃO medir (ainda)
Algumas métricas parecem atractivas mas não acrescentam sinal fiável em 2026:
- Sentiment analysis das menções. Os modelos tendem a ser neutros ou positivos. Diferenciação é fraca.
- Click-through das URLs citadas. Os motores ainda não expõem analytics de origem fiáveis (Perplexity é a excepção parcial). Esperar 12–18 meses.
- Volume de tráfego “de origem IA”. Headers de referrer são inconsistentes. Estimar é especulação.
Manter-se nas três métricas core até as outras maturarem é o caminho disciplinado.
Ferramentas: manual vs pago
Para arrancar, manual chega:
- Prompt set em Google Sheets versionado.
- Run manual com 4 separadores no browser, um por motor.
- Anotação directa no sheet com check (sim/não) e listagem de marcas mencionadas.
Cobertura: 50 prompts × 4 motores × 3 runs = 600 interacções. Uma pessoa faz em meio dia, uma vez por mês. É repetitivo, mas dá uma fotografia fiel ao baixo custo.
Quando faz sentido pagar por ferramenta: quando o prompt set cresce acima de 100, quando a cadência precisa de ser semanal/diária, ou quando a equipa quer poupar tempo operacional. Aí ferramentas tipo Profound, Otterly ou Peec fazem sentido — pesam o trabalho de execução, não o de decisão.
Reportar internamente
Um relatório de uma página. Topo: as três métricas, com variação mês a mês. Meio: prompts em que perdemos posição (e porquê — concorrente X subiu, motor Y mudou comportamento). Fundo: 1–3 acções para o mês seguinte.
Resistir à tentação de slides bonitos com 20 gráficos. Para a maioria das equipas, três números bem entendidos valem mais que dashboards complexos.
Perguntas frequentes
Posso medir GEO só com o ChatGPT?
Não chega. Cada motor tem dataset e comportamento próprios. ChatGPT + Claude + Gemini + Perplexity em paralelo dá a fotografia completa.
Com que frequência devo medir?
Mensal para baseline. Semanal em fase activa de optimização. Diário só em roll-outs específicos.
Quantos prompts no set?
30 a 100. Para SaaS B2B portuguesa, 50 prompts é tipicamente suficiente.
Fontes
- Glossário GEO — citation rate
- Glossário GEO — share of voice em LLMs
- Onde é que a IA aprende sobre a tua marca — complementa este post pelo lado da autoridade.