Como controlo a variabilidade entre runs?

Médias de 3 a 5 runs por prompt, temperatura constante (idealmente 0 nos modelos que o permitem), sessões limpas (sem histórico anterior). A variabilidade reduz-se mas não desaparece, é uma propriedade dos modelos.

Como medir GEO: citation rate, share of voice e taxa de menção

Q: Posso medir GEO só com o ChatGPT?

Podes, mas não chega. Cada motor tem dataset e comportamento próprio. Medir apenas no ChatGPT dá uma fotografia parcial; idealmente cobrir ChatGPT, Claude, Gemini e Perplexity em paralelo para o mesmo prompt set.

Q: Com que frequência devo medir?

Mensal para baseline. Semanal se estiver a correr uma iniciativa de optimização activa (queres ver a curva). Diário só faz sentido em fases de roll-out de algum motor (ex.: lançamento de funcionalidade nova), caso contrário é ruído.

Q: Quantos prompts no set?

Entre 30 e 100. Menos do que 30 dá amostra fraca; mais do que 100 sem haver volume real de mercado por trás é overengineering. Para SaaS B2B portuguesa, 50 prompts cobrem bem o terreno.

Resumo

Há três métricas que importam em GEO: citation rate (com que frequência és mencionado), share of voice (a tua quota face aos concorrentes) e taxa de menção (que evolução depois de uma iniciativa). Este post descreve a metodologia para correr cada uma internamente, prompt set, cadência, runs, controlo de variabilidade, sem ferramentas pagas. As mesmas três métricas que usamos com os nossos clientes.

Key takeaways

Três métricas resolvem 90% da pergunta “está a funcionar?”
Prompt set fixo (30–100 prompts) é a fundação, sem isso não há comparação válida
Medir nos 4 motores principais (ChatGPT, Claude, Gemini, Perplexity) em paralelo
Mensal para baseline; semanal em fase activa de optimização
3 a 5 runs por prompt + temperatura zero = reduz variabilidade ao mínimo

Porque há três métricas, não uma

Cada métrica responde a uma pergunta diferente. Citation rate responde a: aparecemos? Share of voice responde a: aparecemos comparado com a concorrência? Taxa de menção (mais conhecida em inglês como mention lift) responde a: melhorou desde que começámos?

Em isolamento, qualquer uma delas mente. Citation rate de 60% parece bom, até descobrir que os concorrentes estão a 80%. Share of voice de 40% parece bom, até descobrir que o mercado total está a colapsar. Taxa de menção positiva parece bom, até perceber que a base era zero.

As três em conjunto dão a fotografia. É assim que medimos.

A fundação: prompt set

Tudo começa por um conjunto fixo de prompts que representa como compradores reais investigam o sector. Sem prompt set estável, as métricas mudam por mudança de input, e perde-se a capacidade de comparar entre períodos.

Boas regras na construção:

30 a 100 prompts. Para SaaS B2B PT, 50 cobre o terreno relevante.
Mix de intenções. Comparação (melhor X para Y), avaliação (X é bom para Y?), descoberta (quem oferece X), técnicas (como X resolve Y).
Linguagem natural. Não imitar query Google (curta, com keywords). Compradores em ChatGPT escrevem parágrafos.
Em PT-PT e EN. Compradores B2B portugueses alternam idioma conforme a profundidade técnica.
Fixar e versionar. O prompt set é tratado como código: versionado, change-log, com data de update.

Métrica 1: Citation rate

A pergunta: em que percentagem dos prompts do set somos citados?

Fórmula: (prompts em que aparecemos) ÷ (total de prompts no set) × 100.

Definição operacional importante: “ser citado” = nome da marca explícito na resposta. Se o motor menciona uma característica do produto sem nomear, não conta. Se aparece numa lista, conta uma vez (não por número de ocorrências). Se aparece com URL, conta, mas tracking separado da menção pura, porque o sinal é diferente.

Baseline típica para empresa portuguesa de SaaS B2B sem investimento prévio em GEO: perto de 0%. Após 3–6 meses de trabalho consistente, 30–60% é razoável dependendo da competitividade do nicho.

Métrica 2: Share of voice

A pergunta: das menções totais para o sector, quanto é nosso?

Fórmula: (menções da nossa marca em todo o prompt set) ÷ (menções totais de qualquer marca relevante no mesmo set) × 100.

Para calcular, precisas de uma lista de 5–15 marcas competidoras directas, não inclui marcas que não são competidoras reais, mesmo que apareçam (ex.: AWS, Salesforce em respostas genéricas não conta para a tua share of voice na tua categoria).

Esta métrica é a mais difícil de mover, e a mais informativa. Citation rate alto com share of voice baixo significa que estás a aparecer, mas em terceira ou quarta posição quando o utilizador lê a resposta. Para B2B, em que a recomendação é decisiva, isso é ainda fraco.

Métrica 3: Taxa de menção (mention lift)

A pergunta: quanto subiu o nosso citation rate desde o baseline?

Fórmula: ((citation rate actual) − (citation rate baseline)) ÷ (citation rate baseline) × 100.

Se o baseline é 0% (cenário comum), trata como pontos percentuais absolutos. Subiu de 0 para 28%? Lift = +28 pp.

Esta é a métrica para reportar progresso. Tem o cuidado de contextualizar com share of voice simultânea, caso contrário, o lift pode ser ilusório (mercado todo subiu, posição relativa manteve-se).

Metodologia operacional

O processo mensal típico:

Sessões limpas. Cada prompt vai num novo chat, sem histórico. Em alguns motores isso obriga a abrir janela anónima.
Temperatura zero. Onde a API permitir (Claude, Gemini, ChatGPT via API). Reduz variabilidade.
3 a 5 runs por prompt. Usa a média ou a moda das menções. Para SaaS com poucos competidores, 3 é suficiente; em sectores muito competitivos, 5.
Quatro motores em paralelo. ChatGPT, Claude, Gemini (preferencialmente em AI Mode), Perplexity. Cada um tem o seu citation rate.
Registo estruturado. Spreadsheet ou ferramenta com colunas: motor, prompt, citado (sim/não), posição na lista, marcas concorrentes mencionadas, run, data.
Análise mensal. Comparação mês a mês das três métricas, por motor. Tendências por trimestre.

O que NÃO medir (ainda)

Algumas métricas parecem atractivas mas não acrescentam sinal fiável em 2026:

Sentiment analysis das menções. Os modelos tendem a ser neutros ou positivos. Diferenciação é fraca.
Click-through das URLs citadas. Os motores ainda não expõem analytics de origem fiáveis (Perplexity é a excepção parcial). Esperar 12–18 meses.
Volume de tráfego “de origem IA”. Headers de referrer são inconsistentes. Estimar é especulação.

Manter-se nas três métricas core até as outras maturarem é o caminho disciplinado.

Ferramentas: manual vs pago

Para arrancar, manual chega:

Prompt set em Google Sheets versionado.
Run manual com 4 separadores no browser, um por motor.
Anotação directa no sheet com check (sim/não) e listagem de marcas mencionadas.

Cobertura: 50 prompts × 4 motores × 3 runs = 600 interacções. Uma pessoa faz em meio dia, uma vez por mês. É repetitivo, mas dá uma fotografia fiel ao baixo custo.

Quando faz sentido pagar por ferramenta: quando o prompt set cresce acima de 100, quando a cadência precisa de ser semanal/diária, ou quando a equipa quer poupar tempo operacional. Aí ferramentas tipo Profound, Otterly ou Peec fazem sentido, pesam o trabalho de execução, não o de decisão.

Reportar internamente

Um relatório de uma página. Topo: as três métricas, com variação mês a mês. Meio: prompts em que perdemos posição (e porquê, concorrente X subiu, motor Y mudou comportamento). Fundo: 1–3 acções para o mês seguinte.

Resistir à tentação de slides bonitos com 20 gráficos. Para a maioria das equipas, três números bem entendidos valem mais que dashboards complexos.

Perguntas frequentes

Posso medir GEO só com o ChatGPT?

Não chega. Cada motor tem dataset e comportamento próprios. ChatGPT + Claude + Gemini + Perplexity em paralelo dá a fotografia completa.

Com que frequência devo medir?

Mensal para baseline. Semanal em fase activa de optimização. Diário só em roll-outs específicos.

Quantos prompts no set?

30 a 100. Para SaaS B2B portuguesa, 50 prompts é tipicamente suficiente.

Ver também

Knowledge vs augmented: porque a tua marca aparece num modo da IA e desaparece noutro, porque é que estas métricas têm de ser medidas duas vezes, com pesquisa ligada e desligada, e o que a diferença revela.

Fontes

Glossário GEO, citation rate
Glossário GEO, share of voice em LLMs
Onde é que a IA aprende sobre a tua marca, complementa este post pelo lado da autoridade.