Auditoria GEO: la guia definitiva per mesurar la teva…

Com muntar una auditoria de visibilitat en IA que aguanti una auditoria: amb mètriques que saps calcular, una taxonomia d'errors clara i accions prioritzades per impacte comercial. De la teoria al pas a pas real amb la plataforma que fem servir a Elevam per a això: Antropus.

L'essencial en 30 segons

Una auditoria GEO mesura què passa amb la teva marca quan algú pregunta pel teu sector a ChatGPT, Claude, Gemini o Perplexity, i quan Google ensenya el seu bloc generatiu (AI Overview). No és SEO clàssic i no es mesura amb Search Console.
La majoria de les "auditories de visibilitat en IA" que circulen estan mal muntades per tres motius: prompts esbiaixats cap a la pròpia marca, mètriques binàries disfressades de ponderades i denominadors trampaires que inflen el resultat.
Una auditoria GEO seriosa respecta quatre regles innegociables: prompts repartits en sis categories metodològiques (A–F) amb o sense marca segons la seva funció; resolució d'entitat per no confondre la teva marca amb homònims; un mapa d'intenció → URL canònica que detecta canibalització; i mètriques calculades sobre el seu denominador correcte, amb la regla de "si no es pot mesurar, no s'inventa".
Aquí ho desenvolupem sencer i ho aterrem amb Antropus, la plataforma de SEO i GEO desenvolupada per Elevam Labs. Inclou lectura honesta de resultats i l'avís metodològic que ha d'acompanyar tot informe seriós.

Vols saltar-te la teoria i que ho fem per tu? Sol·licita una auditoria GEO per a la teva marca i t'ensenyem exactament on apareixes (i on no) a les respostes d'IA.

1. Què és una auditoria GEO (i per què no és SEO)

Comencem per la definició, perquè mig sector la fa servir malament.

Una auditoria GEO (de Generative Engine Optimization) és el procés de mesurar, avaluar i diagnosticar la presència d'una marca als motors d'intel·ligència artificial generativa. En concret, en sis superfícies:

ChatGPT (OpenAI)
Claude (Anthropic)
Gemini (Google)
Perplexity (Sonar)
El mode generatiu de Google (la resposta conversacional dins del mateix Google)
Google AI Overview (el bloc generatiu que apareix per sobre dels resultats orgànics)

El SEO clàssic respon a "quina posició ocupo a Google per a aquesta keyword?". Una auditoria de visibilitat en IA respon a una altra pregunta, diferent i avui més urgent:

Quan un usuari pregunta a una IA pel meu sector, apareix la meva marca? En quina posició? Citen el meu web o el d'un competidor? La IA em coneix de debò o em confon amb una altra empresa?

La diferència no és de matís, és de naturalesa. Google Search Console et dóna impressions, clics, CTR i posició mitjana. Els models generatius no et donen res d'això. Quan algú pregunta a ChatGPT, rep un text redactat, de vegades amb fonts i de vegades sense. Ningú t'avisa que la teva marca va sortir, que et van confondre amb una altra o que van recomanar el teu competidor. La resposta és, literalment, una caixa negra.

Per obrir aquesta caixa cal un protocol de mesurament sistemàtic i repetible. Això, i no un grapat de captures de pantalla, és una auditoria GEO.

“
El SEO ens diu com ens troba Google. El GEO ens diu com ens explica una IA. I cada cop més decisions de compra comencen a la segona conversa, no a la primera cerca.
”

Asier López Ruiz· CEO d'Elevam i d'Antropus

1.1 SEO clàssic, GEO i mesurament d'IA: tres coses diferents

Disciplina	Què mesura / Font de la dada
SEO clàssic	Posició orgànica a Google, impressions, clics, backlinks · Search Console i proveïdors de dades de SEO
GEO	Com apareix la marca als motors d'IA: freqüència, posició, citació, confusió d'entitat · Tests propis contra les IAs + un analitzador
Mesurament d'IA	La capa que uneix els dos mons: separa el que ve del cercador del que ve de l'assistent · Antropus ho orquestra i ho compara

Avui un client seriós necessita les tres. Però aquesta guia va de la del mig, que és la que gairebé ningú sap fer bé.

2. Per què la teva marca necessita una auditoria de visibilitat en IA ara

No és una moda. És un canvi de canal, i va de pressa.

Quan algú pregunta "millor agència de GEO a Espanya" a ChatGPT i es queda satisfet amb la resposta, aquest usuari no arriba mai a Google. El trànsit que captes al cercador per a aquesta intenció és, cada cop més, només la fracció que la IA no va resoldre. És a dir: el que veus a Search Console és la punta de l'iceberg, i l'iceberg està creixent per sota de l'aigua, on la teva analítica clàssica no mira.

La mida d'aquest "sota l'aigua" ja no és anecdòtica. Segons OpenAI (febrer de 2026), ChatGPT supera els 900 milions d'usuaris actius setmanals i s'acosta als mil milions. Suma-hi els centenars de milions de Gemini, la base de Claude i el creixement de Perplexity com a cercador alternatiu, i tens audiències senceres que la teva estratègia de SEO clàssic, senzillament, no mesura.

I després hi ha Google jugant als dos taulers alhora: en moltíssimes cerques informacionals i bastantes comercials, el bloc d'AI Overview apareix per sobre dels resultats orgànics. Si la teva marca no entra en aquesta resposta sintetitzada, has perdut el clic abans que l'usuari arribi tan sols a la llista d'enllaços blaus.

Així que la pregunta no és si necessitaràs mesurar la teva visibilitat en IA. La pregunta és quan t'assabentes que ja l'estaves perdent i ningú t'avisava.

2.1 Quins problemes concrets resol una auditoria GEO ben feta

Una auditoria seriosa et permet, a la pràctica:

Saber si la teva marca apareix (o no) en respostes a preguntes reals del teu sector.
Detectar si la IA et coneix bé o et confon amb un homònim. Ens ha passat amb la nostra pròpia marca: en certes proves, Elevam apareixia confosa amb ElevenLabs.
Veure si la IA recomana la teva competència al teu lloc, i en quin tipus de preguntes exactament.
Identificar quina URL del teu lloc cita la IA i si és la correcta per a aquesta intenció.
Descobrir canibalització: el teu blog ocupant el lloc que hauria d'ocupar la teva landing de serveis.
Quantificar quantes de les teves aparicions són recomanacions fortes i quantes són mencions de farciment sense valor comercial.
Tenir un baseline quantitatiu i comparable trimestre a trimestre per saber si les teves accions d'optimització funcionen o no.

Tauler d'auditoria GEO a Antropus mostrant els quatre indicadors principals (SoR, CS, URL Rate, Top 3) i un panell de resolució d'entitat.

Pantalla principal d'un baseline finalitzat a Antropus, amb els 4 indicadors titulars (SoR, CS, URL Rate, Top 3) i la resolució d'entitat.

3. L'error que comet la majoria d'auditories GEO

Abans d'explicar com ho fem a Elevam, cal desmuntar el que es ven per aquí. La majoria de les "auditories GEO" que arriben a les nostres mans —normalment quan un client ens ensenya la que li van fer abans— falla en almenys un d'aquests tres punts. I tots tres tenen el mateix efecte: un informe que sembla bo i no serveix per a res.

3.1 Prompts esbiaixats cap a la marca

És l'error més comú i el més car. El consultor llança 30 preguntes a ChatGPT, però totes són d'aquest estil:

"Què opines de [marca]?"
"Opinions sobre [marca]"
"[Marca] és de fiar?"
"Compara [marca] amb [competidor]"

La IA està obligada a parlar de la marca a cada resposta, perquè el prompt l'anomena. El resultat: un Share of Mentions del 90%. El consultor l'hi ensenya al client com un triomf. No està mesurant res útil.

El que el client necessita saber és si la IA el recomana quan l'usuari encara no el coneix. I això només es mesura amb preguntes a cegues (blind), del tipus:

"Quina és la millor agència de SEO a Madrid?"
"Recomana'm plataformes per gestionar GEO"
"Quines eines fan servir les agències per mesurar la seva visibilitat en IA?"

Si la teva marca no surt aquí, no estàs captant demanda nova en IA. Tan simple com això. I si la teva auditoria no mesura això, la teva auditoria no és una auditoria: és el fullet comercial del consultor per justificar la factura següent.

3.2 Mètriques binàries disfressades de mètriques ponderades

El segon error: fer servir el Share of Mentions (SoM) com a mètrica estrella. El SoM és binari: compta si la marca va aparèixer o no, i res més. No distingeix la força amb què et recomanen.

Compara aquestes dues respostes:

"Et recomano [marca]; és la millor opció del mercat, i t'explico per què…"
"Hi ha moltes opcions; algunes són X, Y, Z, i també hi ha [marca]."

Totes dues sumen exactament el mateix al SoM. Però la primera val deu vegades la segona. Sense una mètrica que ponderi la força de la recomanació, la teva auditoria llença a les escombraries la meitat de la informació que importa.

La mètrica que sí que pondera és el SoR (Share of Recommendation), i és la mètrica titular del tauler d'Antropus. El problema és que el mercat encara no la fa servir, així que gairebé ningú la reporta. Hi tornem en detall més avall.

3.3 Denominadors trampaires

El tercer és estadístic, sembla menor i arruïna informes sencers. Imagina que llances 30 prompts a Gemini amb web activa i 8 fallen tècnicament (timeout, quota esgotada). No pots calcular el teu Citation Rate com 2 / 30 = 6,6 %. Aquests 8 no són "respostes en què no et van citar"; són respostes que no van arribar a existir. El càlcul honest és 2 / 22 = 9 %.

La mateixa dada, dos denominadors

Abans6,6 %

Després9 %

Un detall de denominador, una diferència enorme a l'informe: comptar els 8 tests fallits com a "no em van citar" subestima la teva presència i lliura un diagnòstic falsament alarmant.

4. Les sis categories obligatòries de prompts (A–F): el cor de la metodologia

Una auditoria GEO seriosa no deixa que escriguis les preguntes al teu gust. Força una distribució metodològica que neutralitza el biaix de marca. A Antropus les anomenem categories A–F, i són obligatòries en tot baseline.

4.1 El catàleg

Cat.	Nom	Què mesura	Política de marca	% per defecte
A	Marca i reputació	Si la IA coneix la teva marca i què en sap	Sempre amb marca	10–15 %
B	Descobriment genèric	Si apareixes quan l'usuari NO et coneix	Mai amb marca	25–30 %
C	Comparació competitiva	Si apareixes com a alternativa davant de competidors	Moderada	20–25 %
D	Decisió comercial	Si apareixes en el moment de comprar	Mai amb marca	15–20 %
E	Producte / categoria	Si apareixes en cerques tècniques o de catàleg	Mai amb marca	10–15 %
F	Objeccions i confiança	Si apareixes quan l'usuari té dubtes	Rara	10–15 %

4.2 Per què exactament aquesta distribució

Al darrere hi ha tres regles dures, que a Antropus no són una recomanació sinó codi que s'executa:

La categoria A mai passa del 30 % del set. Si te'n passes, estàs mesurant reputació de marca, no visibilitat GEO.
B + C + D sumen com a mínim el 51 %. És la majoria a cegues i comercial: on de debò es decideix si captes demanda nova.
Les sis categories han d'estar presents si el set té sis prompts o més. Cobrir només tres o quatre esbiaixa la lectura.

I per sota hi ha un ordre de prioritat per a sets petits (menys de 12 prompts): B → D → C → A → E → F. És a dir, si només pots llançar sis preguntes, les gastes en aquest ordre; no comences per A per inèrcia narcisista.

4.3 Què passa si et saltes aquestes regles

Si llances 30 prompts on 25 són de categoria A (tots amb la teva marca a dins), el teu SoM sortirà entre el 70 % i el 95 %. L'hi ensenyes al client com un èxit. I al trimestre següent, quan torneu a "optimitzar", no haurà canviat res: perquè l'auditoria no mesurava res que es pogués moure.

Antropus es nega a calcular certes mètriques si la mostra avaluable és menor de 5, i avisa de manera explícita quan el set té menys de 12 prompts ("no cobreix tota la metodologia") o menys de 15 ("mostra mínima recomanada per treure conclusions"). Preferim un "—" honest a un número que enganya.

Panell de distribució metodològica de prompts en una auditoria de visibilitat en IA, mostrant sis categories A-F amb barres de color i una puntuació de 82.

Panell de distribució metodològica d'un baseline en revisió. Puntuació 82 i avisos quan B+C+D no arriba al 51 % o quan hi ha menys de 12 prompts.

5. Les mètriques que importen: què es mesura i com es calcula

Una auditoria GEO seriosa reporta entre quatre i sis mètriques titulars, cadascuna amb el seu denominador declarat. No vint mètriques soltes sense context. Aquestes són les que pintem al tauler d'Antropus.

SoR

Share of Recommendation

La titular. Força mitjana amb què la IA et recomana.

BCR

Brand Citation Rate

% de respostes que citen una font del teu domini oficial.

URL Rate

% de respostes que citen la URL canònica esperada.

Top 3

Top 3 Share

% de rànquings ordenats on apareixes en posicions 1-3.

5.1 SoR — Share of Recommendation (la titular)

Què mesura: la força mitjana amb què la IA et recomana. És l'única mètrica que pondera la qualitat de l'aparició, no només la seva existència.

Com es calcula: mitjana del pes de recomanació (rsw) sobre les respostes en què aquest pes s'ha mesurat. Els valors són discrets:

rsw	Significat
1.0	Apareixes com a opció principal o recomanació destacada
0.75	Ets a la shortlist, amb bona justificació
0.5	Et mencionen de manera neutra o com a alternativa secundària
0.25	Apareixes de passada, sense recomanació clara
0.0	Apareixes, però com a opció descartada o desaconsellada
null	No mesurat (baselines antics sense repuntuar)

El detall que gairebé ningú respecta: el valor "no mesurat" es filtra del càlcul. No compta com a 0. Confondre "no ho he mesurat" amb "és la pitjor opció" corrompria el SoR de qualsevol baseline antic.

5.2 BCR — Brand Citation Rate (citació de marca)

Què mesura: el percentatge de respostes on apareix almenys una font del teu domini oficial.

És la mètrica principal de citació, perquè mesura si la IA atribueix el que diu a una font teva i no a un blog de tercers o a un competidor. Que et mencionin està bé; que et citin com a font està molt millor.

5.3 R — URL Rate (la URL correcta)

Què mesura: el percentatge de respostes on la IA va citar la URL canònica esperada per a aquesta intenció.

La clau és al denominador: només hi entren els tests amb URL canònica mapejada al teu Intent URL Map. Si una intenció no té clúster definit, aquest test surt del càlcul. Així no infles la mètrica amb mostres on no hi havia res a avaluar.

5.4 Top 3 Share

Què mesura: el percentatge de respostes amb rànquing ordenat en què apareixes en posicions 1, 2 o 3.

Detall metodològic important: el denominador NO és la visibilitat total, sinó només les respostes amb rànquing ordenat (llistes numerades, comparatives explícites, shortlists). Una resposta narrativa que et menciona sense estructura de llista no hi entra. Calcular un Top 3 sobre respostes sense rànquing no significa res.

5.5 Mètriques auxiliars (però gens accessòries)

Mètrica	Què mesura
SoM (Share of Mentions)	Binària: % de respostes on apareixes. Diagnòstica, mai titular.
Validity Rate	% de tests metodològicament vàlids (sense confusió d'entitat ni desviació de tema)
Triggering Rate	Només a Google AI Overview: % de cerques on Google mostra el bloc generatiu
Source Reliability	Puntuació 0–100 de fiabilitat de les fonts (penalitza redireccions opaques)
Hallucination Rate	% de respostes amb error factual, confusió d'entitat o atribució errònia
Recomanació fràgil	% de recomanacions fortes (rsw ≥ 0,75) basades en una al·lucinació: visibilitat d'alt risc
Source Dispersion Index	URLs pròpies competint per la mateixa intenció: mesura canibalització
Competitor Leakage	% de respostes on apareixen URLs de competidors

5.6 Les nou agrupacions del motor de mètriques

Aquí hi ha part de la potència real: cada mètrica no es calcula només en global, sinó agrupada per motor, mode (memòria / web), categoria A–F, intenció, tipus de demanda, rol estratègic, etapa de l'embut i URL canònica esperada.

Això et permet respondre a les preguntes que de debò fa un client: "En quin motor em va pitjor?", "Quin tipus de pregunta activa millor la meva marca?", "Quina URL del meu lloc està rendint més?", "En quina intenció concreta estic perdent quota davant de la meva competència?". I tot sense exportar a Excel ni barallar-te amb taules dinàmiques.

Secció d'Intel·ligència d'Antropus amb la mètrica SoR com a titular i l'embut de recomanació de tres capes per a una auditoria GEO.

Indicador SoR (titular canon v1.2) i embut de recomanació de 3 capes: aparició vàlida → atribució de font → atribució correcta.

6. El mapa d'intenció → URL canònica: la peça que gairebé ningú mira

Aquí hi ha un dels diferenciadors més seriosos —i més ignorats— d'una auditoria GEO ben feta. Gairebé totes les eines mesuren "la IA va citar alguna URL del teu domini?" com un sí/no. I això es queda curt.

El que de debò importa és:

Va citar la URL correcta del teu domini per a aquesta intenció?

Si un usuari pregunta "millor agència de GEO a Madrid" i la IA cita el teu blog (/blog/que-es-geo/) en comptes de la teva landing de serveis (/servicios/geo-madrid/), tècnicament "et van citar". Però estàs regalant el clic comercial a una pàgina informativa que probablement no converteix. A això ho anomenem drift canònic.

6.1 Què és el mapa d'intenció

L'Intent URL Map és una configuració a nivell de projecte on declares, per a cada clúster d'intenció, quina és la URL canònica esperada del teu lloc. Cada clúster porta:

Nom (p. ex. "Serveis GEO Madrid", "Marca / reputació", "Comparativa vs SEMrush")
URL canònica esperada (l'òptima per a aquesta intenció)
URLs acceptables (altres de teves que també compten com a encert)
URLs problemàtiques (les que NO haurien d'aparèixer aquí, amb el seu motiu)
Categories metodològiques que cobreix (quines d'A–F)
Rol estratègic (reconeixement d'entitat, captura comercial, shortlist de comparació, etc.)

6.2 Les deu classificacions canòniques

Per a cada test, el motor canònic classifica la resposta en una de deu categories, amb una puntuació de 0 a 100:

Classificació	Puntuació	Significat
Canònica correcta	100	Cita la URL canònica exacta
URL acceptable del clúster	75	Cita una URL acceptable del mateix clúster
URL pròpia, intenció equivocada	50	Cita una URL teva, però no la canònica ni una acceptable
Actiu de research absorbint intenció comercial	40	El teu blog/recursos absorbeix intenció comercial
Home absorbint intenció específica	35	El teu home absorbeix una intenció concreta
Font externa substituint actiu propi	25	Citen tercers però cap URL teva
Dispersió de fonts	20	Diverses URLs teves competeixen per la mateixa intenció
Sense canònica disponible	0	Hi ha URLs, però el mapa no declara canònica
Domini equivocat	0	Les URLs citades no són del teu domini
Sense URL	0	No hi ha URLs a la resposta

6.3 Què et torna el motor canònic

Una puntuació global d'alineació canònica (0–100), calculada només sobre tests avaluables: els "sense URL" i "domini equivocat" no són drift, són no-activació, i no contaminen la puntuació.
Les teves URLs canòniques més fortes (les que reben encerts consistents) i les més febles (les que apareixen amb puntuació baixa).
Els casos de drift: llista concreta de respostes on la IA va citar una URL teva equivocada, amb el seu motor, el seu prompt, la URL esperada i la realment citada.
Els casos de dispersió, agrupats per intenció.
Els conflictes d'URL: pàgines que vas marcar com a problemàtiques i que efectivament estan apareixent.

6.4 Per què això és feina d'agència facturable

Quan lliures un informe amb casos de drift reals, no li estàs donant al client una opinió. Li estàs dient: "Aquí tens 12 casos on el teu blog està absorbint cerques que haurien d'anar a la teva landing de serveis. Aquí el motiu. Aquí la URL que hauria de sortir. Aquí la que surt. I aquí l'acció: reforçar senyals canònics a la landing i rebaixar el llenguatge comercial del post."

Això és diagnòstic amb evidència. I és feina que tu, com a agència, pots cobrar sense enrojolar-te.

Editor del mapa intenció → URL canònica a Antropus amb 10 clústers configurats, cadascun amb la seva URL canònica esperada.

Editor de l'Intent URL Map d'Antropus. Llista de 10 clústers reals del projecte amb URL canònica esperada per intenció i badge "Mapa complet".

Detall d'un clúster de l'Intent URL Map mostrant URLs problemàtiques amb els seus motius: home absorbint intenció específica, blog absorbint intenció comercial.

Detall d'un clúster expandit: URLs acceptables del mateix clúster + URLs problemàtiques amb el seu motiu (home absorbeix específica, recerca absorbeix comercial).

7. Com llançar la teva primera auditoria GEO amb Antropus, pas a pas

Anem al gra. Això és, literalment, el que faries avui des de zero per auditar la visibilitat en IA d'un client nou. L'assistent d'Antropus té tres passos: què mesurar, com mesurar i revisar.

7.1 Pas 1 — Què mesurar: identitat del projecte i fitxa d'entitat

Abans de tocar res, configures el projecte: marca, domini, sector, país i fins a tres competidors declarats de manera explícita. Tot això s'omple tirant de la fitxa del projecte si ja existeix.

I tot seguit completes la fitxa d'entitat (Entity Profile). Això és el que permetrà a l'analitzador distingir la teva marca real de qualsevol homònim. Sense una fitxa sòlida, els resultats surten contaminats d'arrel. Els nou camps que omplim sempre:

Nom canònic (mínim 3 caràcters, no una URL)
Domini oficial (sense protocol ni www)
Descripció canònica (factual, idealment de 120 caràcters o més)
Text de desambiguació (una o dues frases sobre amb quines entitats NO confondre't)
Àlies (altres noms amb què pot aparèixer la marca)
Entitats relacionades (persones, productes o conceptes propis que confirmen que la resposta parla de tu)
Entitats a no confondre (les de nom semblant que NO ets tu)
Definicions esperades (els teus termes propis i la seva definició canònica)
URLs oficials (les que compten com a citació correcta més enllà del domini arrel)

Si la teva marca té un nom curt o un homònim, aquest pas és crític. Antropus inclou un assistent "Analitzar web i proposar fitxa" que investiga la marca en fonts públiques i omple els camps. Mai sobreescriu: et mostra el canvi camp per camp i només l'aplica si ho confirmes.

La pantalla et mostra en tot moment l'estat de la fitxa amb un badge ("Llesta per a baseline", "Usable però feble", "Incompleta", "Possiblement invàlida") i el percentatge de completesa. Si la fitxa està en els dos pitjors estats, Antropus desaconsella explícitament llançar el baseline.

Primer pas de l'assistent de baseline a Antropus: identitat del projecte i fitxa d'entitat llesta per a auditoria GEO.

Pas 1 de l'assistent "Què mesurar": identitat del projecte omplerta des de la fitxa i badge verd "Llesta per a baseline · 100% completa" a la secció Fitxa d'entitat.

Editor de fitxa d'entitat de la marca a Antropus amb els nou camps canònics i un panell lateral de qualitat al 100%.

Editor d'Identitat de marca (Entity Profile). Panell lateral amb qualitat 100 %, estat "Llesta per a baseline" i llista de fortaleses detectades.

7.2 Pas 2 — Com mesurar: motors, origen de prompts i profunditat

Aquí decideixes exactament amb què poses a prova la visibilitat de la teva marca. Tres blocs:

Motors. Antropus permet seleccionar manualment, un a un, sobre quines fonts corre el baseline. Les disponibles avui són sis: Claude, ChatGPT, Gemini, Perplexity, Google IA (mode generatiu) i Google AI Overview (el bloc real de la SERP). No hi ha presets: tu tries. Com més motors actives, més fiable la lectura, però també més cost.

Origen dels prompts. Tres opcions: generació metodològica automàtica (Antropus crea els prompts respectant A–F), fer servir un set desat de la biblioteca del projecte, o afegir manualment (enganxant o escrivint). Per a una primera auditoria fem servir l'automàtica; per a auditories recurrents, el set desat, que garanteix que comparem pomes amb pomes trimestre a trimestre.

Profunditat del baseline. Un control lliscant de 5 a 25 prompts. La pantalla indica si l'elecció és "Mesurament mínim" (≤ 5 prompts, prova ràpida amb cobertura limitada) o si entra a la zona metodològicament sòlida (≥ 12 prompts). Els chips A–F a sota recorden quines categories cobrirà el set.

L'elecció de "5 prompts × 4 motors = 20 tests" no és l'habitual d'un client real. Per a un client seriós recomanem com a mínim 15 prompts i 3 motors, cosa que dóna entre 45 i 60 tests. Per a auditoria de capçalera, 30 prompts × 4 motors ≈ 120 tests.

Segon pas de l'assistent d'Antropus mostrant la selecció manual de motors i el control lliscant de profunditat del baseline.

Pas 2 "Com mesurar". Selecció manual dels motors disponibles, origen de prompts i control lliscant de profunditat del baseline.

7.3 Pas 3 — Revisar i configurar el mapa d'intenció

Abans de llançar res, Antropus t'ensenya un resum: motors actius, nombre de prompts, nombre de tests resultants, cost estimat en crèdits, marca, URL, sector, país, competidors i origen dels prompts. És l'última oportunitat de canviar res sense haver gastat.

En aquest mateix pas 3 hi ha, plegat, l'editor del mapa d'intenció → URL canònica. Si el projecte ja tenia mapa configurat, veus un badge "Mapa complet" i el nombre de clústers desats. Si no, pots configurar-lo aquí mateix sense sortir del flux: cada clúster amb la seva URL canònica, les seves URLs acceptables i les seves URLs problemàtiques, amb el motiu de per què són problemàtiques (home absorbeix específica, recerca absorbeix comercial, actiu incorrecte, etc.).

Aquest pas és opcional, però molt recomanat: sense mapa, les mètriques bàsiques (SoR, BCR, Top 3) segueixen funcionant, però perds el 80 % de l'anàlisi estructural —drift, canibalització, recomanacions d'arquitectura—.

Pantalla de revisió final del baseline a Antropus amb el resum i el mapa d'intenció.

Pas 3 "Revisar": resum del baseline abans de llançar, chips de les sis categories metodològiques i editor del mapa d'intenció plegable.

7.4 Generació i revisió del set de prompts

En prémer "Que la IA els generi", Antropus arrenca un procés visible: analitza el context del negoci, construeix la distribució metodològica, genera per torn cadascuna de les sis categories (B → D → C → A → E → F), valida la distribució global (B+C+D ≥ 51 %, A ≤ 30 %) i detecta biaixos a marca i duplicats semàntics. Ho veus en una llista amb un check verd per cada pas completat.

Immediatament després arribes a la pantalla "Revisar prompts". Allà, abans de llançar, veus:

El panell de distribució metodològica, amb una puntuació global i avisos quan alguna cosa no quadra (per exemple, "B+C+D representen 50 % del set. Mínim metodològic 51 %").
La llista de prompts agrupada per categoria A–F, amb el seu text, la seva categoria i la columna "URL canònica" per prompt.
Una dada important: si tens mapa d'intenció configurat, Antropus autocompleta automàticament la URL canònica de cada prompt segons la seva categoria. A la pantalla apareix un avís ("X URLs canòniques autocompletades des del mapa d'intenció") i els prompts entren ja amb la seva URL alineada. Si vols una URL diferent per a un prompt concret, la sobreescrius allà.
Botons per afegir prompts a mà, enganxar-ne diversos alhora, copiar la llista o tornar a l'origen.

Encara que Antropus els generi amb metodologia, sempre revisem abans de llançar. Reescrivim els prompts que no tenen l'angle natural del sector, recategoritzem els mal classificats i desactivem els que no apliquen (sense esborrar-los, per si es reactiven el trimestre que ve).

Llista de prompts agrupats per categoria metodològica en una auditoria GEO, amb URLs canòniques autocompletades des del mapa d'intenció.

Pantalla de revisió de prompts: cada categoria A–F com a secció col·lapsable, amb el seu text, URL canònica autocompletada i selector de categoria.

7.5 Llançar i monitoritzar

Prems "Llançar baseline" i la feina s'encua al backend, que corre asíncron per lots i va desant el progrés. A la pràctica, això significa tres coses que importen més del que sembla:

Pots tancar la pestanya. El baseline segueix corrent i, en tornar, veus el progrés real.
Si un motor falla tècnicament (timeout, quota), aquest test es marca com a fallit i el lot continua. La feina no cau sencera per un proveïdor que va tenir un mal dia.
Pots cancel·lar a mitges si veus que alguna cosa va malament; els tests ja completats es conserven.

La pantalla "Baseline en curs" té un nucli de progrés ("AI Execution Core") amb un anell SVG, el percentatge gran al centre i nodes per motor al voltant (verd = completat, blau = en curs, gris = pendent). Una barra lineal a dalt mostra "X/N tests" i "X % completat". Més avall: cards per motor amb el seu estat individual, prompt actual destacat, cua de prompts pendents i una línia de fases.

Un baseline petit (5 prompts × 4 motors = 20 tests) triga entre 3 i 8 minuts. Un d'estàndard (30 prompts × 4 motors = 120 tests) pot anar-se'n a 20–35 minuts segons el rendiment dels proveïdors.

Pantalla d'execució d'un baseline a Antropus amb l'AI Execution Core mostrant el progrés i els motors actius.

AI Execution Core: anell SVG amb percentatge al centre i nodes per motor al voltant (verd = completat, blau = en curs). Cards per motor + prompt actual.

8. Com llegir i interpretar els resultats

Aquí comença la feina de consultor de debò. Antropus et dóna els números i el diagnòstic estructurat; tu els converteixes en recomanacions. Aquestes són les quatre lectures que fem sempre.

8.1 Lectura 1 — Els quatre indicadors de capçalera

Les combinacions de SoR, BCR, R i Top 3 et donen la foto macro d'un sol cop:

SoR alt + BCR baix: la IA et recomana però no t'enllaça. Problema de citació, no de visibilitat.
BCR alt + R baix: t'enllacen, però a la URL equivocada. Problema de canònica, no de citació.
R alt + Top 3 baix: la URL correcta apareix, però no a dalt. Problema de rellevància o autoritat per a aquesta intenció.
Tots baixos: problema de fons. Probablement falten senyals d'entitat o el client no té contingut suficient.

Aquest és el primer tall de l'informe.

8.2 Lectura 2 — La taxonomia d'errors

Antropus classifica els errors en 15 tipus amb severitat escalada per valor comercial. Agrupats:

Al·lucinacions: confusió d'entitat; ambigüitat de sigles; atribució errònia d'autoria; desviació de tema; afirmació favorable sense font; URL que no respon a la intenció.
Canònica: drift canònic (URL pròpia diferent de l'esperada); dispersió de fonts; feblesa de font pròpia (et mencionen, però sense citar res teu).
Fonts: dependència de tercers (la teva visibilitat penja només de fonts alienes); dominància de competidors (citen la competència i a tu no, o no al top 3).
Activació: error d'activació de categoria (pregunta sense marca i sense menció a B/D/E/F); error de shortlist comparatiu (categoria C sense top 3).

I cada error ve amb quatre coses: un títol humà ("Drift canònic", "Confusió d'entitat"…), una descripció de què passa, el seu impacte en llenguatge de negoci ("pèrdua de control de la URL que captura demanda comercial") i un tipus de solució suggerida que enllaça directament amb l'eina d'Antropus que el resol.

8.3 Lectura 3 — Severitat escalada per valor comercial

Un drift canònic en categoria A (marca) és severitat alta. El mateix drift en categoria D (decisió comercial) escala a crítica, perquè costa diners de debò. Les categories d'alt valor són D (decisió), C (comparació) i B (descobriment): qualsevol error en elles puja un esglaó de severitat respecte al mateix error en A, E o F.

Això t'estalvia feina: quan lliures l'informe, les accions prioritzades no són "les que tenen més errors", sinó les que més impacte comercial tenen.

8.4 Lectura 4 — Accions recomanades amb criteri d'èxit

Cada error genera una acció amb prioritat (1–3), una eina destí (un enllaç directe a la funció d'Antropus que el resol: editor d'entitat, copywriter, arquitectura de contingut…) i un criteri d'èxit mesurable. Per exemple: "Citation Rate ≥ 50 % en categoria D al pròxim baseline."

Això és el que lliures com a full de ruta. No "la teva visibilitat és mitjana" (inútil), sinó "aquests set problemes, en aquest ordre, amb aquesta eina, i validem el resultat amb aquesta mètrica d'aquí a tres mesos".

Pestanya Intel·ligència d'Antropus mostrant errors categoritzats, severitat escalada per valor comercial i accions prioritzades amb criteri d'èxit.

Pestanya "Intel·ligència" amb errors detectats classificats per severitat, accions prioritzades amb la seva mètrica objectiu i criteris d'èxit.

9. L'avís metodològic i la traçabilitat estadística

Una auditoria seriosa reconeix els seus límits per escrit. A Antropus, tot PDF exportat porta un avís metodològic automàtic. I per sota, el motor aplica una sèrie de regles d'honestedat estadística que la majoria d'eines es salten. Les dues coses, juntes, són el que de debò diferencia un informe que aguanta una revisió externa d'un que cau a la primera punxada.

9.1 El que la teva auditoria GEO ha de declarar (sempre)

Els models d'IA no són deterministes. La mateixa pregunta pot donar respostes diferents en execucions seguides. Per això un baseline és una mostra, no una veritat absoluta. Per detectar canvis reals, comparem diversos tests per motor i mirem la variància.
El grounding web és imperfecte. Les cerques web dels proveïdors poden tornar fonts incorrectes o no tornar-ne cap malgrat haver-les consultat. Antropus ho detecta i ho assenyala (per exemple, les redireccions opaques de Gemini, que oculten el domini real sota URLs del tipus vertexaisearch.cloud.google.com/grounding-api-redirect/…).
Les marques semblants es confonen. Sense una fitxa d'entitat ben feta, els homònims produeixen falsos positius. Antropus puntua la qualitat de la fitxa en quatre estats i desaconsella mesurar si està en els dos pitjors.
Les mostres petites tenen molta variància. Antropus desaconsella treure conclusions de baselines amb menys de 15 prompts. Una mètrica sobre 5 avaluables no té poder estadístic.
No prometem "posició garantida a ChatGPT". El model canvia, el mode canvia, l'app canvia. El que sí que prometem és metodologia repetible i diagnòstic clar. Qui et prometi el primer t'està venent fum.
El Triggering Rate d'AI Overview varia. No totes les cerques activen el bloc generatiu. Antropus ho mesura i separa "Google no va mostrar el bloc" de "la teva marca no va aparèixer", dues coses que la majoria d'eines barregen.

Declarar aquests límits no et resta credibilitat. Te'n dóna. El client que entén que una eina reconeix els seus marges d'error és el mateix que confia en tu el trimestre següent.

9.2 Les set regles d'honestedat estadística

Si no es pot mesurar, no s'inventa. Quan el denominador és 0, la mètrica és "no mesurable", no 0. Al tauler surt "—"; a l'Excel, buit. Un 0 silenciós enganya el client.
El "no mesurat" es filtra del SoR. "No ho he mesurat" no és "és la pitjor opció". Distingir-ho és la diferència entre un SoR honest i un de corromput per baselines vells.
Els tests amb confusió d'entitat surten del denominador de visibilitat. Si Gemini et va confondre amb un homònim, aquest test no infla el teu SoM: entra a la taxa de validesa metodològica.
L'heterogeneïtat es declara. Si la diferència entre el millor i el pitjor motor supera els 40 punts percentuals, el global es marca com a heterogeni i el tauler avisa que no treguis conclusions de la mitjana, perquè un motor l'està distorsionant.
A la SERP generativa, "es va disparar" i "no es va disparar" van separats. Si Google no va mostrar el bloc, aquest test no entra a visibilitat: entra a Triggering Rate. Mètriques diferents, interpretacions diferents.
Avisos automàtics per mida de mostra. Menys de 12 prompts: avís. Menys de 15: recomana ampliar. Menys de 5 avaluables: el motor d'intel·ligència es nega a diagnosticar.
La fiabilitat de fonts pondera per opacitat. Les URLs opaques (les redireccions de Gemini) penalitzen la puntuació; les auditables la pugen. La quota de veu ponderada fa servir aquesta puntuació, de manera que una menció a Perplexity amb font oficial pesa més que una a Gemini amb redirecció.

Detall de l'Excel d'una auditoria GEO d'Antropus mostrant una mètrica no mesurable reportada com a "—" i no com a 0.

Detall de l'Excel descarregable. Quan una mètrica no es pot calcular, la cel·la porta "—" en comptes de "0"; taula neta, sense colorins.

10. Quant es triga a fer una auditoria GEO seriosa?

Perquè tinguis una referència real, aquest és el desglossament d'una auditoria completa tal com la lliurem a Elevam:

Fase	Temps
Setup del projecte + fitxa d'entitat	30–60 min
Mapa d'intenció	45–90 min (segons la mida del lloc)
Generació de prompts	5 min (auto) + 15–30 min de revisió humana
Execució del baseline (30 prompts × 4 motors ≈ 120 tests)	20–35 min automàtic
Anàlisi i redacció de l'informe	2–4 hores
PDF/Excel lliurable (amb avís metodològic inclòs)	30 min automàtic

En total, aproximadament una jornada de feina de consultor. Si el client vol màxima profunditat (60 prompts × 6 motors, al voltant de 360 tests amb tots els SERP-generatius actius), s'en va a jornada i mitja. Però el resultat justifica sense problema una factura de quatre xifres —sovint de diversos milers d'euros—, sobretot si ho empaquetes bé (auditoria puntual, o auditoria + remediació + segon baseline per validar resultats).

11. Errors que veiem una vegada i una altra en auditories GEO prèvies

Quan un client ens ensenya l'auditoria que li van fer abans, gairebé sempre trobem els mateixos errors:

Van mesurar només a ChatGPT. Com si fos l'únic motor. Claude, Gemini, Perplexity i el bloc AI Overview de Google també tenen audiència, i els resultats poden ser molt diferents. Una auditoria seriosa mesura en almenys tres motors.
No separen memòria de web. Els resultats canvien radicalment. Un baseline seriós mesura els dos modes on el motor ho permet i, a més, inclou el SERP-generatiu de Google per veure què explica Google sense que l'usuari abandoni el cercador.
El SoM surt al 80 % perquè el set era 100 % de marca. Ja ho hem dit, però val la pena repetir-ho.
No hi ha fitxa d'entitat. L'analitzador no distingeix la marca dels seus homònims. Falsos positius sistèmics.
No hi ha mapa d'intenció. Només miren "va sortir alguna URL del domini?". No detecten ni canibalització ni drift.
Mètriques sense denominador. "Citation Rate 35 %." Sobre què? Tests totals? Avaluables? Visibles? Sense saber-ho, el número és soroll.
Promeses impossibles. "Sortiràs al top 3 de ChatGPT en 90 dies." Això no es pot prometre, perquè ni el model, ni el mode, ni l'app són estables.

Quan arriba un client amb un informe així, la conversa és fàcil: "això no és una auditoria GEO, és el material de venda del que te la va fer. T'ensenyo com es fa bé".

12. Preguntes freqüents sobre l'auditoria GEO

Què és exactament una auditoria GEO?

És el mesurament sistemàtic de com apareix la teva marca a les respostes dels motors d'IA generativa (ChatGPT, Claude, Gemini, Perplexity) i al bloc AI Overview de Google: si et mencionen, en quina posició, si citen el teu web i si et confonen amb una altra empresa.

En què es diferencia una auditoria GEO d'una auditoria SEO?

El SEO mesura la teva posició als resultats de cerca de Google. L'auditoria de visibilitat en IA mesura la teva presència dins de respostes generades, que no tenen posicions ni clics a l'ús. Són disciplines complementàries, amb eines i mètriques pròpies.

Com s'evita que les mètriques surtin inflades?

Repartint les preguntes en sis categories obligatòries —amb entre un quart i un terç de preguntes genèriques, on la marca només apareix si de debò se la recomana—, sense comptar com a encert les confusions de marca i mostrant un "—" quan no hi ha mostra suficient per a una xifra fiable.

Quina eina feu servir per fer l'auditoria GEO?

Fem servir Antropus, la plataforma de SEO i GEO desenvolupada per Elevam Labs. Permet mesurar quatre LLMs (Claude, ChatGPT, Gemini, Perplexity) més Google IA i AI Overview, amb resolució d'entitat, mapa d'intenció i un motor que converteix les mètriques en accions prioritzades.

Cada quant convé repetir una auditoria de visibilitat en IA?

El recomanable és trimestral, fent servir el mateix set de prompts perquè la comparativa sigui vàlida. Els models canvien sovint, i només mesurant amb regularitat detectes a temps si la teva visibilitat puja o baixa.

Es pot garantir aparèixer a ChatGPT o a Google AI Overview?

No, i desconfia de qui ho prometi. El que sí que es pot és mesurar amb rigor, diagnosticar on falles i treballar els senyals (entitat, contingut, citacions, arquitectura) que augmenten les teves probabilitats d'aparèixer.

13. Conclusió

Una auditoria GEO seriosa no és llançar 30 prompts a ChatGPT i resumir el resultat en un PDF. És un protocol de mesurament amb metodologia tancada, mètriques que saps calcular, una taxonomia d'errors clara i uns marges d'error declarats.

El que convé endur-se:

L'auditoria de visibilitat en IA mesura una cosa diferent del SEO clàssic. Necessita eines i metodologia pròpies.
Els prompts s'han de repartir en sis categories (A–F) amb diferent política de marca. Un set esbiaixat cap a A produeix mètriques inflades i inútils.
El SoR (ponderat per força de recomanació) és la mètrica titular d'un tauler GEO seriós. El SoM (binari) és secundari.
El mapa d'intenció → URL canònica activa l'anàlisi estructural: drift, canibalització, URLs problemàtiques. Sense ell, perds el 80 % del valor.
Les confusions d'entitat no inflen el SoM: surten del denominador. Així s'eviten els falsos positius.
Si no es pot mesurar, no s'inventa. L'heterogeneïtat es declara. Les mostres petites s'avisen. Això se li explica al client; no s'amaga.

A Elevam fem servir Antropus per a totes les nostres auditories GEO. És el que ens permet respectar tot l'anterior sense feina manual massiva: backend asíncron resilient, un motor d'intel·ligència que converteix mètriques en accions prioritzades i exportable a PDF amb avís metodològic inclòs.

Sobre Antropus

Antropus.io és la plataforma de SEO i GEO desenvolupada per Elevam Labs, el laboratori de producte de l'agència Elevam, dirigida per Asier López Ruiz. Combina dades reals de proveïdors professionals del sector amb anàlisi d'IA pròpia per auditar la visibilitat de les marques tant en cercadors com en motors generatius, en una sola suite i amb un enfocament centrat en l'honestedat de les dades.