Per què els LLM s'inventen coses sobre la teva marca?
L'explicació més sòlida l'ofereix el paper Why Language Models Hallucinate de Kalai, Nachum, Vempala i Zhang (OpenAI/Georgia Tech, setembre 2025): els models de llenguatge funcionen com a estudiants davant d'un examen que penalitza deixar respostes en blanc. Quan no saben, endevinen. I els sistemes d'avaluació actuals —els benchmarks que determinen quin model és "millor"— recompensen aquesta conjectura per sobre de l'honestedat.
Això no sembla que es resolgui aviat. Una demostració matemàtica inclosa al mateix paper i reforçada per treballs teòrics posteriors (Kalavasis et al., 2025; Kleinberg i Mullainathan, 2024) suggereix que, sota les arquitectures LLM actuals, existeix un trade-off estructural: qualsevol model que generalitzi més enllà de les seves dades d'entrenament produirà inevitablement sortides invàlides o patirà col·lapse de mode. És a dir: el model genera la resposta estadísticament més probable, no necessàriament la veritable.
Un estudi del MIT (gener 2025) afegeix un matís especialment rellevant per a qui gestiona una marca: quan un model al·lucina, tendeix a fer servir llenguatge més assertiu que quan encerta. Els models resultaven un 34% més propensos a emprar expressions d'alta confiança en generar informació incorrecta. Com més s'equivoca el model, més segur sona. I això és exactament el que fa perillosa una al·lucinació sobre la teva marca: no arriba embolcallada en dubtes, arriba amb la convicció d'un fet.
Si la teva estratègia de visibilitat en IA assumeix que els models "saben" el que ets, tens un problema. La teva marca necessita una empremta digital prou robusta perquè el model no hagi d'endevinar. Això és part del que aborda la capa de Reputació dins del framework CREF©.
De-biasing de marca: què és i què no és
En el context acadèmic, de-biasing es refereix a un conjunt de tècniques per reduir biaixos i al·lucinacions en models de llenguatge. Un review publicat a Artificial Intelligence Review (Springer, 2024) categoritza aquestes tècniques en mètodes basats en dades, ajust fi, RLHF i control de generació.
Però quan parlem de de-biasing aplicat a marca —el que aquí anomenem "neteja d'al·lucinacions"— ens referim a una cosa diferent: monitoritzar què diuen els LLM sobre la teva empresa, detectar errors factuals (al·lucinacions) i biaixos (informació desactualitzada, atribucions incorrectes, competidors mal comparats), i corregir-los a través d'una estratègia coordinada de contingut, dades estructurades i presència en fonts que els models rastregen.
Tu no pots reentrenar GPT-5. Però sí que pots influir en el que el model llegeix, cita i prioritza quan respon sobre el teu sector. Si controles les fonts que alimenten el model, redueixes la probabilitat que s'inventi. No és una garantia —els models segueixen tenint les seves pròpies dinàmiques—, però és la palanca més directa que tens. Per entendre les distincions entre al·lucinació factual, biaix i altres conceptes relacionats, el Glossari GEO d'Elevam els desenvolupa amb detall.
El de-biasing de marca no és reentrenar un model. És construir una empremta digital tan clara, estructurada i verificable que el LLM no necessiti inventar quan un usuari pregunta per tu.
Quant al·lucinen els models? Dimensionant el risc
Les xifres depenen del model, la tasca i el benchmark. Però hi ha patrons que ajuden a dimensionar de què estem parlant.
El leaderboard de Vectara (HHEM 2.3, desembre 2025) mesura amb quina freqüència un LLM introdueix informació falsa en resumir un document que se li ha proporcionat explícitament. En aquesta tasca controlada, els millors models se situen al voltant del 0,7% (Gemini 2.0 Flash), la mitjana ronda el 2-5%, i els pitjors superen el 25%.
Però aquestes són tasques de resum amb document font al davant. Quan el model respon a preguntes obertes sense document de referència —com quan un usuari pregunta "què opines de [la teva marca]?"— les taxes canvien radicalment. El benchmark SimpleQA d'OpenAI mostra que alguns models arriben a taxes d'error del 75% amb amb prou feines un 1% d'abstencions. Gairebé mai diuen "no ho sé".
Hi ha a més una dada contraintuïtiva sobre els models de raonament. Els models optimitzats per a cadenes de pensament (o3 i o4-mini d'OpenAI) al·lucinen més en preguntes factuals concretes: o3 va arribar al 33% a PersonQA, el doble que el seu predecessor o1. Optimitzar per a raonament complex sembla empènyer el model a omplir buits factuals amb conjectures plausibles en comptes d'abstenir-se.
Per a un CEO preocupat per com la seva marca apareix a respostes d'IA, això té una implicació incòmoda: que el model sigui més sofisticat no significa que sigui més precís quan parla de tu. Si la teva informació no és a les seves fonts, la sofisticació el farà millor inventant, no millor abstenint-se.
Com es tradueix una al·lucinació en un problema de negoci
Les xifres macro sobre pèrdues per al·lucinacions d'IA són vistoses, però massa grans per ser útils. El que importa és entendre els mecanismes pels quals una al·lucinació afecta la teva operació.
El competidor fantasma. Un LLM recomana el teu producte però afegeix un competidor que no existeix o que ja no opera. L'usuari compara, no troba el competidor i perd confiança en tota la resposta. Inclosa la teva menció.
La feature inventada. Algú pregunta "té [la teva marca] integració amb Salesforce?". El model diu que sí. No la tens. El lead arriba amb una expectativa impossible. El dany no és només l'oportunitat perduda: és que algú conclou que la teva marca promet el que no compleix.
El preu mal atribuït. El LLM indica que el teu servei costa 500€/mes quan en realitat comença en 2.000€. Atreus leads desqualificats. El teu equip comercial filtra més. El teu CAC puja i ningú identifica la causa.
Aquests no són escenaris teòrics. En clients amb els quals hem treballat, el símptoma sol ser el mateix abans que ningú miri el que diuen els LLM: leads que arriben amb expectatives estranyes, objeccions que no encaixen amb l'oferta real, comparatives contra competidors que no són els habituals. Quan es rastreja l'origen, la font és moltes vegades una resposta generativa. Però com que ningú monitoritza aquestes respostes, el problema roman invisible.
Una al·lucinació sobre la teva marca en un LLM no es queda al LLM. Es converteix en l'expectativa del lead, l'objecció del comercial i una oportunitat perduda que mai sabràs atribuir.
Com es corregeix? Quatre capes
No hi ha bala de plata. El que sí que hi ha és un enfocament per capes que la investigació recent i la pràctica van validant:
- 01
Monitorització activa
Abans de corregir res, necessites saber què estan dient els models. Això implica fer prompts sistemàtics als principals LLM amb les consultes típiques del teu ICP i registrar les respostes. Existeixen eines que comencen a automatitzar això (Goodie AI, Scrunch AI, Semrush Enterprise AIO), però el punt de partida pot ser manual: preguntar a ChatGPT, Claude, Gemini i Perplexity què saben de la teva marca i documentar el que diuen.
- 02
Reforç de l'empremta digital verificable
Els LLM prioritzen fonts amb autoritat d'entitat: informació verificable, estructurada, consistent i present en múltiples fonts de confiança. Com més feble sigui la teva presència en aquestes fonts, més marge té el model per inventar. En el framework CREF© ho anomenem la capa de Reputació: presència verificada en directoris, mitjans especialitzats, bases de dades sectorials, ressenyes qualificades i contingut propietari ben estructurat.
- 03
Contingut dissenyat per a extracció
El teu contingut necessita estar optimitzat no només perquè Google l'indexi, sinó perquè un LLM pugui extreure respostes factuals sense ambigüitat. Fragments autònoms, dades estructurades amb schema, preguntes com a encapçalaments, i una arquitectura que un model pugui recórrer sense perdre context. Més a IA + GEO.
- 04
RAG i fonts primàries
RAG (Retrieval-Augmented Generation) permet als LLM consultar fonts externes abans de generar una resposta. És la tècnica de mitigació més efectiva documentada fins ara. Però no és infal·lible: un paper presentat a ICLR 2025 (ReDeEP) va demostrar que les al·lucinacions segueixen passant quan els Knowledge FFNs del model sobrepesen el coneixement intern enfront de la informació externa recuperada. Si el teu contingut no és entre les fonts que el model consulta, RAG no t'ajuda.
El que veiem en empreses que descobreixen això
Hi ha un patró que es repeteix. No el presentem com a baseline amb metodologia tancada, sinó com una cosa que hem observat de forma recurrent en clients del segment 3M–15M€ amb presència digital raonable i processos comercials estructurats:
L'equip comercial comença a notar alguna cosa estranya: arriben leads amb expectatives que no encaixen amb l'oferta. Objeccions que semblen referir-se a una altra empresa. Comparatives contra competidors que no són els habituals. Ningú sap d'on surten.
Quan auditem el que els principals LLM diuen sobre la marca —un exercici que forma part del que fem al Protocol HSA— apareixen al·lucinacions actives. Preus incorrectes, features inexistents, posicionament equivocat enfront de competidors. En un cas, un model atribuïa els serveis d'un client a una altra empresa amb el mateix nom en un altre país.
La intervenció passa per reforçar la capa de Reputació dins de CREF©: contingut propietari estructurat amb fragments extractables, schema markup actualitzat, presència reforçada en fonts d'autoritat sectorial, i monitorització periòdica de respostes LLM. En els casos on s'ha executat el procés complet, les al·lucinacions detectades han disminuït en els mesos següents i, sobretot, l'alineació entre l'expectativa del lead i l'oferta real ha millorat. No tenim encara mètriques prou aïllades com per presentar-ho com a baseline formal, però el patró és consistent.
Reputació en IA: el que canvia respecte al SEO clàssic
Hi ha un debat obert sobre si GEO és una disciplina nova o una extensió de SEO. Una anàlisi recent de Digiday (març 2026) recull la posició de veterans del sector: moltes tàctiques de GEO són, al fons, les mateixes de sempre —autoritat, contingut clar, senyals de confiança.
És una lectura vàlida però incompleta. El que canvia no és tant la tàctica com la conseqüència de l'error. En SEO clàssic, si la informació sobre la teva marca està malament en alguna font, l'usuari la contrasta en visitar la teva web. En GEO, si el LLM té informació incorrecta, la presenta com a veritat dins de la mateixa resposta. No hi ha enllaç que l'usuari contrasti. No hi ha segona opinió a la SERP. L'al·lucinació pot ser l'única versió que rep.
Això converteix la neteja d'al·lucinacions en una capa híbrida: part GEO (optimització per a motors generatius), part gestió de reputació (protecció de la percepció de marca en canals que no controles). Si vols veure com estructurem aquesta connexió, la pàgina de GEO desenvolupa el pont entre SEO i visibilitat en IA.
En SEO, la informació incorrecta sobre la teva marca es descarta en visitar la teva web. En GEO, es presenta com a veritat pel LLM. Sense enllaç de contrast. Sense segona opinió. L'al·lucinació pot ser l'única versió que rep l'usuari.
Crec que la neteja d'al·lucinacions es convertirà en una categoria de despesa reconeixible al màrqueting digital. No sé quant trigarà —pot ser un any, poden ser tres—, però la lògica és la mateixa que amb les ressenyes online fa una dècada: primer les ignoraves, després les monitoritzaves, i ara són part del sistema. La pregunta no és si arribarà. És qui es mourà abans.
Conclusió: un cost d'adquisició que no apareix al teu dashboard
El de-biasing de marca no és un problema tècnic que resoldran els enginyers d'OpenAI, Google o Anthropic. És un problema de reputació que resoldrà (o no) el teu equip de màrqueting i creixement.
Cada al·lucinació no corregida és un lead pitjor qualificat, una expectativa que no encaixa, una comparativa que et perjudica. I a diferència d'un problema clàssic de reputació, aquest és invisible: no surt a Google Alerts, no apareix en mencions socials, no el detecta la teva eina d'escolta. Només el veus si preguntes directament als models.
La recomanació és simple: comença per auditar. Pregunta a ChatGPT, Claude, Gemini i Perplexity què saben de la teva marca. Compara amb la realitat. Si hi ha discrepàncies, tens un problema que probablement ja està afectant la teva captació. Si vols un diagnòstic estructurat, el Protocol HSA inclou aquesta auditoria de visibilitat en IA.
Construir una empremta digital que els LLM no necessitin endevinar s'està convertint en infraestructura bàsica de captació. No substituirà tenir una bona web ni un bon SEO. Però els complementarà d'una forma que, si la ignores, pagaràs sense saber on.
SEGÜENT LECTURA
Si això t'ha fet pensar que hauries de revisar el que la IA diu de la teva marca:
- Glossari GEO — Conceptes clau: hallucination, Entity Authority, RAG, citabilitat.
- Framework CREF© — Marc sistèmic de creixement. La capa de Reputació aborda directament aquest problema.
- Protocol HSA — Diagnòstic amb auditoria de visibilitat en motors generatius.
Consultoria de creixement — Per mirar-ho amb tu amb visió de P&L.
Lectures relacionades
- Com exposar dades a la IA amb schema, feeds i entitat
- Per què la IA no recomana el mateix a tothom
- Baselines GEO públics d'Elevam Labs
Treballem junts?
Si vols aplicar això a la teva empresa amb un equip que combina SEO tècnic, GEO i captació de pagament mesurats en compte de resultats, demana'ns una auditoria sense compromís. També pots veure casos reals o llegir els baselines GEO públics que publica Elevam Labs cada trimestre.


