Com exposar les teves dades a la IA amb schema, feeds i entitat…

844K+

Webs amb llms.txt

BuiltWith, octubre 2025

80%+

RAG empresarials amb FAISS/Elastic

Applied Sciences, des. 2025

52% vs 37%

Precisió GPT-5 mini vs ChatGPT Search

Dades OpenAI

4 mecanismes

Per exposar dades a LLMs avui

Per què les teves dades ja no es poden quedar només dins de la teva web?

Hem assessorat companyies de 2M a 15M€ de facturació que tenien webs tècnicament sòlides, bons continguts i autoritat de domini raonable. I, tot i així, quan preguntaves a ChatGPT, Gemini o Perplexity per la seva categoria, no apareixien. És el que anomenem internament el «problema del mur de vidre»: la teva informació hi és, però les IA no la reben en un format que puguin processar amb confiança.

Els motors de cerca clàssics rastregen i indexen el HTML de la teva web sistemàticament. Els LLM funcionen d'una altra manera. Un model com GPT-5 o Gemini 2.5 no «llegeix» tota la teva web: recupera fragments sota demanda, en temps real, i els processa segons la facilitat amb què s'interpreta el seu contingut. Si la teva web depèn molt de JavaScript, té navegació complexa o dades enterrades en PDF, aquests fragments poden no arribar.

Una revisió sistemàtica de 63 estudis publicada a Applied Sciences (desembre 2025) confirma que més del 80% de les implementacions RAG empresarials depenen de frameworks estàndard de recuperació com FAISS o Elasticsearch, i que un dels principals colls d'ampolla segueix sent la qualitat i accessibilitat de les dades d'origen. No és el model el que sol fallar. És la capa de dades que l'alimenta.

Fragment clau: Els LLM no indexen la teva web com un cercador clàssic. Recuperen fragments sota demanda i només processen el que és directament interpretable. Si les teves dades no estan formatades per a ells, la probabilitat que la teva empresa aparegui en respostes generades per IA es redueix significativament.

Què significa «first-party data per a LLMs» a la pràctica?

Quan parlo de first-party data per a LLMs no em refereixo a compartir el teu CRM amb OpenAI. Em refereixo a construir una capa de dades que tu controles, en formats que els models de llenguatge poden consumir de forma fiable, i que actualitzes tu —no un crawler—.

Això inclou quatre mecanismes que ja són operatius o en fase d'adopció accelerada:

| Mecanisme | Què fa | Per a qui | | --- | --- | --- | | llms.txt | Arxiu Markdown a la teva arrel que indica als LLMs quines pàgines són rellevants i com interpretar-les. | Qualsevol empresa amb web i contingut propi. | | Product Feed (OpenAI / Google) | Feed estructurat (JSON/CSV/XML) que envies directament a plataformes d'IA amb productes, preus i stock. | E-commerce, retailers, marketplaces. | | Schema markup avançat | JSON-LD amb dades d'entitat, producte, FAQ, autor i relacions. Alimenta Knowledge Graphs. | Totes les empreses. Especialment B2B i serveis. | | MCP | Protocol obert (Anthropic / Linux Foundation) per a connexió bidireccional entre LLMs i sistemes empresarials. | Empreses amb APIs, BBDD i processos interns complexos. |

La meva lectura: estem davant d'un canvi semblant al que va suposar el sitemap.xml per al SEO clàssic. Qui construeixi aquesta capa amb criteri i abans que la seva competència tindrà un avantatge difícil de replicar, perquè no és només tecnologia: són dades pròpies, actualitzades i verificables. I això requereix temps.

Traducció a GEO: Per a una empresa B2B de serveis, implementar schema Organization + Person + sameAs a les seves plataformes principals i afegir llms.txt a l'arrel de la seva web pot moure l'agulla en visibilitat davant LLMs amb un esforç raonable. No és un megaprojecte, però sí que requereix criteri sobre quines dades exposar i com estructurar-les.

Com funciona llms.txt i val la pena implementar-lo ja?

L'estàndard llms.txt va ser proposat per Jeremy Howard (cofundador d'Answer.AI) el setembre de 2024. La idea és directa: un arxiu Markdown a l'arrel de la teva web (/llms.txt) que ofereix als LLMs un mapa curat del teu contingut més rellevant, amb context d'interpretació.

A diferència d'un sitemap.xml —que llista totes les URLs per a crawlers—, llms.txt selecciona l'important i ho presenta en un format que un model de llenguatge pot processar directament, sense haver de parsejar HTML complex, sidebars, banners de cookies o JavaScript dinàmic.

Segons dades de BuiltWith (octubre 2025), més de 844.000 llocs web ja l'han implementat. Empreses com Anthropic, Cloudflare, Stripe i Vercel el fan servir a la seva documentació. LangChain va realitzar benchmarks interns comparant quatre maneres de donar accés a documentació a agents de codi, i la versió optimitzada amb llms.txt va superar la resta amb claredat.

Ara, un matís necessari. Un estudi de SE Ranking sobre 300.000 dominis (novembre 2025) no va trobar correlació estadística entre tenir llms.txt i ser citat més per LLMs. I cap proveïdor d'IA major ha confirmat oficialment que fa servir aquest arxiu als seus pipelines d'inferència. Això no invalida l'estàndard; el contextualitza. Estem en una fase d'adopció primerenca, similar a la del sitemap.xml abans que Google l'adoptés formalment.

La meva posició: implementar llms.txt costa menys d'una hora i té un upside asimètric. Si demà un LLM comença a buscar aquest arxiu, tu ja el tens. Si no el busca, no has perdut res rellevant. És el tipus d'aposta que un CEO hauria d'aprovar sense pensar-s'ho gaire.

Fragment clau: llms.txt és un arxiu Markdown a la teva arrel web que ofereix als models de llenguatge un mapa curat del teu contingut més rellevant. Més de 844.000 webs ja el tenen. Avui no hi ha evidència d'impacte directe en citacions, però el cost d'implementar-lo és tan baix que la relació risc-benefici és clarament favorable.

Si vens productes: feeds dinàmics per a ChatGPT i Google

Aquesta secció és especialment rellevant si tens e-commerce, marketplace o vens productes físics/digitals en línia. Si el teu model és purament B2B/serveis, pots saltar a la següent secció.

OpenAI ja té una especificació de product feed operativa que permet als comerciants enviar dades estructurades directament a ChatGPT: títols, preus, stock, imatges, variants, logística, valoracions. La documentació està pública a developers.openai.com/commerce/specs/feed.

Això ja funciona. ChatGPT va llançar el seu assistent de compres el novembre de 2025, i des de setembre permet Instant Checkout amb Shopify, Etsy i Stripe a través de l'Agentic Commerce Protocol (ACP). El model no rastreja la teva botiga: tu li envies un feed via HTTPS, i el pots actualitzar cada 15 minuts per mantenir preus i inventari en temps real. No és vaporware.

Una dada que em sembla rellevant: segons OpenAI, el model especialitzat de GPT-5 mini per a consultes de compra arriba a un 52% de precisió en cerques amb múltiples restriccions, davant del 37% de ChatGPT Search estàndard. La diferència la fan, en bona mesura, les dades estructurades que rep del feed. Com més completa i precisa és la informació, millor respon.

Google va en la mateixa direcció. El seu Universal Commerce Protocol (UCP) funciona a través del Google Merchant Center existent i està dissenyat perquè els productes puguin aparèixer amb opció de compra directa a Google AI Mode i Gemini. Si ja tens Merchant Center, preparar el teu feed per a aquestes superfícies d'IA és una extensió natural del que ja fas.

Patró operatiu que observem a Elevam: entre els clients d'e-commerce amb què treballem, els que mantenen feeds de producte nets, actualitzats i amb schema Product + Offer + AggregateRating consistent entre la seva web i les seves plataformes de venda tendeixen a rebre un tractament sensiblement millor per part dels LLM en consultes transaccionals. Els que tenen feeds desactualitzats o inconsistents simplement no apareixen en aquestes respostes. No tenim un experiment controlat per afirmar causalitat, però el patró és prou clar i repetit per prendre-se'l seriosament.

Per a totes les empreses: desambiguació d'entitat, el problema que ningú veu

Això aplica tant a B2B com a e-commerce, serveis, SaaS o qualsevol empresa que vulgui que la IA la identifiqui correctament.

Pots tenir el millor producte, el millor contingut i la millor web del sector. Però si la IA no té senyals clars de qui ets com a entitat, tendeix a no citar-te. No per mala voluntat, sinó per prudència: els models eviten afirmar coses de les quals no estan segurs.

La desambiguació d'entitat és el procés pel qual un LLM decideix a quina «cosa» del món real es refereix un nom. Quan algú pregunta a ChatGPT per «Apollo», el model decideix si parla del programa espacial, del déu grec o de la plataforma de vendes. Ho resol per probabilitat, amb els senyals disponibles.

Gartner ha estimat que el volum de cerca tradicional podria caure al voltant d'un 25% el 2026 a mesura que els compradors —especialment en B2B— migrin cap a assistents d'IA. Si aquesta estimació s'acosta a la realitat, les marques que no estiguin clarament identificades com a entitats als Knowledge Graphs perdran visibilitat progressivament, per molt bé que rankegin en SEO clàssic.

El que necessites perquè la IA t'identifiqui sense ambigüitat:

Schema Organization amb tantes propietats recomanades com apliquin al teu cas: founder, slogan, areaServed, numberOfEmployees, foundingDate. Google no estableix un mínim obligatori, però la seva documentació recomana ser tan complet com sigui possible dins del que sigui real i verificable.
La propietat sameAs apuntant a LinkedIn, Crunchbase, Wikipedia (si tens article), perfils socials verificats. Cada URL a sameAs actua com un senyal de confirmació d'identitat per al Knowledge Graph.
Consistència lèxica: el mateix nom de marca, adreça i descripció corporativa a totes les plataformes. Si a la teva web posa «Elevam», a LinkedIn «Elevam Digital» i a Crunchbase «Elevam S.L.», la IA pot tractar-los com entitats diferents. Sembla un detall menor, però fractura el senyal.
Knowledge Panel verificat a Google, amb una descripció alineada amb el teu posicionament real.

Com apunta Gianluca Fiorelli al seu anàlisi de les actualitzacions de Google Search Console de 2025: Google està fent servir activament el seu Knowledge Graph per mapar perfils socials a una única entitat corporativa. Si Search Console detecta automàticament els teus canals socials, és un senyal que Google ha desambiguat la teva marca amb èxit. Això és verificable i accionable.

Fragment clau: La desambiguació d'entitat condiciona si un LLM et cita o t'omet. Per resoldre-la necessites schema Organization complet, sameAs en múltiples plataformes, consistència lèxica total i un Knowledge Panel verificat. Sense aquests senyals, la teva marca és una URL entre moltes, no una entitat reconeguda.

Si tens sistemes interns complexos: què és MCP i quan té sentit

Aquesta secció és rellevant si la teva empresa té bases de dades internes, APIs pròpies o processos operatius que es podrien beneficiar que un agent d'IA hi accedís. Si el teu cas és més senzill, passa directament a l'ordre d'implementació.

El Model Context Protocol (MCP) va ser llançat per Anthropic el novembre de 2024 com a estàndard obert, i el desembre de 2025 va ser donat a l'Agentic AI Foundation sota la Linux Foundation, amb el suport d'OpenAI, Block i altres companyies. Segons Gartner, s'espera que el 75% dels proveïdors de gateway tinguin capacitats MCP el 2026.

El protocol permet que un agent d'IA es connecti de manera estandarditzada als teus sistemes: bases de dades, APIs, eines de negoci. A diferència de RAG —que és essencialment unidireccional: recupera dades per alimentar el model—, MCP és bidireccional. L'agent pot consultar inventari, actualitzar estats de comanda, llegir tickets de suport o assignar prioritats. Això canvia la naturalesa del que pot fer un agent en un context empresarial.

Però l'adopció no és trivial. A la RSA Conference 2026 es van presentar múltiples sessions sobre riscos de seguretat de MCP: sobrepermisos, injecció de prompts a través d'eines, fuga de dades per controls d'accés febles. Hi ha valor real, però també risc real si no es governa bé.

La meva lectura estratègica: MCP no és per a totes les empreses avui. Si factures 2M€ i tens un equip tècnic petit, la teva prioritat és schema + llms.txt + feeds de producte. Però si estàs al rang 10M–20M€ amb sistemes interns distribuïts, hauries d'estar avaluant MCP ara —no necessàriament implementant, però sí entenent quines dades internes podria necessitar un agent d'IA i amb quina governança—. L'avantatge competitiu no està només a tenir agents d'IA; està que operin amb les teves dades, en temps real, amb control real.

Traducció a GEO: Dins del Protocol HSA que apliquem a Elevam, l'avaluació de maduresa de dades per a IA és un dels primers punts de diagnòstic. Abans de decidir quin protocol implementar, necessites saber quines dades tens, en quin estat estan i quines són estratègiques per a la IA.

Quin és l'ordre correcte d'implementació?

Això és el que recomanem als clients que assessorem a GEO, ordenat per impacte i esforç. No és una recepta universal, però funciona com a punt de partida raonable per a la majoria d'empreses del rang 1M–20M€:

1-2 setmanes
Schema Organization + Person + sameAs
Complet a web i plataformes externes. Desambiguació d'entitat. Base per a tot el que vingui.
Menys d'1 dia
Implementar llms.txt
Mapa curat de contingut clau a l'arrel. Preparació per a estàndard emergent. Cost proper a zero.
2-4 setmanes
Schema Product + Offer + FAQ avançat
JSON-LD a pàgines de producte/servei. Millora visibilitat a AI Overviews, ChatGPT i Perplexity.
3-6 setmanes
Feed de producte (si aplica)
Només ecommerce. ChatGPT Commerce + Google Merchant Center. Canal transaccional directe en LLMs.
Valoració 1 setmana
Avaluació de MCP (si aplica)
Requereix equip tècnic i governança. Empreses mitjanes-grans amb sistemes interns complexos.

Dins de la metodologia CREF© d'Elevam, aquesta seqüència encaixa al pilar de Contingut (dades com a contingut estructurat per a IA) i al pilar de Reputació/Entitat (senyals de desambiguació com a actiu d'autoritat). No són accions soltes: formen part d'un sistema.

Conclusió estratègica

El que està passant amb les dades pròpies i la IA s'assembla raonablement al que va passar amb el mobile el 2012. Tothom sabia que venia, però la majoria esperava que «s'estabilitzés» per moure's. Els que es van anticipar no només van guanyar trànsit: van construir un avantatge estructural que els altres van trigar anys a tancar. No dic que l'analogia sigui exacta, però la dinàmica s'assembla: eines disponibles, estàndards en formació i adopció massiva que encara no ha succeït.

Fragment clau: La capa de first-party data per a LLMs no és un projecte tècnic puntual. És una infraestructura estratègica que influeix directament en si la IA t'inclou a les seves respostes o t'omet. Les empreses que la construeixin amb criteri abans que sigui obvi per a tothom tindran un avantatge difícil de tancar.

Lectura següent

Si vols entendre com mesurar la teva visibilitat actual davant les IA i quines dades pròpies tenen més impacte, comença per revisar el Glossari GEO d'Elevam per alinear terminologia, i consulta el nostre enfocament al hub d'IA i GEO. Si necessites una valoració concreta de l'estat de les teves dades i la teva entitat davant la IA, el Protocol HSA és el punt de partida.

Lectura relacionada

Treballem junts?

Si vols aplicar això a la teva empresa amb un equip que combina SEO tècnic, GEO i captació de pagament mesurats en compte de resultats, demana'ns una auditoria sense compromís. També pots veure casos reals o llegir els baselines GEO públics que publica Elevam Labs cada trimestre.

Per

Asier López Ruiz

15 de març del 2026 · 13 min

Tornar al blog

GEO

Más artículos relacionados

Ver todos →

GEO12 de març del 2026

Què diu ChatGPT sobre la teva empresa (i com corregir-ho)

Per què els LLM s'inventen coses sobre la teva marca? L'explicació més sòlida l'ofereix el paper Why Language Models Hallucinate de Kalai, Nachum, Vempala i Zhang ( OpenAI/Georgia Tech, setembre 2025 ): els models de…

Per asier-lopez11 min

GEO12 de març del 2026

Per què la IA no recomana el mateix a tothom i com segmentar la teva visibilitat GEO

Per què la IA no recomana el mateix a tothom? La pregunta sembla òbvia, però la majoria de les estratègies GEO l'ignoren del tot. Els models de llenguatge no funcionen com un motor de cerca clàssic que…

Per asier-lopez15 min

GEO11 de març del 2026

Zero-click a Google: estadístiques, caiguda del CTR i impacte de la IA (2019–2025)

Seré directe: si la teva estratègia de captació depèn del trànsit orgànic de Google, tens un problema seriós. I no ho dic per sensacionalisme. Ho dic perquè porto mesos mesurant el que està passant als comptes…

Per asier-lopez22 min