Tus datos están en tu web. El problema es que las IAs no los reciben.

Cómo exponer tus datos a la IA con schema, feeds y entidad

Por Asier Lopez Ruiz

La mayoría de las empresas siguen esperando a que Google, ChatGPT o Perplexity rastreen su web para encontrar sus datos. Mientras tanto, algunas compañías de su mismo sector ya envían feeds estructurados directamente a las IAs. El paradigma está cambiando: ya no basta con que tu web sea «crawleable». Se trata de que tus datos de producto, disponibilidad, precios y contexto de marca lleguen a los modelos de lenguaje en el formato que necesitan, cuando lo necesitan.

Este artículo explica cómo construir esa infraestructura de datos propios para LLMs, qué estándares existen ya (llms.txt, product feeds de OpenAI, schema avanzado, MCP), y por qué la desambiguación de entidad es el problema silencioso que deja fuera de las respuestas generadas por IA a marcas con buenos productos. Incluye un orden de implementación concreto según el tipo de empresa.

Resumen ejecutivo

  • Los LLMs no indexan tu web como Google. Procesan lo que pueden interpretar rápido y saltan lo que no entienden. Si tus datos no están estructurados para ellos, tu probabilidad de aparecer en respuestas generadas baja drásticamente.
  • Ya hay estándares operativos para enviar datos a la IA: llms.txt (contenido), OpenAI Product Feed (e-commerce), schema markup avanzado (entidad y producto) y MCP (integración bidireccional con sistemas empresariales).
  • La desambiguación de entidad es la primera barrera real. Si la IA no tiene señales claras y consistentes de quién eres como entidad, tiende a no citarte. No le basta con tu web: necesita confirmación cruzada en múltiples fuentes.
  • OpenAI ya acepta feeds de producto con actualización cada 15 minutos. ChatGPT Commerce funciona con Shopify, Stripe y el Agentic Commerce Protocol. Google va en la misma dirección con Merchant Center.
  • La prioridad de implementación depende de tu modelo de negocio: schema y entidad para todos, llms.txt como apuesta de bajo coste, feeds de producto si vendes online, MCP si tienes sistemas internos complejos.
Tabla de contenidos

¿Por qué tus datos ya no pueden quedarse solo dentro de tu web?

Hemos asesorado a compañías de 2M a 15M€ de facturación que tenían webs técnicamente sólidas, buenos contenidos y autoridad de dominio razonable. Y, sin embargo, cuando preguntabas a ChatGPT, Gemini o Perplexity por su categoría, no aparecían. Es lo que llamamos internamente el «problema del muro de cristal»: tu información está ahí, pero las IAs no la reciben en un formato que puedan procesar con confianza.

Los motores de búsqueda clásicos rastrean e indexan el HTML de tu web sistemáticamente. Los LLMs funcionan de otra forma. Un modelo como GPT-5 o Gemini 2.5 no «lee» tu web entera: recupera fragmentos bajo demanda, en tiempo real, y los procesa según lo fácilmente interpretable que sea su contenido. Si tu web depende mucho de JavaScript, tiene navegación compleja o datos enterrados en PDFs, esos fragmentos pueden no llegar.

Una revisión sistemática de 63 estudios publicada en Applied Sciences (diciembre 2025) confirma que más del 80% de las implementaciones RAG empresariales dependen de frameworks estándar de recuperación como FAISS o Elasticsearch, y que uno de los principales cuellos de botella sigue siendo la calidad y accesibilidad de los datos de origen. No es el modelo lo que suele fallar. Es la capa de datos que lo alimenta.

Fragmento clave: Los LLMs no indexan tu web como un buscador clásico. Recuperan fragmentos bajo demanda y solo procesan lo que es directamente interpretable. Si tus datos no están formateados para ellos, la probabilidad de que tu empresa aparezca en respuestas generadas por IA se reduce significativamente.

¿Qué significa «first-party data para LLMs» en la práctica?

Cuando hablo de first-party data para LLMs no me refiero a compartir tu CRM con OpenAI. Me refiero a construir una capa de datos que tú controlas, en formatos que los modelos de lenguaje pueden consumir de forma fiable, y que actualizas tú —no un crawler—.

Esto incluye cuatro mecanismos que ya están operativos o en fase de adopción acelerada:

MecanismoQué hacePara quién
llms.txtArchivo Markdown en tu raíz que indica a los LLMs qué páginas son relevantes y cómo interpretarlas.Cualquier empresa con web y contenido propio.
Product Feed (OpenAI / Google)Feed estructurado (JSON/CSV/XML) que envías directamente a plataformas de IA con productos, precios y stock.E-commerce, retailers, marketplaces.
Schema markup avanzadoJSON-LD con datos de entidad, producto, FAQ, autor y relaciones. Alimenta Knowledge Graphs.Todas las empresas. Especialmente B2B y servicios.
MCPProtocolo abierto (Anthropic / Linux Foundation) para conexión bidireccional entre LLMs y sistemas empresariales.Empresas con APIs, BBDD y procesos internos complejos.

Mi lectura: estamos ante un cambio parecido al que supuso el sitemap.xml para el SEO clásico. Quien construya esta capa con criterio y antes que su competencia tendrá una ventaja difícil de replicar, porque no es solo tecnología: son datos propios, actualizados y verificables. Y eso lleva tiempo.

Traducción a GEO: Para una empresa B2B de servicios, implementar schema Organization + Person + sameAs en sus plataformas principales y añadir llms.txt a la raíz de su web puede mover la aguja en visibilidad ante LLMs con un esfuerzo razonable. No es un megaproyecto, pero sí requiere criterio sobre qué datos exponer y cómo estructurarlos.

¿Cómo funciona llms.txt y merece la pena implementarlo ya?

El estándar llms.txt fue propuesto por Jeremy Howard (cofundador de Answer.AI) en septiembre de 2024. La idea es directa: un archivo Markdown en la raíz de tu web (/llms.txt) que ofrece a los LLMs un mapa curado de tu contenido más relevante, con contexto de interpretación.

A diferencia de un sitemap.xml —que lista todas las URLs para crawlers—, llms.txt selecciona lo importante y lo presenta en un formato que un modelo de lenguaje puede procesar directamente, sin tener que parsear HTML complejo, sidebars, banners de cookies o JavaScript dinámico.

Según datos de BuiltWith (octubre 2025), más de 844.000 sitios web ya lo han implementado. Empresas como Anthropic, Cloudflare, Stripe y Vercel lo usan en su documentación. LangChain realizó benchmarks internos comparando cuatro formas de dar acceso a documentación a agentes de código, y la versión optimizada con llms.txt superó al resto con claridad.

Ahora, un matiz necesario. Un estudio de SE Ranking sobre 300.000 dominios (noviembre 2025) no encontró correlación estadística entre tener llms.txt y ser citado más por LLMs. Y ningún proveedor de IA mayor ha confirmado oficialmente que usa este archivo en sus pipelines de inferencia. Esto no invalida el estándar; lo contextualiza. Estamos en una fase de adopción temprana, similar a la del sitemap.xml antes de que Google lo adoptara formalmente.

Mi posición: implementar llms.txt cuesta menos de una hora y tiene un upside asimétrico. Si mañana un LLM empieza a buscar este archivo, tú ya lo tienes. Si no lo busca, no has perdido nada relevante. Es el tipo de apuesta que un CEO debería aprobar sin pensarlo mucho.

Fragmento clave: llms.txt es un archivo Markdown en tu raíz web que ofrece a los modelos de lenguaje un mapa curado de tu contenido más relevante. Más de 844.000 webs ya lo tienen. Hoy no hay evidencia de impacto directo en citaciones, pero el coste de implementarlo es tan bajo que la relación riesgo-beneficio es claramente favorable.

Si vendes productos: feeds dinámicos para ChatGPT y Google

Esta sección es especialmente relevante si tienes e-commerce, marketplace o vendes productos físicos/digitales online. Si tu modelo es puramente B2B/servicios, puedes saltar a la siguiente sección.

OpenAI ya tiene una especificación de product feed operativa que permite a los comerciantes enviar datos estructurados directamente a ChatGPT: títulos, precios, stock, imágenes, variantes, logística, valoraciones. La documentación está pública en developers.openai.com/commerce/specs/feed.

Esto ya funciona. ChatGPT lanzó su asistente de compras en noviembre de 2025, y desde septiembre permite Instant Checkout con Shopify, Etsy y Stripe a través del Agentic Commerce Protocol (ACP). El modelo no rastrea tu tienda: tú le envías un feed vía HTTPS, y puedes actualizarlo cada 15 minutos para mantener precios e inventario en tiempo real. No es vaporware.

Un dato que me parece relevante: según OpenAI, el modelo especializado de GPT-5 mini para consultas de compra alcanza un 52% de precisión en búsquedas con múltiples restricciones, frente al 37% de ChatGPT Search estándar. La diferencia la hacen, en buena medida, los datos estructurados que recibe del feed. Cuanto más completa y precisa es la información, mejor responde.

Google va en la misma dirección. Su Universal Commerce Protocol (UCP) funciona a través del Google Merchant Center existente y está diseñado para que los productos puedan aparecer con opción de compra directa en Google AI Mode y Gemini. Si ya tienes Merchant Center, preparar tu feed para estas superficies de IA es una extensión natural de lo que ya haces.

Patrón operativo que observamos en Elevam: entre los clientes de e-commerce con los que trabajamos, los que mantienen feeds de producto limpios, actualizados y con schema Product + Offer + AggregateRating consistente entre su web y sus plataformas de venta tienden a recibir un tratamiento sensiblemente mejor por parte de los LLMs en consultas transaccionales. Los que tienen feeds desactualizados o inconsistentes simplemente no aparecen en esas respuestas. No tenemos un experimento controlado para afirmar causalidad, pero el patrón es lo suficientemente claro y repetido como para tomarlo en serio.

Para todas las empresas: desambiguación de entidad, el problema que nadie ve

Esto aplica tanto a B2B como a e-commerce, servicios, SaaS o cualquier empresa que quiera que la IA la identifique correctamente.

Puedes tener el mejor producto, el mejor contenido y la mejor web del sector. Pero si la IA no tiene señales claras de quién eres como entidad, tiende a no citarte. No por mala voluntad, sino por prudencia: los modelos evitan afirmar cosas de las que no están seguros.

La desambiguación de entidad es el proceso por el que un LLM decide a qué «cosa» del mundo real se refiere un nombre. Cuando alguien pregunta a ChatGPT por «Apollo», el modelo decide si habla del programa espacial, del dios griego o de la plataforma de ventas. Lo resuelve por probabilidad, con las señales disponibles.

Gartner ha estimado que el volumen de búsqueda tradicional podría caer en torno a un 25% en 2026 a medida que los compradores —especialmente en B2B— migren hacia asistentes de IA. Si esa estimación se acerca a la realidad, las marcas que no estén claramente identificadas como entidades en los Knowledge Graphs van a perder visibilidad progresivamente, por muy bien que rankeen en SEO clásico.

Lo que necesitas para que la IA te identifique sin ambigüedad:

  • Schema Organization con tantas propiedades recomendadas como apliquen a tu caso: founder, slogan, areaServed, numberOfEmployees, foundingDate. Google no establece un mínimo obligatorio, pero su documentación recomienda ser lo más completo posible dentro de lo que sea real y verificable.
  • La propiedad sameAs apuntando a LinkedIn, Crunchbase, Wikipedia (si tienes artículo), perfiles sociales verificados. Cada URL en sameAs actúa como una señal de confirmación de identidad para el Knowledge Graph.
  • Consistencia léxica: el mismo nombre de marca, dirección y descripción corporativa en todas las plataformas. Si en tu web pone «Elevam», en LinkedIn «Elevam Digital» y en Crunchbase «Elevam S.L.», la IA puede tratarlos como entidades distintas. Parece un detalle menor, pero fractura la señal.
  • Knowledge Panel verificado en Google, con una descripción alineada con tu posicionamiento real.

Como apunta Gianluca Fiorelli en su análisis de las actualizaciones de Google Search Console de 2025: Google está utilizando activamente su Knowledge Graph para mapear perfiles sociales a una única entidad corporativa. Si Search Console detecta automáticamente tus canales sociales, es una señal de que Google ha desambiguado tu marca con éxito. Eso es verificable y accionable.

Fragmento clave: La desambiguación de entidad condiciona si un LLM te cita o te omite. Para resolverla necesitas schema Organization completo, sameAs en múltiples plataformas, consistencia léxica total y un Knowledge Panel verificado. Sin estas señales, tu marca es una URL entre muchas, no una entidad reconocida.

Si tienes sistemas internos complejos: qué es MCP y cuándo tiene sentido

Esta sección es relevante si tu empresa tiene bases de datos internas, APIs propias o procesos operativos que podrían beneficiarse de que un agente de IA acceda a ellos. Si tu caso es más sencillo, pasa directamente al orden de implementación.

El Model Context Protocol (MCP) fue lanzado por Anthropic en noviembre de 2024 como estándar abierto, y en diciembre de 2025 fue donado a la Agentic AI Foundation bajo la Linux Foundation, con el respaldo de OpenAI, Block y otras compañías. Según Gartner, se espera que el 75% de los proveedores de gateway tengan capacidades MCP en 2026.

El protocolo permite que un agente de IA se conecte de forma estandarizada a tus sistemas: bases de datos, APIs, herramientas de negocio. A diferencia de RAG —que es esencialmente unidireccional: recupera datos para alimentar al modelo—, MCP es bidireccional. El agente puede consultar inventario, actualizar estados de pedido, leer tickets de soporte o asignar prioridades. Esto cambia la naturaleza de lo que puede hacer un agente en un contexto empresarial.

Pero la adopción no es trivial. En la RSA Conference 2026 se presentaron múltiples sesiones sobre riesgos de seguridad de MCP: sobrepermisos, inyección de prompts a través de herramientas, fuga de datos por controles de acceso débiles. Hay valor real, pero también riesgo real si no se gobierna bien.

Mi lectura estratégica: MCP no es para todas las empresas hoy. Si facturas 2M€ y tienes un equipo técnico pequeño, tu prioridad es schema + llms.txt + feeds de producto. Pero si estás en el rango 10M–20M€ con sistemas internos distribuidos, deberías estar evaluando MCP ahora —no necesariamente implementando, pero sí entendiendo qué datos internos podría necesitar un agente de IA y con qué gobernanza—. La ventaja competitiva no está solo en tener agentes de IA; está en que operen con tus datos, en tiempo real, con control real.

Traducción a GEO: Dentro del Protocolo HSA que aplicamos en Elevam, la evaluación de madurez de datos para IA es uno de los primeros puntos de diagnóstico. Antes de decidir qué protocolo implementar, necesitas saber qué datos tienes, en qué estado están y cuáles son estratégicos para la IA.

¿Cuál es el orden correcto de implementación?

Esto es lo que recomendamos a los clientes que asesoramos en GEO, ordenado por impacto y esfuerzo. No es una receta universal, pero funciona como punto de partida razonable para la mayoría de empresas del rango 1M–20M€:

#AcciónEsfuerzo estimadoImpacto esperado
1Schema Organization + Person + sameAs completo en web y plataformas externas1–2 semanasDesambiguación de entidad. Base para todo lo demás.
2Implementar llms.txt con mapa curado de contenido clave< 1 díaPreparación para estándar emergente. Coste cercano a cero.
3Schema Product + Offer + FAQ avanzado con JSON-LD en páginas de producto/servicio2–4 semanasMejora de visibilidad en AI Overviews, ChatGPT, Perplexity.
4Feed de producto para ChatGPT Commerce y Google Merchant Center (solo si aplica)3–6 semanasCanal transaccional directo en LLMs. Solo e-commerce.
5Evaluación de MCP para integración de sistemas internos (solo si aplica)Valoración inicial: 1 semanaRequiere equipo técnico y gobernanza. Empresas medianas-grandes.

Dentro de la metodología CREF© de Elevam, esta secuencia encaja en el pilar de Contenido (datos como contenido estructurado para IA) y en el pilar de Reputación/Entidad (señales de desambiguación como activo de autoridad). No son acciones sueltas: forman parte de un sistema.

Conclusión estratégica

Lo que está ocurriendo con los datos propios y la IA tiene un parecido razonable con lo que pasó con el mobile en 2012. Todo el mundo sabía que venía, pero la mayoría esperaba a que «se estabilizara» para moverse. Los que se anticiparon no solo ganaron tráfico: construyeron una ventaja estructural que otros tardaron años en cerrar. No digo que la analogía sea exacta, pero la dinámica es parecida: herramientas disponibles, estándares en formación y adopción masiva que aún no ha ocurrido.

La pregunta para un CEO o CMO no es si esto va a importar. Es cuánto tiempo quiere darle de ventaja a su competencia. Cada trimestre sin schema completo, sin llms.txt, sin feeds estructurados, sin una entidad limpia en los Knowledge Graphs, es un trimestre en el que los LLMs aprenden a trabajar con los datos de otros. Y es más fácil ser el primero en la memoria de una IA que desplazar al que ya está ahí.

Fragmento clave: La capa de first-party data para LLMs no es un proyecto técnico puntual. Es una infraestructura estratégica que influye directamente en si la IA te incluye en sus respuestas o te omite. Las empresas que la construyan con criterio antes de que sea obvio para todos tendrán una ventaja difícil de cerrar.

Siguiente lectura

Si quieres entender cómo medir tu visibilidad actual ante las IAs y qué datos propios tienen más impacto, empieza por revisar el Glosario GEO de Elevam para alinear terminología, y consulta nuestro enfoque en el hub de IA y GEO. Si necesitas una valoración concreta del estado de tus datos y tu entidad frente a la IA, el Protocolo HSA es el punto de partida.

Enviado el 12 de marzo de 2026

Artículos relacionados

Podría interesarte