Voy a empezar por la parte que nadie te cuenta cuando te venden un servicio de GEO, porque es la única que afecta a tu cuenta de resultados: el riesgo de pagar por aparecer en ChatGPT no es que no funcione. Es que algunas de las tácticas que se venden con esa etiqueta pueden cargarse el tráfico orgánico que ya te estaba trayendo clientes. Pagas por una cosa nueva y, de paso, debilitas la que funcionaba. Ese es el downside que no aparece en ninguna propuesta comercial.

Y lo más incómodo de todo: prácticamente nadie que te lo vende lo ha medido en tu idioma.

Llevo desde 2012 metido en esto y los últimos dos años, desde Elevam Labs, dedicados casi en exclusiva a entender cómo deciden los modelos a quién recomendar. He leído todo lo que se ha publicado con un mínimo de rigor sobre el tema. Y la conclusión es tan simple como rara de oír en una charla de ventas: el GEO en español, a día de hoy, se está aplicando a ojo. Con un manual escrito para otro idioma.

El GEO se ha convertido en un mercado de limones

Hay un concepto de economía que explica este sector mejor que cualquier post de LinkedIn. Lo llamó George Akerlof y le dieron un Nobel por ello: el mercado de limones. La idea es esta. Cuando el comprador no puede comprobar la calidad de lo que compra antes de pagar, deja de competirse por calidad y se empieza a competir por promesa. Y como la promesa no cuesta nada, gana el contrato el que más promete, no el que mejor trabaja. El que más promete suele ser, casualmente, el peor. Resultado: los buenos proveedores se van del mercado porque no pueden competir contra el humo, y el humo se queda.

El GEO encaja en ese molde con una precisión que da miedo. ¿Por qué? Porque el comprador no puede verificar nada. Y eso no lo digo yo, lo demostró Rand Fishkin con datos.

En enero de 2026, Fishkin y su equipo en SparkToro publicaron lo más serio que existe hasta hoy sobre esto: cerca de 3.000 ejecuciones de los mismos prompts en varios motores. El hallazgo es demoledor.

Léelo otra vez. Si una agencia te promete que te va a poner "el primero en ChatGPT", o no ha leído los datos, o cuenta con que tú no los has leído. Las dos cosas deberían preocuparte.

Y ahí está el corazón del problema. Si no puedes verificar el resultado, ¿cómo distingues al que sabe del que improvisa? No puedes. Por eso el mercado se llena de dashboards bonitos que miden cosas que se reordenan solas cada vez que aprietas enter.

El agujero del que nadie habla: todo el rigor está en inglés

Vale, dirás, pero algo se sabe. Sí, algo se sabe. Y conviene saberlo, porque es lo poco sólido que tenemos.

Sabemos, por Ahrefs, que el acoplamiento entre rankear en Google y ser citado en las respuestas de IA se ha desplomado: en marzo de 2026 solo el 38% de las citas de los AI Overviews venían del top-10 orgánico, cuando un año antes era el 76%. O sea que ni siquiera "rankear bien en Google" te garantiza ya estar en la respuesta de IA.

Sabemos, por Profound y sus 680 millones de citas analizadas, que cada motor bebe de fuentes radicalmente distintas: el solapamiento entre lo que cita ChatGPT y lo que cita Perplexity es de apenas el 11%. Es decir, no existe "la IA" como un único sitio donde aparecer. Hay cuatro o cinco ecosistemas distintos, cada uno con sus reglas.

Todo eso está bien. El problema es de dónde sale.

Mapa de evidencia · Estudios serios publicados

Todo el rigor disponible sobre cómo se comportan los motores con IA está publicado en inglés. En español, cero.

En inglés4

SparkToro (Fishkin)
<1 entre 100
Probabilidad de que dos consultas idénticas en ChatGPT/Google AI devuelvan la misma lista de marcas. ~3.000 ejecuciones, enero 2026.
Ahrefs
38%
De las citas en AI Overviews que vienen del top-10 orgánico en marzo 2026. Un año antes era el 76%. El acoplamiento SEO ↔ IA se ha desplomado.
Profound
11%
Solapamiento entre lo que cita ChatGPT y lo que cita Perplexity. 680 millones de citas analizadas. No existe «la IA» como un sitio único.
Princeton · KDD
+30-40%
Subida de visibilidad al añadir estadísticas y citar fuentes. Único paper académico peer-reviewed sobre GEO. Queries y contenido en inglés.

En español

0

Ningún estudio publicado

Con metodología transparente y datos verificables sobre umbrales de corroboración en castellano. Aquí es donde Elevam Labs está midiendo.

El único paper académico serio sobre optimización para motores generativos, el de Princeton y compañía en el congreso KDD, que demostró que añadir estadísticas y citar fuentes sube la visibilidad entre un 30% y un 40%: hecho con queries y contenido en inglés.

No hay ni un solo estudio publicado con metodología transparente que mida cómo se comporta esto en español. Ni uno. Y la gente está cogiendo el playbook anglosajón, traduciéndolo, y vendiéndolo aquí como si el idioma fuera un detalle de formato.

No lo es. Y esta es la parte que de verdad importa.

El español no es el inglés con otra piel

Hay un paper que debería estar en la primera diapositiva de cualquiera que hable de esto en serio, y casi nadie lo cita. Lo publicaron Christina Walker y Joan Timoneda, de Purdue, en Political Science Research and Methods, de Cambridge University Press. Peer-reviewed, que en este sector ya es una rareza.

Lo que hicieron es elegante: cogieron el mismo prompt, lo tradujeron a varios idiomas, y midieron cómo cambiaba la respuesta de GPT según el idioma. ¿El resultado? La salida del modelo se vuelve más conservadora en idiomas de sociedades conservadoras y más liberal en idiomas de sociedades liberales. Y, lo importante, esa diferencia se mantiene de GPT-3.5 a GPT-4. Su explicación es directa: las normas y creencias de quien produjo los datos en cada idioma acaban reflejadas en la salida del modelo.

Traducido a lo que nos ocupa: el idioma del prompt no es una traducción de la misma respuesta. Es una puerta a un corpus distinto, con dinámicas distintas. Cuando preguntas en español, el modelo no está consultando "lo mismo que en inglés pero traducido". Está tirando de un trozo de internet completamente diferente.

¿Y cómo es ese trozo? Pequeño. La propia Common Crawl Foundation, que es de donde se nutre buena parte del entrenamiento de estos modelos, lo reconoce por escrito: sus datos siempre han estado sesgados hacia el contenido en inglés. Las cifras lo confirman.

Cuota del corpus de entrenamiento por idioma

Antes40-45%

Después~5%

Estás jugando en una mesa donde tu idioma ocupa una vigésima parte del tablero.

Y por si fuera poco, está lo que Gianluca Fiorelli ha llamado el "problema del español global": los motores no distinguen bien entre el español de España, el de México y el de Argentina. Mezclan en una misma respuesta terminología regulatoria y comercial de tres continentes. Cuando preguntas "en español genérico", no compites contra las empresas de tu mercado. Compites contra toda la hispanidad a la vez.

Y aquí viene la parte honesta, que es la que me importa

Te podría rematar ahora diciendo "y por eso en español hace falta menos para destacar, contrata Elevam". Sería cómodo. Y sería mentira, o como mínimo, una verdad a medias que todavía no puedo demostrar.

La hipótesis razonable es que en un mercado más pequeño, con menos competidores por nicho y menos medios canónicos, baste con aparecer en menos sitios para que un modelo te recomiende de forma estable. Fishkin tiene datos que apuntan ahí: en universos pequeños, las marcas líderes alcanzan visibilidades del 90% y pico. Para un penalista en una ciudad concreta, o un concesionario en Mallorca, eso probablemente juega a favor.

Pero hay evidencia que apunta justo al contrario, y un consultor honesto te la pone encima de la mesa. Los modelos alucinan más en idiomas con menos datos, así que aparecer con poca corroboración puede significar aparecer mal, atribuido a un competidor, o desaparecer al día siguiente. Los crawlers visitan menos las páginas en español, así que cada dominio tuyo pesa menos en el modelo que su equivalente inglés. Y si tu sector está colonizado por marcas globales con dominio masivo en inglés (el SEO y el GEO son el ejemplo perfecto: Moz, Ahrefs, Semrush mandan), la corroboración en español puede quedar aplastada por la anglosajona.

¿Cuál de las dos fuerzas gana? Depende del nicho. Y la respuesta honesta, hoy, es que nadie lo ha medido. Ni yo.

Así que lo vamos a medir

En Elevam Labs estamos corriendo el experimento ahora mismo. Los mismos prompts en español y en inglés, en los cuatro motores que importan, ejecutados decenas de veces cada uno, con sesiones limpias y geolocalización fija. Medimos una sola cosa: cuántos dominios independientes necesita de verdad una marca para que el modelo la recomiende de forma estable, y si ese número cambia de un idioma al otro.

Y como no soporto a la gente que se esconde detrás de un "ya veremos", te dejo mi apuesta por escrito.

Creo que en español el listón es más bajo. Que en un nicho local y acotado —un penalista en una ciudad, un concesionario en una isla— con estar bien en tres a cinco dominios con autoridad probablemente baste, mientras que en su equivalente inglés, peleado por mil marcas, harían falta siete o diez. ¿Por qué lo creo? Porque el mercado hispano por nicho es más pequeño y hay menos medios de referencia, así que un puñado de fuentes satura antes la respuesta.

La apuesta · Umbral de corroboración por idioma

Cuántos dominios independientes necesita una marca para que el modelo la recomiende de forma estable.

Hipótesis · no medida aún

Pero es una apuesta, no un titular. Y hay evidencia seria que apunta justo a lo contrario: los modelos mezclan todo el español del mundo en la misma respuesta, alucinan más cuando tienen menos datos en tu idioma, y tiran de fuentes en inglés cuando las locales escasean. Cualquiera de esas tres cosas puede dejarme con el culo al aire. Lo sabré cuando tenga los datos, no antes.

Y eso es lo único que prometo: cuando los tenga, los publico enteros. La metodología por delante, los límites listados antes que las conclusiones, el dataset encima de la mesa para que cualquiera intente romperlo. Si me he equivocado, lo vas a leer aquí, con mi nombre al lado. Prefiero ser el que te enseñó su apuesta y la prueba completa que el que te vendió una certeza que no existe. Así es como se construye algo en lo que se pueda confiar. Y así es como debería funcionar este sector y no funciona.

Mientras tanto, cómo distinguir a quien sabe de quien improvisa

Como el experimento tardará unas semanas y tú a lo mejor tienes una propuesta de GEO encima de la mesa esta misma tarde, te dejo el único filtro que necesitas. Tres preguntas. Si el proveedor no pasa las tres, es un limón.

¿Tiene datos propios o te cita los de otros? Si todo lo que te enseña son estudios anglosajones traducidos, te está vendiendo el manual de otro. Pregúntale qué ha medido él, en español, con su metodología.

¿Te promete ranking o te habla de probabilidad de aparición? Quien te garantiza el "número uno en ChatGPT" o no ha leído a Fishkin o cuenta con que tú no. Quien te habla de frecuencia de mención a lo largo de muchas ejecuciones, sabe de qué va esto.

¿Empieza por los cimientos o por la purpurina? Si lo primero que te propone son FAQs sintéticas y refrescos masivos de contenido para "disparar citaciones", huye. Esas son justo las tácticas que pueden hundirte el orgánico. El que sabe empieza por la autoridad real: por estar, de verdad, en sitios que merezca la pena citar.

No te voy a decir que el GEO no sirve. Sirve, y mucho, y el que no se lo tome en serio dentro de tres años lo va a lamentar. Lo que te digo es que casi todo lo que se vende hoy en español está hecho con un mapa de otra ciudad, y que la honestidad en este sector escasea tanto que se ha convertido, ella sola, en una ventaja competitiva.

Nosotros vamos a medir el mapa de esta ciudad. Cuando lo tengamos, te lo enseño.

Asier López Ruiz es CEO de Elevam, empresa pionera en SEO y GEO en España. Este artículo se publica junto a un apéndice descargable con todas las fuentes y la metodología de la revisión de literatura en la que se basa.

Por

Asier López Ruiz

26 de mayo de 2026 · 10 min

Volver al blog

GEO

Más artículos relacionados

Ver todos →

Marco de reconocimiento de IA con un signo de interrogación: la IA no identifica la marca

GEO25 jun 2026

Reconocimiento de marca en IA: por qué te confunden

Medimos cómo cuatro modelos de IA reconocen a Antropus: 72 respuestas reales que muestran por qué la IA confunde marcas y cómo corregirlo.

Por asier-lopez11 min

Matriz Entidad-Modelo: qué entidades tuyas cita cada motor de IA en B2B

GEO20 jun 2026

Visibilidad en IA B2B: el playbook universal no existe

La IA no cita igual a cada marca en cada modelo. Por qué no existe un playbook universal de visibilidad en IA B2B y cómo repartir presupuesto con datos.

Por asier-lopez6 min

llms.txt: qué es y por qué los motores de IA apenas leen el archivo, según datos de 2026

GEO20 jun 2026

llms.txt: qué es y por qué la IA todavía no lo lee

Qué es llms.txt, para qué sirve y si mejora tu visibilidad en IA. Los datos dicen que los motores de IA apenas lo leen: análisis de Elevam con evidencia 2026.

Por asier-lopez10 min

Te están vendiendo GEO a ciegas: cero estudios serios en español