Reddit se convirtió en la fuente de información más citada por grandes modelos de lenguaje (LLM’s) en 2025, según datos de Semrush que fueron recopilados por Statista, lo que la convierte en una de las principales fuentes de información de chatbots de inteligencia artificial (IA).
El informe, basado en 150.000 citas de 5.000 palabras clave seleccionadas al azar, muestra que el 40,1% de todas las referencias en las respuestas generadas por IA provienen del popular foro de debates online, la plataforma más elegida por muchas de las comunidades más grandes de internet. Esa cifra superó con creces la cuota de gigantes como Google y Wikipedia.
Wikipedia ocupa el segundo lugar de la lista, con el 26,3% de las citas, seguida de cerca por YouTube (23,5%) mientras que los resultados de búsqueda de Google (23,3%). Yelp (21%), Facebook (20%) y Amazon (18,7%) también llegaron al top 10. La plataforma de reseñas de viajes TripAdvisor (12,5%), los servicios de mapas Mapbox (11,3%) y OpenStreetMap (11,3%) completaron el listado.
El posicionamiento de Reddit como una de las fuentes de información más citadas por los modelos de IA se explica por el acuerdo que cerró con Google en 2024, cuando el gigante de búsquedas pagó 60 millones de dólares a cambio de obtener acceso a su enorme repositorio de discusiones generadas por los usuarios.
En mayo último, la plataforma también alcanzó un trato con OpenAI para brindarle información para que entrene a ChatGPT.
Este tipo de acuerdos se ven incentivados por los cambios en la manera en que los usuarios buscan información online, que ya no solo se presenta en formato de enlaces a sitios web, sino además mediante interfaces conversacionales en las que son los modelos de lenguaje los que definen qué datos mostrar.
“El auge del contenido generado por IA está transformando la forma en que las personas buscan información en línea”, señalaron desde Statista, y sumaron que “el contenido impulsado por IA ahora potencia el descubrimiento y la interacción, moldeando las respuestas proporcionadas por chatbots y motores de búsqueda”.
Esto requiere de grandes volúmenes de datos para entrenar los modelos de IA de Google, OpenAI (ChatGPT) y alternativas como Perplexity, lo que configura una batalla por la información. Y el contenido de Reddit, que en el primer trimestre de 2025 contaba con 108 millones de usuarios activos diarios en todo el mundo, se mantiene como uno de los principales insumos para estos desarrollos.
En este marco, la semana pasada Reddit anunció la decisión de bloquear el acceso del repositorio Internet Archive a sus páginas para limitar la indexación. Aunque el registro histórico de páginas, comentarios y perfiles de usuarios de Reddit se puede consultar a través de la herramienta Wayback Machine, la compañía decidió limitar la información que este sistema puede recopilar.
A partir de ahora, los registros de Internet Archive solo sumarán capturas de la página principal de Reddit, lo que incluye posteos populares y titulares, pero no podrán agregar comentarios ni ampliar los datos de cada publicación. Esto supone una limitación sobre la base de datos que compañías desarrolladoras de IA utilizan para entrenar sus modelos. Aunque, cabe mencionar, no afectará a Google ni a OpenAI, que ya alcanzaron acuerdos con Reddit.
“Internet Archive ofrece un servicio a la web abierta, pero hemos tenido conocimiento de casos en los que empresas de IA infringen las políticas de la plataforma, incluidas las nuestras, y extraen datos de Wayback Machine”, declaró a Fast Company Tim Rathschmidt, portavoz de la plataforma de comunidades online.
Y agregó: “Hasta que puedan defender su sitio y cumplir con las políticas de la plataforma (por ejemplo, respetar la privacidad del usuario o eliminar el contenido eliminado), estamos limitando parte de su acceso a los datos de Reddit para proteger a los redditors”.
En junio, Reddit demandó a la compañía Anthropic asegurando que los desarrolladores de su chatbot Claude estaban utilizando información de las publicaciones de sus usuarios.
La última medida defensiva de Reddit contra el scraping de IA se produce en un momento en que la compañía se centra más en sus propias iniciativas para desarrollar esta tecnología. En diciembre pasado lanzaron Reddit Answers, una herramienta que resume conversaciones y publicaciones en el sitio, permitiendo a los usuarios evitar los motores de búsqueda tradicionales.