Reddit impide que Wayback Machine rastree la mayoría de su contenido: descubre por qué

La plataforma de discusiones en línea Reddit descubrió que empresas de inteligencia artificial (IA) extraen sus datos de Wayback Machine, uno de los archivos de internet más utilizados hoy en día. 

En consecuencia, Reddit anunció que impedirá a Internet Archive indexar la mayoría del contenido de esta red social.

Esto implica que Wayback Machine ya no podrá rastrear páginas de detalles de publicaciones, comentarios ni perfiles. En su lugar, solo podrá indexar la página principal de Reddit. Esto significa que Internet Archive solo podrá archivar información sobre los titulares y publicaciones más populares de un día determinado.

«Internet Archive presta un servicio a la web abierta, pero hemos tenido conocimiento de casos en los que empresas de IA infringen las políticas de la plataforma, incluidas las nuestras, y extraen datos de Wayback Machine«, declaró el portavoz Tim Rathschmidt al medio especializado en tecnología The Verge.

La misión de Internet Archive es mantener un archivo digital de sitios web en internet y otros artefactos culturales, y Wayback Machine es una herramienta que permite consultar las páginas tal como aparecieron en fechas específicas. Sin embargo, Reddit cree que no todo su contenido debería archivarse de esa manera.

¿Cuándo entrará en vigor esta medida?

Los límites comenzaron a aumentar gradualmente ayer 11 de agosto. De acuerdo con el portavoz, Reddit se puso en contacto con Internet Archive con antelación para informarles sobre los límites antes de que entraran en vigor.

Rathschmidt añadió que Reddit también ha expresado su preocupación por la capacidad de las personas para extraer contenido de Internet Archive en el pasado.

Reddit vs. el scraping excesivo

Reddit tiene un historial reciente de cortar el acceso a herramientas de scraping, ya que las empresas de IA han comenzado a usarlas (y abusar de ellas, según su criterio), pero está dispuesto a proporcionar esos datos si las empresas pagan.

El año pasado, Reddit llegó a un acuerdo para obtener datos de búsqueda de Google y de entrenamiento de IA a principios del año pasado. Unos meses después, comenzó a impedir que los principales motores de búsqueda rastrearan sus datos a menos que pagaran. 

También afirmó que sus cambios en la API a partir de 2023, que obligaron al cierre de algunas aplicaciones de terceros, se debieron al uso indebido de esas API para entrenar modelos de IA.

Por su parte, Reddit también llegó a un acuerdo de IA con OpenAI, pero demandó a Anthropic en junio, alegando que este seguía haciendo scraping de Reddit incluso después de que anunciara que ya no lo hacía.

¿Será permanente la restricción a Wayback Machine?

Rathschmidt le dijo a The Verge que la restricción de Reddit a Wayback Machine se mantendrá “hasta que (Internet Archive) pueda defender su sitio y cumplir con las políticas de la plataforma”. Habló de medidas como respetar la privacidad del usuario en relación con la eliminación de contenido previamente eliminado para reconsiderar la limitación.

Información de The Verge / Redacción Tecno Flash

No dejes de leer: Roblox Moments, la nueva app de la plataforma para compartir vídeos cortos de juegos


Usa la tecnología con inteligencia, únete a nuestras redes sociales hoy

Instagram

X (Twitter)

TikTok

YouTube

Más del Autor

Artículos Relacionados

Últimas publicaiones

Google lanza los Resúmenes con IA en Gmail para agilizar el trabajo

Google anunció esta semana una serie de actualizaciones centradas en Workspace, entre las que se encuentra la incorporación de la función Resúmenes con IA...

El robot Ace de Sony utiliza IA para superar a profesionales del tenis de mesa

La compañía Sony desarrolló un robot impulsado con inteligencia artificial (IA) que logró superar a jugadores profesionales de tenis de mesa, deporte también conocido...

Afirman que 100 países poseen software espía capaz de hackear teléfonos

Según informes recientes del Centro Nacional de Ciberseguridad del Reino Unido (NCSC), el acceso a software espía comercial ha dejado de ser una herramienta...

Starfield: récord de ventas y críticas técnicas en su lanzamiento en PS5

La segunda semana de abril de 2026 se realizó el lanzamiento de Starfield en PlayStation 5 (PS5), un videojuego estrenado originalmente en 2023. La...

El 44 % de las canciones subidas a diario en Deezer son generadas por IA

La industria musical atraviesa una transformación radical y Deezer ha puesto cifras a este fenómeno. Según el último reporte de la plataforma, el 44%...