Una copia completa de la Web en 80 terabytes

Archive.org ofrece a investigadores una copia de los datos que ha archivado
El rastreo ocupa 80 TB y contiene 2.700 millones de ficheros
Se rastrearon más de 29 millones de servidores para recopilar la información

16/05/2013 13:18 horas

Por Álvaro Ibáñez 'Alvy'

El proyecto Internet Archive, tras el cual está una las entidades sin ánimo de lucro que se encarga entre otras labores de guardar un registro histórico de todas las páginas de la World Wide Web -la Wayback Machine- cuenta con una peculiar propuesta para investigadores y empresas interesadas en los contenidos de la red mundial: ofrecer una copia completa de la WWW 'en bruto' tal cual la capturan sus arañas.

La Web completa está compuesta de millones de ficheros a los que ahora cualquiera puede tener acceso siempre que disponga de los 80 terabytes (80.000 gigabytes) que se necesitan para almacenar esta versión light de la World Wide Web.

En el proyecto Archive.org lo hacen en un impresionante centro de datos con cientos de servidores y miles de discos duros en dos centros de California, además de una copia en la Biblioteca de Alejandría en Egipto.

Pero teniendo en cuenta que hoy en día se pueden comprar discos de entre 2 y 4 TB en cualquier tienda por poco más de 100 euros, guardar una copia supone más o menos tan solo unos 4.000 euros para un particular, quizá 1.000 euros o menos para organizaciones que compren almacenamiento de forma masiva.

La Web completa cabe en unos 20 discos duros de 4 TB, que fácilmente se podrían meter en un cajón. O en varias placas de los servidores de cualquier centro de datos.

Rastreo de 9 meses de la web

La copia que ofrece Archive.org corresponde a un rastreo completo realizado entre el 9 de marzo y el 23 de diciembre de 2011. En total se capturaron 2.713 millones de ficheros (direcciones URL) de más de 29 millones de servidores (dominios).

Dado que en realidad existen más URL, dominios y ficheros en Internet que estos, lo que hizo Archive.org fue en realidad una copia light o un tanto descafeinada, concentrándose en el millón de sitios web relativamente más populares según el índice de Alexa, un veterano sistema de métricas que organiza las páginas web por popularidad y frecuencia de visitas.

Los ficheros están en formato WARC, un estándar del que se pueden obtener tanto el texto y código las páginas web como otro tipo de contenidos, aunque para ahorrar recursos el rastreo está limitado únicamente a los documentos HTML: las imágenes, vídeos, etcétera no han sido incluidos, aunque sí sus referencias.

Gracias a esta información cualquier persona interesada puede analizar a partir del archivo en bruto cómo funcionan las páginas web o la relación entre los enlaces de unas páginas y otras: investigar la reputación o popularidad -como hace Google- o cualquier otro dato.

Gracias a esta oferta de contenido se puede acceder a datos en bruto que de otro modo requerirían diseñar y enviar robots-araña para rastrear en detalle casi toda la Internet: y al proyecto Archive.org, especializado desde hace más de una década en estas labores, le llevó más de 9 meses realizar esta copia completa.

Es todo un detalle muy acorde con el espíritu de la Red que ahora la ofrezcan a los internautas e investigadores que estén interesados en ella para aprender más de cómo funciona la Web.

La Biblioteca Nacional creará una 'máquina del tiempo' de los contenidos en español de la red
03.04.2013
Wayback Machine: la máquina del tiempo de las páginas web se renueva
29.01.2011

Es noticia: