La misión imposible de acabar con las 'páginas no encontradas' en Internet
- Un alto porcentaje de las páginas web que una vez existieron han desparecido
- El proyecto Archive.org trabaja en tratar de eliminar los famosos 'errores 404'
- Han anunciado colaboraciones con Wikipedia y Wordpress
- Los pequeños webmasters también pueden ayudar
Casi al mismo tiempo en que se inventó la World Wide Web con sus páginas e hiperenlaces y se crearon las primeras conexiones de lo que estaba destinado a convertirse en la más famosa 'telaraña mundial' surgió uno de los primeros problemas: ¿Qué sucedía si se borraba una página?
El resultado es un mensaje de error en el navegador, el reconocible 'error 404: recurso no encontrado' que todo el mundo se ha encontrado alguna vez saltando de página en página.
Y es que la forma en que está construida la WWW hace que si una página desaparece el resto de la red no tenga conocimiento del hecho ni pueda reparar el problema. Los programadores cuentan con algunas técnicas para evitar el problema, como por ejemplo 'redirigir' al usuario a otra página a donde se haya movido la información.
“La vida media de una página en Internet es de unos 100 días“
Esto suele utilizarse para no dejar a la gente tirada por el camino, pero no siempre se hace. Por otro lado, se sabe que la vida media de una página es de unos 100 días. Con unas 360.000 millones de ellas archivadas por Google, Archive.org y otros sistemas, es seguro que un alto porcentaje incluso de los sitios más populares están completamente desaparecidas de la red.
Este porcentaje es en ocasiones tan alto que algunos proyectos parecen un despropósito: la mitad de las direcciones de las páginas web del Tribunal Supremo de los Estados Unidos que contenían los fallos judiciales, por ejemplo, muestran un sonoro 404 cuando se intenta acceder a ellas.
En España la situación es parecida, por no hablar de los múltiples sitios de la administración en los que los 404 aparecen incluso en la propia navegación interna del sitio o entre diversas entidades, sencillamente por falta de coordinación.
'Arqueólogos' ante el daño del error 404
Ahora los arqueólogos de Internet que llevan años guardando copias y copias de la red al completo han lanzado una iniciativa para intentar minimizar el daño que esta desaparición de recursos produce en la red, planteando una colaboración con los sitios más grandes y populares de la red para garantizar un archivado más profundo.
Esta colaboración ha comenzado por intentar mejorar la Internet Wayback Machine, una impresionante especie de 'máquina del tiempo de la web', que ahora puede archivar y mostrar las páginas más rápido -en tan solo 60 minutos- y a petición de los usuarios.
También se está colaborando más estrechamente con la Wikipedia, donde 125.000 de sus 50 millones de enlaces están rotos. Esos enlaces son tanto internos como externos. Leer la Wikipedia al completo permitiría a la Wayback Machine añadir unos cinco millones de direcciones URL nuevas cada día.
WordPress, como plataforma de weblogs con millones de usuarios, también ha anunciado que colaborará para luchar contra los 404. Para empezar hay un plug-in o módulo gratuito llamado Broken Link Checker que permite reemplazar los enlaces de cualquier página 'rota' por los que están archivados en la Wayback Machine. Además de esto se trabajará en rastrear las más de tres millones de URL que se publican en millones de blogs cada día en todos los idiomas.
Finalmente también los webmasters más modestos pueden aportar su granito de arena añadiendo un pequeño código en sus 'páginas de error 404'. Este código HTML hace que si aparece el error porque un visitante llegue a una página que ya no existe se le ofrezca la copia archivada en Archive.org como alternativa, para que al menos pueda encontrar algo de contenido. Una alternativa muy valiosa que no cuesta nada ofrecer.