Si tienes un sitio web de un cierto tamaño, es casi inevitable que aparezcan «enlaces muertos«, es decir, enlaces que apuntan a páginas inexistentes, en cuyo caso el servidor web devuelve el «Error HTTP 404». ¿Cual es uno de los problema de este tipo de errores? La presencia de estos enlaces dentro de un sitio puede ser sancionado desde la perspectiva SEO, es decir, Google y otros buscadores pueden modificar nuestra posición en los resultados de búsquedas atendiendo a este y otros factores. Por ello aconsejable realizar controles periódicos en todas las páginas con el fin de garantizar que todos los enlaces sean correctos.
Hay varios programas comerciales que nos pueden ayudar a la hora a hacer realiza controles, pero si no te asusta la línea de comandos, puedes conseguir un resultado similar usando el comando wget. Para esto tan solo tenemos que escribir en un terminal:
wget – mirror – keep-session-cookies-or wget.log http://www.sitio.com
Dónde:
- -mirror es una opción que dice wget para descargar todo el sitio
- – keep-session-cookies-or le permite navegar por páginas dinámicas que cambian sobre la base de sesión de usuario
Una vez que se ejecuta este comando todo el contenido del sitio se pueden descargar a nivel local y en el archivo wget.log podemos encontrar la lista detallada de todas las operaciones con los resultados. Tan sólo tendremos que buscar la cadena «404» para identificar rápidamente todas las direcciones URL que ha encontrado wget apuntando a páginas inexistentes
Saludos desde lo más profundo de los bytes.