Escanear todas las URLs de un sitio WEB con wget

Share on facebook
Share on twitter
Share on linkedin
Share on whatsapp
Share on telegram
Share on email

Recientemente, he tenido la necesidad de crear un script para escanear todas las URLs que tiene una página WEB, tal y como hacen los robots que hay Internet.

El script es muy sencillo, pero ya me sirve para lo que pretendía. El código fuente es el siguiente:

[root]# cat spider.sh
#!/usr/bin/sh

SPIDER=/tmp/spider.txt

wget --spider --force-html -r https://puerto53.com -o $SPIDER
grep "\-\-" /tmp/spider.txt |awk '{print $3}' |grep "^https://puerto53" |sed 's/?share=facebook//g' |sed 's/?share=twitter//g' |sed 's/?share=linkedin//g' |sed 's/?share=google-plus-1//g' |sed 's/\/feed\///g' |grep "/$" |grep -v "/page/" |grep -v "/random/" |sort |uniq > /tmp/URLs.txt
[root]#

Una vez ejecutado el script, tenemos las URLs escaneadas en el fichero /tmp/URLs.txt:

[root]# head /tmp/URLs.txt
https://puerto53.com/
Actualizar una maquina virtual Linux Centos de Amazon AWS
Administración y creación de un VPC de Amazon AWS
Amazon EFS – Elastic filesystem
Amazon S3 – Simple Storage
Asignación de roles a instancias EC2 de Amazon AWS
Aumentar la velocidad de disco con un RAID en AWS
AWS Cli – Crear un snapshot de un volumen por línea de comandos
AWS Cli – Línea de comandos de Amazon AWS
CloudFront – Redes de Distribución de Contenido o CDNs
[root]#

¿Te ha gustado? ¡Compártelo!

Share on facebook
Share on twitter
Share on linkedin
Share on whatsapp
Share on telegram
Share on email

SUSCRÍBETE A PUERTO53

Recibe un email periódico con los artículos más interesantes de Puerto53.com

Antes de suscribirte lee los términos y condiciones. Gracias.

Contenido Relacionado

Artículos Recientes

Deja un comentario

About Author