Escanear todas las URLs de un sitio WEB con wget

Share on facebook
Share on twitter
Share on linkedin
Share on whatsapp
Share on telegram
Share on email
Hosting SSD

Recientemente, he tenido la necesidad de crear un script para escanear todas las URLs que tiene una página WEB, tal y como hacen los robots que hay Internet.

El script es muy sencillo, pero ya me sirve para lo que pretendía. El código fuente es el siguiente:

[root]# cat spider.sh
#!/usr/bin/sh

SPIDER=/tmp/spider.txt

wget --spider --force-html -r https://puerto53.com -o $SPIDER
grep "\-\-" /tmp/spider.txt |awk '{print $3}' |grep "^https://puerto53" |sed 's/?share=facebook//g' |sed 's/?share=twitter//g' |sed 's/?share=linkedin//g' |sed 's/?share=google-plus-1//g' |sed 's/\/feed\///g' |grep "/$" |grep -v "/page/" |grep -v "/random/" |sort |uniq > /tmp/URLs.txt
[root]#

Una vez ejecutado el script, tenemos las URLs escaneadas en el fichero /tmp/URLs.txt:

[root]# head /tmp/URLs.txt
https://puerto53.com/
Actualizar una maquina virtual Linux Centos de Amazon AWS
Administración y creación de un VPC de Amazon AWS
Amazon EFS – Elastic filesystem
Amazon S3 – Simple Storage
Asignación de roles a instancias EC2 de Amazon AWS
Aumentar la velocidad de disco con un RAID en AWS
AWS Cli – Crear un snapshot de un volumen por línea de comandos
AWS Cli – Línea de comandos de Amazon AWS
CloudFront – Redes de Distribución de Contenido o CDNs
[root]#

Descargar todos los ficheros de una URL con wget

Imaginemos que nos queremos decargar todos los ficheros RPM de una URL con wget. Lo haríamos de la siguiente manera:

LG 34WN750-B - Monitor UltraWide Plano, Panel IPS 3440x1440, 219, 300nit, 10001,...
  • Monitor 34 " Ultra Wide 21:9, Quad HD 3440 x1440
  • HDR 10 (High Dynamic Range); 300 cd/m 2; color calibrado
  • Panel IPS para una visión óptima desde cualquier ángulo (16.7 m colores - sRGB 99 %)
Rebajas
Samsung LF27T352FHRXEN - Monitor Plano de 27", Full HD (1080p, Panel IPS), Freesync, HDMI,...
  • Monitor 27 pulgadas con panel IPS y ángulo de visión de 178º para una calidad de visionado superior e imágenes cristalinas
  • Pantalla sin marcos en tres bordes, que facilita el montaje de varios monitores
  • AMD Freesync y Game mode, experiencia gaming inmersiva
[[email protected] vmware-tools-10.3.23]$ wget https://packages.vmware.com/tools/releases/10.3.23/rhel6/x86_64/

...

[[email protected] x86_64]$ pwd
/home/david/Downloads/vmware-tools-10.3.23/packages.vmware.com/tools/releases/10.3.23/rhel6/x86_64
[[email protected] x86_64]$ ll
total 20000
-rw-rw-r-- 1 david david  156040 Sep 24 11:18 kmod-vmware-tools-vmci-9.8.2.0-2.6.32.71.el6.x86_64.11.el6.x86_64.rpm
-rw-rw-r-- 1 david david  157837 Sep 24 11:18 kmod-vmware-tools-vmci-retpoline-9.8.2.0-2.6.32.754.9.1.el6.x86_64.11.el6.x86_64.rpm
-rw-rw-r-- 1 david david  104692 Sep 24 11:18 kmod-vmware-tools-vmhgfs-2.0.21.0-2.6.32.71.el6.x86_64.11.el6.x86_64.rpm
-rw-rw-r-- 1 david david  104193 Sep 24 11:18 kmod-vmware-tools-vmhgfs-retpoline-2.0.21.0-2.6.32.754.9.1.el6.x86_64.11.el6.x86_64.rpm
-rw-rw-r-- 1 david david   45496 Sep 24 11:18 kmod-vmware-tools-vmxnet-2.1.0.0-2.6.32.71.el6.x86_64.11.el6.x86_64.rpm
-rw-rw-r-- 1 david david   48897 Sep 24 11:18 kmod-vmware-tools-vmxnet-retpoline-2.1.0.0-2.6.32.754.9.1.el6.x86_64.11.el6.x86_64.rpm
-rw-rw-r-- 1 david david   98712 Sep 24 11:18 kmod-vmware-tools-vsock-9.8.1.0-2.6.32.71.el6.x86_64.11.el6.x86_64.rpm
-rw-rw-r-- 1 david david   87941 Sep 24 11:18 kmod-vmware-tools-vsock-retpoline-9.8.1.0-2.6.32.754.9.1.el6.x86_64.11.el6.x86_64.rpm
drwxrwxr-x 2 david david       6 Oct  5 08:07 repodata
-rw-rw-r-- 1 david david 4262541 Sep 24 11:18 vmware-tools-core-10.3.23-1.el6.x86_64.rpm
-rw-rw-r-- 1 david david    3202 Sep 24 11:18 vmware-tools-esx-10.3.23-1.el6.x86_64.rpm
-rw-rw-r-- 1 david david    2930 Sep 24 11:18 vmware-tools-esx-kmods-10.3.23-1.el6.x86_64.rpm

¿Te ha gustado? Compártelo

Share on facebook
Share on twitter
Share on linkedin
Share on whatsapp
Share on telegram
Share on email
About Author

Contenido Relacionado

Artículos Recientes

Deja un comentario