Escrapear Contenido de otras WEBs

El escrapeo de contenido es una técnica para clonar otras páginas WEB en cuestión de minutos para que sea exactamente igual que la WEB original.

Este método es utilizado en las tan populares estafas de pishing en la que muchos usuarios inexpertos «regalan» sus datos privados, como cuentas bancarias, o envían dinero a sitios frauduletos.

Por ese motivo, hay que estar muy atentos cuando recibimos en nuestro correo electrónico o en nuestro móvil un mensaje en que nos incitan a enviar dinero o regalar datos privados que son importantes para otras empresas de estafas.

El escrapeo de contenidos tiene otras utilidades en el mundo del SEO. Aunque no son tan malintencionadas como el pishing, el objetivo sigue siendo la clonación de contenidos con el objetivo de ganar dinero vendiendo productos de afiliación con Amazon, por ejemplo, vendiendo publicidad de Google Adsense o reseñas para otros blogs.

Como todo el mundo sabe el contenido duplicado perjudica al posicionamiento en las búsquedas de Google, por lo que no nos servirá demasiado para ganar dinero con este tipo de páginas WEB, si dejamos el contenido tal y como está. El trabajo de los redactores, una vez clonado el contenido, es hacer que éste sea original, lo cual, es bastante trabajo.

Hay técnicas que sirven para automatizar la tarea de crear contenido original, pero a mi no me gustan demasiado. Por ejemplo, el uso de un espinner, casi siempre deja un contenido mal redactado. Lo mismo ocurre con un traductor de una WEB de otro idioma.

Al final, si se quiere hacer bien, sale a cuenta que el contenido lo escribamos nosotros y nos aseguremos de que es original.

No obstante, si quieres conocer esta técnica, te explicaré a continuación cada uno de los pasos a seguir.

Guía, paso a paso, para escrapear contenido

Instalación del software de escrapeo

Hay muchos escrapeadores de contenido que suelen ser de pago. Dos de los más famosos son Content Grabber y Webscrapper.

Afortunadamente, para lo que queremos hacer, Webscrapper tiene una versión gratuita en forma de extensión para Google Chrome. El primer paso es instalarla.

Obtiene el sitemap de la WEB que quieres copiar

Para poder copiar automáticamente una WEB entera, necesitaremos decirle al programa cuáles son las URLs de la misma, así que necesitaremos buscar el sitemap de esa WEB. Normalmente, está en: https://dominio/sitemap.xml.

A modo de ejemplo, y sólo para hacer este tutorial, voy a utilizar la WEB https://arte.casa. La elijo porque, en el momento en que escribo este articulo, es una web con sólo 14 entradas.

Como podemos observar, el sitemap de los posts, está en https://arte.casa/post-sitemap.xml.

sitemap de ejemplo

Indicamos a Webscrapper que escanee todas las URLs del sitemap

Con la tecla F12 entramos en el modo para desarrolladores de Google Chrome, donde hemos instalado la extensión de Webscrapper anteriormente.

Veremos una opción de menú del propio programa para crear el sitemap para el escrapeo.

Webscapper - Crear sitemap
Webscrapper - Nombre del sitemap

Le damos al botón «add new selector» para que podamos elegir todas las URLs a clonar a través del siguiente formulario.

Webscrapper - Seleccion de las URLs a escrapear

En cuanto seleccionemos un par de URLs, webscrapper habrá aprendido el patrón y seleccionará el resto de forma automática. Hacemos click en el botón «Done selecting» para pasar a un nuevo formulario de selección de contenido.

Seleccionar el contenido de todas las URLs

Como norma general, la estructura de todos los posts de una WEB es siempre la misma. Por ejemplo, en WordPress se utilizan plantillas en donde el contenido siempre está situado en el mismo sitio.

Webscrapper es capaz de entender esto y seguir siempre el mismo patrón de selección del contenido, así que continuaremos seleccionando, como HTML, la parte de la página WEB que nos interesa.

Volvemos a dar click en «Donde selecting» cuando hayamos terminado de seleccionar las partes de la WEB que nos interesan.

Descargar el contenido de todas las URLs a nuestro PC

Ahora ya estamos listos para que el robot de Webscapper escanee y se descargue todo el contenido de la WEB que estamos clonando, a una hoja de cálculo en nuestro PC. Damos al botón «scrape» y esperamos a que finalice el proceso.

Cuando finalice, nos descargamos la información con el botón «Export data as CSV». Este fichero lo podemos abrir con LibreOffice si queremos modificar alguna cosa antes de insertar el contenido en la WEB de destino.

Consejo: Puedes coger cualquiera de las celdas con el contenido HTML e insertarlo en una página de test de tu blog para ver cómo queda.

Importar el contenido en la WEB de destino

Hace tiempo os hablé del plugin WP All Import. Es de pago pero nos permite importar, rápidamente, contenido a través de plantillas hechas en formato CSV que, es el formato de fichero que acabamos de generar con Webscrapper.

Si tenemos cientos o miles de URLs a importar, WP All import es la mejor solución para automatizar este trabajo.

Antes de importar el contenido haz una copia de seguridad de la página WEB porque si algo va mal, la podrás restaurar rápidamente. Yo utilizo el plugin de WordPress All in ONE WP Migration.

WP All import - Plantilla para importar contenido

En las opciones de WP All Import, dejaremos las entradas en borrador porque luego tendremos que hacer mucha limpieza en los posts.

WP All Import - Borrador

Problemas con que nos podemos encontrar

El código HTML podría no estar todo lo limpio que deseamos y tendríamos que realizar una revisión manual:

  • Código HTML que no se interpreta correctamente por algún carácter extraño que se ha insertado en el proceso de automatización.
  • Inserta código Javascript de la WEB original como, por ejemplo, los anuncios.
  • Las imágenes que aparecen en tu WEB son enlaces a la página original.
  • Importa los comentarios del blog original.
  • El contenido de tu WEB no es original.

Todo eso hay que corregirlo y, si estamos hablando de cientos o miles de artículos, pues es un trabajo costoso.

Si queremos clonar una WEB de WordPress, podemos utilizar programas especializados como WP Content BOT.

¿Te ha gustado? ¡Compártelo!

Share on facebook
Share on twitter
Share on linkedin
Share on whatsapp
Share on telegram
Share on email

SUSCRÍBETE A PUERTO53

Recibe un email periódico con los artículos más interesantes de Puerto53.com

Antes de suscribirte lee los términos y condiciones. Gracias.

Contenido Relacionado

Este es un blog de informática. ¿Qué necesita un informático?

Portátiles

Rebajas
Lenovo S145-15IIL - Ordenador portátil 15.6" FullHD (Intel Core i5-1035G1, 8GB RAM, 512GB...
  • Pantalla de 15.6" FullHD 1920x1080 pixeles 220nits Anti-glare
  • Procesador Intel Core I5-1035G1, QuadCore, 1.0-3.6GHz
  • Memoria RAM de 4GB Soldered + 4GB DIMM DDR4-2666
Lenovo S145-15AST - Ordenador portátil 15.6" FullHD (AMD A9-9425, 8GB de RAM, 512GB SSD,...
  • Pantalla de 15,6"fullhd 1920x1080 pixeles
  • Procesador amd a9-9425, dualcore 3.1ghz hasta 3.7ghz, 1m
  • Memoria ram de 8gddr4, 2133mhz
Rebajas
HP 15s-eq0004ns - Ordenador portátil de 15.6" HD (AMD Ryzen 3 3200U, 8 GB RAM, 256 GB,...
  • Procesador AMD Ryzen 3 3200U (2 núcleos, 5 MB de Caché, 2.6 GHz hasta 3.5 GHz)
  • Memoria RAM de 8 GB DDR4, 2400 MT/s
  • Disco SSD de 256 GB PCIe NVMe M.2
Rebajas
Lenovo S145-15AST- Ordenador portátil 15.6" FullHD (AMD A9-9425, 8GB RAM, 256GB SSD, AMD...
  • Pantalla de 15.6" FullHD 1920x1080 pixeles 220nits Anti-glare
  • Procesador AMD A9-9425, DualCore, 3.1GHz-3.7GHz
  • Memoria RAM de 8GB DIMM DDR4, 2133Mhz

Monitores PC

HP 22w - Monitor 21.5" (Full HD, 1920 x 1080 pixeles, tiempo de respuesta de 5 ms, 1 x...
  • Regálale a tu escritorio un toque de elegancia
  • Esta pantalla IPS de 53.61 cm (21,5 pulgadas) en diagonal dispone de 178 ángulos de visualización para ofrecer una experiencia de entretenimiento...
  • Con los puertos VGA y HDMI, esta pantalla hace que conectar tu ordenador portátil o pc de sobremesa sea una tarea sencilla y fluida
Rebajas
Samsung LC24F390FHU - Monitor para PC Desktop de 24'' (1920 x 1080 pixeles, Full HD, HD...
  • Pantalla de 24 pulgadas con una resolución de 1920 x 1080 píxeles
  • Brillo de pantalla: 250 cd / m²
  • Interfaz de montaje VESA 75 x 75 mm
Rebajas
BenQ GW2470HL - Monitor para PC Desktop de 23.8" Full HD (1920x1080, VA, 16:9, 2x HDMI,...
  • Los niveles ajustables de baja luz azul eliminan la luz azul peligrosa y mantienen la luz beneficiosa para una comodidad de visualización prolongada
  • Disfruta de gráficos nítidos con una resolución de 1920 x 1080
  • Minimiza las distracciones y crea una configuración de varios paneles con monitores de bisel estrecho

NAS

Rebajas
Western Digital My Cloud Home - Almacenamiento En Red NAS de 3 TB, 1 Bahía, Blanco y...
  • Configuración sencilla y rápida desde el teléfono
  • Acceso desde cualquier lugar con la aplicación para móviles o para ordenadores de My Cloud Home, o bien desde MyCloud.com
  • Copia de seguridad automática de las fotos y los vídeos del teléfono
Synology Diskstation DS218+ - Memoría externa DS218+ NAS 2bay
  • Procesador de doble núcleo con aceleración de cifrado AES-NI
  • No lleva disco
  • Admite la transcodificación 4K en tiempo real
Synology DS218J Diskstation
  • A versatile entry-level 2-bay NAS for home and personal cloud storage
  • Over 113 MB/s reading, 112 MB/s writing
  • Dual-core CPU with hardware encryption engine
Synology diskstation ds120j.
  • Almacenamiento de 1 bahía fácil de usar en una nube personal para usuarios de nas inexpertos
  • Rendimiento secuencial más de 112 mb/s de lectura, 106 mb/s de escritura
  • Plataforma para compartir archivos y sincronización entre dispositivos

Deja un comentario

About Author