El escrapeo de contenido es una técnica para clonar otras páginas WEB en cuestión de minutos para que sea exactamente igual que la WEB original.
Este método es utilizado en las tan populares estafas de pishing en la que muchos usuarios inexpertos «regalan» sus datos privados, como cuentas bancarias, o envían dinero a sitios frauduletos.
Por ese motivo, hay que estar muy atentos cuando recibimos en nuestro correo electrónico o en nuestro móvil un mensaje en que nos incitan a enviar dinero o regalar datos privados que son importantes para otras empresas de estafas.
El escrapeo de contenidos tiene otras utilidades en el mundo del SEO. Aunque no son tan malintencionadas como el pishing, el objetivo sigue siendo la clonación de contenidos con el objetivo de ganar dinero vendiendo productos de afiliación con Amazon, por ejemplo, vendiendo publicidad de Google Adsense o reseñas para otros blogs.
Como todo el mundo sabe el contenido duplicado perjudica al posicionamiento en las búsquedas de Google, por lo que no nos servirá demasiado para ganar dinero con este tipo de páginas WEB, si dejamos el contenido tal y como está. El trabajo de los redactores, una vez clonado el contenido, es hacer que éste sea original, lo cual, es bastante trabajo.
Hay técnicas que sirven para automatizar la tarea de crear contenido original, pero a mi no me gustan demasiado. Por ejemplo, el uso de un espinner, casi siempre deja un contenido mal redactado. Lo mismo ocurre con un traductor de una WEB de otro idioma.
Al final, si se quiere hacer bien, sale a cuenta que el contenido lo escribamos nosotros y nos aseguremos de que es original.
No obstante, si quieres conocer esta técnica, te explicaré a continuación cada uno de los pasos a seguir.
Guía, paso a paso, para escrapear contenido
Instalación del software de escrapeo
Hay muchos escrapeadores de contenido que suelen ser de pago. Dos de los más famosos son Content Grabber y Webscrapper.
Afortunadamente, para lo que queremos hacer, Webscrapper tiene una versión gratuita en forma de extensión para Google Chrome. El primer paso es instalarla.
Obtiene el sitemap de la WEB que quieres copiar
Para poder copiar automáticamente una WEB entera, necesitaremos decirle al programa cuáles son las URLs de la misma, así que necesitaremos buscar el sitemap de esa WEB. Normalmente, está en: https://dominio/sitemap.xml.
A modo de ejemplo, y sólo para hacer este tutorial, voy a utilizar la WEB https://arte.casa. La elijo porque, en el momento en que escribo este articulo, es una web con sólo 14 entradas.
Como podemos observar, el sitemap de los posts, está en https://arte.casa/post-sitemap.xml.
Indicamos a Webscrapper que escanee todas las URLs del sitemap
Con la tecla F12 entramos en el modo para desarrolladores de Google Chrome, donde hemos instalado la extensión de Webscrapper anteriormente.
Veremos una opción de menú del propio programa para crear el sitemap para el escrapeo.
Le damos al botón «add new selector» para que podamos elegir todas las URLs a clonar a través del siguiente formulario.
En cuanto seleccionemos un par de URLs, webscrapper habrá aprendido el patrón y seleccionará el resto de forma automática. Hacemos click en el botón «Done selecting» para pasar a un nuevo formulario de selección de contenido.
Seleccionar el contenido de todas las URLs
Como norma general, la estructura de todos los posts de una WEB es siempre la misma. Por ejemplo, en WordPress se utilizan plantillas en donde el contenido siempre está situado en el mismo sitio.
Webscrapper es capaz de entender esto y seguir siempre el mismo patrón de selección del contenido, así que continuaremos seleccionando, como HTML, la parte de la página WEB que nos interesa.
Volvemos a dar click en «Donde selecting» cuando hayamos terminado de seleccionar las partes de la WEB que nos interesan.
Descargar el contenido de todas las URLs a nuestro PC
Ahora ya estamos listos para que el robot de Webscapper escanee y se descargue todo el contenido de la WEB que estamos clonando, a una hoja de cálculo en nuestro PC. Damos al botón «scrape» y esperamos a que finalice el proceso.
Cuando finalice, nos descargamos la información con el botón «Export data as CSV». Este fichero lo podemos abrir con LibreOffice si queremos modificar alguna cosa antes de insertar el contenido en la WEB de destino.
Consejo: Puedes coger cualquiera de las celdas con el contenido HTML e insertarlo en una página de test de tu blog para ver cómo queda.
Importar el contenido en la WEB de destino
Hace tiempo os hablé del plugin WP All Import. Es de pago pero nos permite importar, rápidamente, contenido a través de plantillas hechas en formato CSV que, es el formato de fichero que acabamos de generar con Webscrapper.
Si tenemos cientos o miles de URLs a importar, WP All import es la mejor solución para automatizar este trabajo.
Antes de importar el contenido haz una copia de seguridad de la página WEB porque si algo va mal, la podrás restaurar rápidamente. Yo utilizo el plugin de WordPress All in ONE WP Migration.
En las opciones de WP All Import, dejaremos las entradas en borrador porque luego tendremos que hacer mucha limpieza en los posts.
Problemas con que nos podemos encontrar
El código HTML podría no estar todo lo limpio que deseamos y tendríamos que realizar una revisión manual:
- Código HTML que no se interpreta correctamente por algún carácter extraño que se ha insertado en el proceso de automatización.
- Inserta código Javascript de la WEB original como, por ejemplo, los anuncios.
- Las imágenes que aparecen en tu WEB son enlaces a la página original.
- Importa los comentarios del blog original.
- El contenido de tu WEB no es original.
Todo eso hay que corregirlo y, si estamos hablando de cientos o miles de artículos, pues es un trabajo costoso.
Si queremos clonar una WEB de WordPress, podemos utilizar programas especializados como WP Content BOT.
Te podría interesar
- Escrapear contenido de Google Maps con Botsol
- Uso de un Espinner para modificar el contenido clonado y que parezca original
- Uso de shortcodes de AAWP para monetizar tu WEB con productos de Amazon
Mi pasión por la tecnología me lleva constantemente a explorar las últimas tendencias y aplicaciones, buscando siempre formas de implementar soluciones innovadoras que mejoren la eficiencia. En puerto53.com comparto contenido valioso para ayudar a otros profesionales y entusiastas de la informática a navegar y dominar el complejo mundo de la tecnología. Mi especialidad en Linux RedHat.
Más sobre mí en el este enlace,