Este repositorio contiene dos scripts desarrollados en Node.js utilizando Puppeteer para realizar web scraping de un catálogo de productos en línea.
index.js: Automatiza la navegación y extracción de productos a través de múltiples páginas del catálogo.modelo2.js: Captura datos directamente desde las respuestas de red (network response), ideal para sitios que cargan contenido dinámico mediante APIs.productos.json: Archivo generado con los productos extraídos porindex.js.productos_2.json: Archivo generado pormodelo2.jsal interceptar respuestas de red.
- Node.js >= 18
- Puppeteer
git clone https://github.com/mvgarc/model_webscraping.git
cd model_webscraping
npm install puppeteerExtrae datos de productos navegando por varias páginas del sitio web:
node index.jsLo que hace:
- Navega por 80 páginas (
https://X/1/,https://X/2/, ...,https://X/80/) - Extrae información como:
- Imagen
- Título
- Precio
- Enlace
- Guarda los datos en
productos.json.
Captura datos directamente de una API interceptando respuestas de red:
node modelo2.jsLo que hace:
- Abre el sitio
https://Xcon el navegador visible. - Escucha las respuestas de red que contienen
/productos. - Guarda los datos en
productos_2.json.
- Asegúrate de reemplazar
https://Xcon la URL real del sitio objetivo. - Verifica que el scraping cumpla con los términos de uso del sitio web.
Este proyecto está bajo la licencia MIT.
✨ Desarrollado por @mvgarc