Saltar al contenido principal
Importación por web scraping de WISEPIM configurando una URL de origen y previsualizando los productos extraídos A veces los datos que quieres están en un sitio web, no en un feed: el catálogo de un proveedor, tu propia tienda en otra plataforma o una gama de referencia con la que quieres igualar. La importación por web scraping rastrea un sitio público, usa AI para extraer cada producto (nombre, SKU, marca, precio, imágenes, atributos) y los importa a WISEPIM. No hay ningún archivo que preparar ni ninguna API que conectar. Qué consigues al usarlo: incorpora a un proveedor o una tienda existente en minutos en lugar de pedir un feed, y trae los productos a WISEPIM, donde puedes enriquecerlos, traducirlos y publicarlos.
La importación por web scraping funciona en cualquier sitio web público, sin claves de API ni configuración. Siempre te muestra una vista previa en vivo de un producto extraído antes de confirmar, para que primero compruebes que los datos tienen buen aspecto.

Cómo funciona

1

Elige un modo de origen

Página de categoría recorre una página de listado y su paginación para encontrar todos los productos (lo mejor para el catálogo de un proveedor o de la competencia). Sitemap parte de una URL de producto y encuentra páginas similares por todo el sitio. Lista manual toma una lista de URL de producto que pegas, una por línea.
2

Añade la URL y los límites

Pega la URL de inicio. Si quieres, define un patrón de URL (para incluir solo las páginas adecuadas) y topes de cuántas páginas de listado y productos extraer, para que una primera ejecución se mantenga pequeña.
3

Previsualiza un producto

Ejecuta la vista previa. WISEPIM informa de cuántas URL de producto coincidieron, el patrón que detectó, unas cuantas URL de ejemplo y un producto extraído por completo para que compruebes que los campos llegaron correctamente.
4

Importar

¿Conforme con la vista previa? Inicia la importación. Se ejecuta en segundo plano, así que puedes dejar la página y seguir el progreso en el Seguimiento de procesos. Cuando termina, los productos están en tu catálogo, listos para trabajar con ellos.
Mantén pequeña tu primera ejecución. Pon los topes de Máximo de productos y Máximo de páginas de listado bajos, previsualiza el resultado y confirma que los datos tienen buen aspecto antes de dejar que extraiga todo el catálogo.

Controles que puedes definir

Das forma a cada scraping con unos cuantos ajustes opcionales. Los valores por defecto funcionan en la mayoría de sitios, así que recurre a estos solo cuando una ejecución necesite un empujón:
  • Sustituir la URL del sitemap: apunta WISEPIM al sitemap correcto cuando un sitio no lo declara en su robots.txt. Úsalo si el modo sitemap no puede encontrar las URL de producto por sí solo.
  • Sustituir el patrón de URL de producto: indica a WISEPIM qué URL cuentan como productos (por ejemplo /p/ o /products/) cuando el patrón detectado automáticamente recoge las páginas equivocadas.
  • Máximo de páginas de listado: cuántas páginas de paginación de una categoría recorrer. Súbelo para catálogos grandes, mantenlo bajo para una prueba rápida.
  • Máximo de productos: un límite superior de cuántos productos importa una ejecución. Un tope de seguridad que mantiene una primera ejecución pequeña y predecible.

Cómo leer la vista previa

La vista previa existe para que nunca importes a ciegas:
  • El número de URL coincidentes te dice si el rastreo encontró aproximadamente el número de productos que esperabas. Cero o demasiado pocos significa que hay que ajustar el patrón o la URL de inicio.
  • El patrón detectado muestra qué URL se tratarán como productos. Si está recogiendo páginas de categoría o de blog, afina el patrón con la opción para sustituir el patrón de URL de producto.
  • La muestra extraída es la prueba de verdad: comprueba que el nombre, el precio, las imágenes y los atributos clave se mapearon correctamente antes de comprometerte con la ejecución completa.
Si WISEPIM no puede extraer un producto de la primera URL, muestra una advertencia clara en lugar de fallar en silencio. La importación aún puede funcionar en las demás páginas, así que vale la pena previsualizar una vez más o iniciar la ejecución y comprobar los resultados. Si la muestra sigue vacía, ajusta la URL de inicio o el patrón y previsualiza de nuevo.

Actúa según lo que encuentres

La URL de inicio o el patrón no son correctos. Para una página de categoría, asegúrate de haber pegado la página de listado (no un solo producto); para el modo sitemap, pega una URL de producto real para que WISEPIM pueda aprender el patrón. Ajusta la sustitución del patrón y previsualiza de nuevo. Resultado: el rastreo encuentra el conjunto completo antes de gastar una ejecución de importación en él.
Algunos sitios esconden datos en scripts o imágenes. Vuelve a previsualizar para confirmar que es consistente, importa lo que se extrae limpiamente y luego rellena los huecos con Enriquecer productos (la AI puede leer las imágenes del producto para recuperar atributos). Resultado: un catálogo completo incluso cuando la página de origen tenía poca información.
Anota los ajustes que funcionaron: el modo de origen, la URL de inicio o de categoría, y cualquier sustitución de patrón o de sitemap. La próxima vez que el proveedor actualice, introduce los mismos valores para traer los cambios. Para fuentes que reimportas a menudo, un feed estructurado es la opción más fiable a largo plazo cuando hay uno disponible. Resultado: incorporación de proveedores repetible.
Si la fuente puede darte un feed XML o CSV, es mejor usar la importación de Feed Hub o la importación de archivos: los feeds estructurados son más rápidos y fiables que el rastreo. Usa el scraping cuando no haya un feed disponible. Resultado: la herramienta adecuada para cada fuente.

Cómo se compara

Importación por web scrapingImportación de archivos / feedInvestigación web
EntradaLa URL de un sitio web en vivoUn archivo o feed XML / CSV / JSONUna consulta de búsqueda o la URL de un competidor
Ideal paraSitios sin feed disponibleProveedores y canales que publican un feedReunir datos para enriquecer productos existentes
SalidaProductos en tu catálogoProductos en tu catálogoInvestigación que aplicas al contenido
La AI haceExtrae campos de la páginaMapea columnas a camposBusca y resume

Relacionado

Importar productos

Importación basada en archivos (CSV, Excel) cuando tienes datos estructurados.

Feed Hub

Importa desde y publica en fuentes XML / feed.

Investigación web

Investiga productos en la web para enriquecer lo que ya tienes.

Enriquecer productos

Rellena con AI los huecos que dejó el scraping.