Naar hoofdinhoud gaan
WISEPIM web scraping-import waarbij een bron-URL wordt geconfigureerd en geëxtraheerde producten worden bekeken Soms staat de data die je wilt op een website en niet in een feed: de catalogus van een leverancier, je eigen winkel op een ander platform, of een referentie-assortiment dat je wilt evenaren. Web scraping-import doorloopt een openbare site, gebruikt AI om elk product te extraheren (naam, SKU, merk, prijs, afbeeldingen, attributen) en importeert ze in WISEPIM. Je hoeft geen bestand voor te bereiden en geen API te koppelen. Wat het je oplevert: breng een leverancier of een bestaande webshop in een paar minuten binnen in plaats van om een feed te vragen, en haal producten naar WISEPIM waar je ze kunt verrijken, vertalen en publiceren.
Web scraping-import werkt op elke openbare website, zonder API-sleutels of setup. Het toont je altijd een live voorbeeld van één geëxtraheerd product voordat je je vastlegt, zodat je eerst kunt bevestigen dat de data er goed uitziet.

Hoe het werkt

1

Kies een bronmodus

Categoriepagina doorloopt een overzichtspagina en de paginering om elk product te vinden (het beste voor de catalogus van een leverancier of concurrent). Sitemap begint bij één product-URL en vindt vergelijkbare pagina’s op de site. Handmatige lijst gebruikt een lijst met product-URL’s die je erin plakt, één per regel.
2

Voeg de URL en limieten toe

Plak de start-URL. Stel desgewenst een URL-patroon in (om alleen de juiste pagina’s mee te nemen) en limieten voor hoeveel overzichtspagina’s en producten worden opgehaald, zodat een eerste run klein blijft.
3

Bekijk één product als voorbeeld

Voer het voorbeeld uit. WISEPIM rapporteert hoeveel product-URL’s hij heeft gevonden, het patroon dat hij detecteerde, een paar voorbeeld-URL’s en één volledig geëxtraheerd product, zodat je kunt controleren of de velden goed zijn overgekomen.
4

Importeren

Tevreden met het voorbeeld? Start de import. Die draait op de achtergrond, dus je kunt de pagina verlaten en de voortgang volgen in de Process Tracker. Zodra het klaar is, staan de producten in je catalogus, klaar om mee te werken.
Houd je eerste run klein. Stel de limieten Max producten en Max overzichtspagina’s laag in, bekijk het resultaat als voorbeeld en bevestig dat de data er goed uitziet voordat je de hele catalogus laat ophalen.

Instellingen die je kunt aanpassen

Je stuurt elke scrape met een paar optionele overrides. De standaardinstellingen werken voor de meeste sites, dus gebruik deze alleen wanneer een run een zetje nodig heeft:
  • Sitemap-URL override: wijs WISEPIM naar de juiste sitemap wanneer een site er geen aangeeft in zijn robots.txt. Gebruik dit als de sitemap-modus zelf geen product-URL’s kan vinden.
  • Override voor product-URL-patroon: vertel WISEPIM welke URL’s als producten tellen (bijvoorbeeld /p/ of /products/) wanneer het automatisch gedetecteerde patroon de verkeerde pagina’s oppikt.
  • Max overzichtspagina’s: hoeveel pagineringspagina’s van een categorie worden doorlopen. Verhoog dit voor grote catalogi, houd het laag voor een snelle test.
  • Max producten: een bovengrens voor hoeveel producten een run importeert. Een veiligheidslimiet die een eerste run klein en voorspelbaar houdt.

Het voorbeeld lezen

Het voorbeeld bestaat zodat je nooit blind importeert:
  • Aantal gevonden URL’s vertelt je of de crawl ongeveer het aantal producten heeft gevonden dat je verwachtte. Nul of veel te weinig betekent dat het patroon of de start-URL moet worden aangepast.
  • Het gedetecteerde patroon toont welke URL’s als producten worden behandeld. Pikt het categorie- of blogpagina’s op? Scherp het patroon dan aan met de override voor het product-URL-patroon.
  • Het geëxtraheerde voorbeeld is de echte test: controleer of naam, prijs, afbeeldingen en belangrijke attributen correct zijn overgekomen voordat je je aan de volledige run vastlegt.
Als WISEPIM geen product uit de eerste URL kan extraheren, toont hij een duidelijke waarschuwing in plaats van stilletjes te falen. De import kan nog steeds werken op de overige pagina’s, dus het loont om nog een keer een voorbeeld te bekijken of de run te starten en de resultaten te controleren. Blijft het voorbeeld leeg? Pas dan de start-URL of het patroon aan en bekijk opnieuw een voorbeeld.

Doe iets met wat je vindt

De start-URL of het patroon klopt niet. Zorg bij een categoriepagina dat je de overzichtspagina hebt geplakt (niet één enkel product); plak bij de sitemap-modus een echte product-URL zodat WISEPIM het patroon kan leren. Pas de patroon-override aan en bekijk opnieuw een voorbeeld. Resultaat: de crawl vindt de volledige set voordat je er een importrun aan besteedt.
Sommige sites verstoppen data in scripts of afbeeldingen. Bekijk opnieuw een voorbeeld om te bevestigen dat het consistent is, importeer wat netjes wordt geëxtraheerd, en vul daarna de hiaten op met Producten verrijken (AI kan de productafbeeldingen lezen om attributen terug te halen). Resultaat: een volledige catalogus, zelfs wanneer de bronpagina mager was.
Noteer de instellingen die werkten: de bronmodus, de start- of categorie-URL en eventuele patroon- of sitemap-overrides. De volgende keer dat de leverancier bijwerkt, vul je dezelfde waarden in om de wijzigingen op te halen. Voor bronnen die je vaak opnieuw importeert, is een gestructureerde feed de betrouwbaardere langetermijnoptie wanneer die beschikbaar is. Resultaat: herhaalbare leveranciers-onboarding.
Kan de bron je een XML- of CSV-feed geven? Kies dan liever Feed Hub-import of bestandsimport: gestructureerde feeds zijn sneller en betrouwbaarder dan crawlen. Gebruik scraping wanneer er geen feed beschikbaar is. Resultaat: het juiste gereedschap voor elke bron.

Hoe het zich verhoudt

Web scraping-importBestand- / feed-importWeb research
InvoerEen live website-URLEen XML- / CSV- / JSON-bestand of feedEen zoekopdracht of concurrent-URL
Het beste voorSites zonder beschikbare feedLeveranciers en kanalen die een feed publicerenFeiten verzamelen om bestaande producten te verrijken
UitvoerProducten in je catalogusProducten in je catalogusResearch die je toepast op content
AI doetVelden uit de pagina extraherenKolommen aan velden toewijzenZoeken en samenvatten

Gerelateerd

Producten importeren

Bestandsgebaseerde import (CSV, Excel) wanneer je gestructureerde data hebt.

Feed Hub

Importeer vanuit en publiceer naar XML- / feed-bronnen.

Web research

Onderzoek producten op het web om aan te vullen wat je al hebt.

Producten verrijken

Vul met AI de hiaten die de scrape achterliet.