Zum Hauptinhalt springen
WISEPIM web scraping import configuring a source URL and previewing extracted products Manchmal liegen die gewünschten Daten auf einer Website und nicht in einem Feed: der Katalog eines Lieferanten, dein eigener Store auf einer anderen Plattform oder ein Referenzsortiment, das du nachbilden möchtest. Der Web-Scraping-Import crawlt eine öffentliche Website, nutzt die AI, um jedes Produkt zu extrahieren (Name, SKU, Marke, Preis, Bilder, Attribute), und importiert sie in WISEPIM. Es gibt keine Datei vorzubereiten und keine API zu verbinden. Was es dir bringt: Du holst einen Lieferanten oder einen bestehenden Storefront in Minuten an Bord, statt nach einem Feed zu fragen, und bringst Produkte nach WISEPIM, wo du sie anreichern, übersetzen und veröffentlichen kannst.
Der Web-Scraping-Import funktioniert auf jeder öffentlichen Website, ohne API-Schlüssel oder Einrichtung. Er zeigt dir vor dem Festlegen immer eine Live-Vorschau eines extrahierten Produkts, damit du zuerst bestätigen kannst, dass die Daten korrekt aussehen.

So funktioniert es

1

Wähle einen Quellmodus

Kategorieseite durchläuft eine Listenseite und ihre Seitennummerierung, um jedes Produkt zu finden (am besten für den Katalog eines Lieferanten oder Mitbewerbers). Sitemap startet von einer Produkt-URL und findet ähnliche Seiten auf der gesamten Website. Manuelle Liste nimmt eine Liste von Produkt-URLs, die du einfügst, eine pro Zeile.
2

Füge die URL und Begrenzungen hinzu

Füge die Start-URL ein. Lege optional ein URL-Muster fest (um nur die richtigen Seiten einzubeziehen) sowie Obergrenzen dafür, wie viele Listenseiten und Produkte abgerufen werden, damit ein erster Durchlauf klein bleibt.
3

Sieh dir ein Produkt in der Vorschau an

Starte die Vorschau. WISEPIM meldet, wie viele Produkt-URLs es gefunden hat, das erkannte Muster, einige Beispiel-URLs und ein vollständig extrahiertes Produkt, sodass du prüfen kannst, ob die Felder korrekt übernommen wurden.
4

Importieren

Zufrieden mit der Vorschau? Starte den Import. Er läuft im Hintergrund, sodass du die Seite verlassen und den Fortschritt im Process Tracker verfolgen kannst. Wenn er fertig ist, sind die Produkte in deinem Katalog und einsatzbereit.
Halte deinen ersten Durchlauf klein. Setze die Obergrenzen Max. Produkte und Max. Listenseiten niedrig, sieh dir das Ergebnis in der Vorschau an und bestätige, dass die Daten korrekt aussehen, bevor du den gesamten Katalog abrufen lässt.

Einstellungen, die du festlegen kannst

Du gestaltest jeden Scrape mit ein paar optionalen Überschreibungen. Die Standardwerte funktionieren für die meisten Websites, greife also nur dann zu diesen, wenn ein Durchlauf einen Anstoß braucht:
  • Sitemap-URL überschreiben: Verweise WISEPIM auf die richtige Sitemap, wenn eine Website keine in ihrer robots.txt angibt. Nutze dies, wenn der Sitemap-Modus die Produkt-URLs nicht von selbst finden kann.
  • Produkt-URL-Muster überschreiben: Sage WISEPIM, welche URLs als Produkte gelten (zum Beispiel /p/ oder /products/), wenn das automatisch erkannte Muster die falschen Seiten erfasst.
  • Max. Listenseiten: wie viele Seitennummerierungs-Seiten einer Kategorie durchlaufen werden. Erhöhe den Wert für große Kataloge, halte ihn für einen schnellen Test niedrig.
  • Max. Produkte: eine Obergrenze dafür, wie viele Produkte ein Durchlauf importiert. Eine Sicherheitsgrenze, die einen ersten Durchlauf klein und vorhersehbar hält.

Die Vorschau lesen

Die Vorschau gibt es, damit du nie blind importierst:
  • Anzahl der gefundenen URLs zeigt dir, ob der Crawl ungefähr die erwartete Produktanzahl gefunden hat. Null oder viel zu wenige bedeutet, dass das Muster oder die Start-URL angepasst werden muss.
  • Das erkannte Muster zeigt, welche URLs als Produkte behandelt werden. Wenn es Kategorie- oder Blog-Seiten erfasst, schränke das Muster mit der Überschreibung des Produkt-URL-Musters ein.
  • Das extrahierte Beispiel ist der eigentliche Test: Prüfe, dass Name, Preis, Bilder und wichtige Attribute korrekt zugeordnet wurden, bevor du dich auf den vollständigen Durchlauf festlegst.
Wenn WISEPIM aus der ersten URL kein Produkt extrahieren kann, zeigt es eine klare Warnung an, statt stillschweigend zu scheitern. Der Import kann auf den anderen Seiten dennoch funktionieren, daher lohnt es sich, noch einmal eine Vorschau zu machen oder den Durchlauf zu starten und die Ergebnisse zu prüfen. Wenn das Beispiel leer bleibt, passe die Start-URL oder das Muster an und mach erneut eine Vorschau.

Handle nach deinen Erkenntnissen

Die Start-URL oder das Muster stimmt nicht. Bei einer Kategorieseite vergewissere dich, dass du die Listenseite eingefügt hast (nicht ein einzelnes Produkt); im Sitemap-Modus füge eine echte Produkt-URL ein, damit WISEPIM das Muster lernen kann. Passe die Muster-Überschreibung an und mach erneut eine Vorschau. Ergebnis: Der Crawl findet das vollständige Sortiment, bevor du einen Importlauf dafür aufwendest.
Manche Websites verstecken Daten in Skripten oder Bildern. Mach erneut eine Vorschau, um zu bestätigen, dass es durchgängig ist, importiere, was sauber extrahiert wird, und fülle dann die Lücken mit Produkte anreichern (die AI kann die Produktbilder lesen, um Attribute wiederherzustellen). Ergebnis: ein vollständiger Katalog, selbst wenn die Quellseite dünn war.
Notiere dir die Einstellungen, die funktioniert haben: den Quellmodus, die Start- oder Kategorie-URL und alle Muster- oder Sitemap-Überschreibungen. Wenn der Lieferant das nächste Mal aktualisiert, gib dieselben Werte ein, um die Änderungen abzurufen. Für Quellen, die du häufig erneut importierst, ist ein strukturierter Feed die zuverlässigere Langzeitoption, sofern einer verfügbar ist. Ergebnis: wiederholbares Lieferanten-Onboarding.
Wenn die Quelle dir einen XML- oder CSV-Feed bereitstellen kann, bevorzuge den Feed-Hub-Import oder den Dateiimport: Strukturierte Feeds sind schneller und zuverlässiger als das Crawlen. Nutze das Scraping, wenn kein Feed verfügbar ist. Ergebnis: das richtige Werkzeug für jede Quelle.

Der Vergleich

Web-Scraping-ImportDatei-/Feed-ImportWeb-Recherche
EingabeEine Live-Website-URLEine XML-/CSV-/JSON-Datei oder ein FeedEine Suchanfrage oder Mitbewerber-URL
Am besten fürWebsites ohne verfügbaren FeedLieferanten und Kanäle, die einen Feed veröffentlichenFakten sammeln, um bestehende Produkte anzureichern
Die AI machtExtrahiert Felder von der SeiteOrdnet Spalten den Feldern zuSucht und fasst zusammen
AusgabeProdukte in deinem KatalogProdukte in deinem KatalogRecherche, die du auf Inhalte anwendest

Verwandtes

Produkte importieren

Dateibasierter Import (CSV, Excel), wenn du strukturierte Daten hast.

Feed Hub

Aus XML-/Feed-Quellen importieren und in sie veröffentlichen.

Web-Recherche

Recherchiere Produkte im Web, um das anzureichern, was du bereits hast.

Produkte anreichern

Fülle die Lücken, die der Scrape hinterlassen hat, mit AI.