Zum Hauptinhalt springen

Databricks-Integration

Databricks ist eine einheitliche Daten- und KI-Plattform, die auf der Lakehouse-Architektur aufbaut. Durch die Verbindung von WISEPIM mit Databricks können Sie Ihre angereicherten Produktdaten direkt in Unity Catalog und Delta Lake-Tabellen exportieren und so erweiterte Analysen, Machine-Learning-Workflows und Enterprise-Grade-Data-Governance über Ihren gesamten Produktkatalog ermöglichen.
Die Databricks-Integration ist ausschließlich im Enterprise-Plan verfügbar. Kontaktieren Sie unser Vertriebsteam, um mehr über Enterprise-Funktionen und Preise zu erfahren.

Voraussetzungen

Bevor Sie beginnen, stellen Sie sicher, dass Sie Folgendes bereithalten:
  • Ein WISEPIM-Konto im Enterprise-Plan
  • Einen Databricks-Workspace mit aktiviertem Unity Catalog
  • Entsprechende Berechtigungen zum Erstellen von Schemas und Tabellen in Ihrem Databricks-Katalog
  • Ihren Databricks Server Hostname, HTTP Path und eine Authentifizierungsmethode (Personal Access Token oder OAuth-Zugangsdaten)

Databricks-Verbindungsdetails abrufen

Sie benötigen mehrere Informationen aus Ihrem Databricks-Workspace, um die Verbindung herzustellen.
1

Melden Sie sich in Ihrem Databricks-Workspace an

Gehen Sie zur URL Ihres Databricks-Workspace und melden Sie sich mit Ihren Zugangsdaten an.
2

Server Hostname und HTTP Path ermitteln

Navigieren Sie zu SQL Warehouses (oder Compute für Cluster):
  1. Wählen Sie das SQL Warehouse oder den Cluster aus, mit dem sich WISEPIM verbinden soll
  2. Klicken Sie auf Connection Details
  3. Kopieren Sie den Server Hostname (z. B. adb-1234567890.1.azuredatabricks.net)
  4. Kopieren Sie den HTTP Path (z. B. /sql/1.0/warehouses/abc123def456)
3

Authentifizierung einrichten

Sie können sich mit einer von zwei Methoden authentifizieren:Option A: Personal Access Token
  1. Klicken Sie auf Ihren Benutzernamen in der oberen rechten Ecke des Databricks-Workspace
  2. Gehen Sie zu Settings, dann Developer, dann Access Tokens
  3. Klicken Sie auf Generate New Token, geben Sie eine Beschreibung ein (z. B. „WISEPIM Integration“) und legen Sie ein Ablaufdatum fest
  4. Kopieren Sie das generierte Token sofort — es wird nicht erneut angezeigt
Option B: OAuth (Service Principal)
  1. Erstellen Sie in Ihrer Databricks-Kontokonsole einen Service Principal
  2. Generieren Sie eine Client ID und ein Client Secret für den Service Principal
  3. Gewähren Sie dem Service Principal Zugriff auf den Workspace und den Zielkatalog
4

Ziel-Catalog und Schema identifizieren

Gehen Sie im Databricks-Workspace in der Seitenleiste zu Data, um den Unity Catalog zu durchsuchen:
  1. Wählen oder erstellen Sie den Catalog, in dem die WISEPIM-Produktdaten gespeichert werden sollen
  2. Wählen oder erstellen Sie das Schema (Datenbank) innerhalb dieses Catalogs
  3. Notieren Sie sich die Catalog- und Schema-Namen
Personal Access Tokens gewähren vollen Zugriff auf Ihren Databricks-Workspace basierend auf Ihren Benutzerberechtigungen. Für Produktionsumgebungen empfehlen wir die Verwendung von OAuth mit einem Service Principal, der nur die minimal erforderlichen Berechtigungen hat. Rotieren Sie Zugangsdaten regelmäßig und teilen Sie sie niemals öffentlich.

Databricks mit WISEPIM verbinden

Sobald Sie Ihre Verbindungsdetails zusammengetragen haben, konfigurieren Sie die Integration in WISEPIM.
1

Integrationsseite öffnen

Melden Sie sich bei Ihrem WISEPIM-Konto an und navigieren Sie über die Hauptseitenleiste zur Seite Integrationen.
2

Databricks auswählen

Suchen Sie die Kachel Databricks im App Marketplace und klicken Sie darauf, um das Konfigurationsfenster zu öffnen.
3

Verbindungsdetails eingeben

Füllen Sie die folgenden Felder aus:Verbindungseinstellungen
  • Server Hostname: Der Hostname Ihres Databricks-Workspace
  • HTTP Path: Der Pfad zu Ihrem SQL Warehouse oder Cluster
Authentifizierung (wählen Sie eine Methode)
  • Access Token: Ihr Databricks Personal Access Token
  • Oder Client ID und Client Secret: Ihre OAuth-Service-Principal-Zugangsdaten
Datenspeicherort
  • Catalog: Der Name des Unity Catalog (z. B. wisepim_data)
  • Schema: Der Schema-/Datenbankname innerhalb des Catalogs (z. B. product_catalog)
4

Quelltabellen konfigurieren (optional)

Wenn Sie Daten aus Databricks in WISEPIM importieren, können Sie Quelltabellennamen angeben:
  • Attributes Source Table: Die Tabelle mit den Attributdefinitionen
  • Attribute Options Source Table: Die Tabelle mit den Attributoptionswerten
  • Products Source Table: Die Tabelle mit den Produktdaten
  • Batch Size: Die Anzahl der Zeilen, die pro Batch verarbeitet werden (Standard: 1000)
5

Verbindung testen

Klicken Sie auf Verbindung testen, um zu überprüfen, ob WISEPIM Ihren Databricks-Workspace erreichen und auf den angegebenen Catalog und das Schema zugreifen kann.
6

Konfiguration speichern

Wenn der Verbindungstest erfolgreich ist, klicken Sie auf Speichern, um Ihre Integrationseinstellungen zu sichern.

Datenpipeline einrichten

Die Databricks-Integration unterstützt bidirektionalen Datenfluss zwischen WISEPIM und Ihrem Data Lakehouse.

Produktdaten nach Databricks exportieren

Sie können Ihre angereicherten Produktdaten von WISEPIM nach Databricks für Analysen und ML-Anwendungsfälle übertragen:
  1. Gehen Sie zur Seite Produkte in WISEPIM
  2. Wählen Sie die Produkte aus, die Sie exportieren möchten (oder wählen Sie alle aus)
  3. Klicken Sie auf Exportieren und wählen Sie Databricks als Ziel
  4. WISEPIM schreibt die Daten in Delta Lake-Tabellen in Ihrem angegebenen Catalog und Schema
Die folgenden Daten werden exportiert:
  • Produktkennungen (IDs, SKUs, EAN/GTIN)
  • Produktnamen und Beschreibungen (alle Sprachen)
  • Preise und Lagerinformationen
  • Kategoriehierarchien
  • Produktattribute und benutzerdefinierte Felder
  • Bild-URLs und Metadaten
  • Übersetzungsstatus und Qualitätsbewertungen
WISEPIM exportiert Daten im Delta Lake-Format, das ACID-Transaktionen, Schema-Durchsetzung und Time-Travel-Funktionen bietet. Sie können jederzeit historische Versionen Ihrer Produktdaten abfragen.

Produktdaten aus Databricks importieren

Wenn Ihre Produktdaten in Databricks gespeichert sind (z. B. aus vorgelagerten Datenpipelines), können Sie diese in WISEPIM importieren:
  1. Konfigurieren Sie die Quelltabellennamen in Ihren Integrationseinstellungen
  2. Klicken Sie auf der Produktseite auf Importieren und wählen Sie Databricks als Quelle
  3. WISEPIM liest aus Ihren angegebenen Tabellen und ordnet die Daten Ihren Projektattributen zu
Beim Import aus Databricks sollten Ihre Quelltabellen einem konsistenten Schema folgen. WISEPIM versucht, Spalten automatisch den Produktattributen zuzuordnen. Sie können die Zuordnung jedoch über den Attribut-Mapper anpassen.

Analyse-Anwendungsfälle

Sobald Ihre Produktdaten in Databricks sind, können Sie diese für verschiedene Analyse- und Data-Science-Workflows nutzen:

Produktleistungs-Analysen

  • Erstellen Sie Dashboards, um die Produktleistung über Kanäle und Märkte hinweg zu verfolgen
  • Analysieren Sie, welche Produktattribute mit höheren Konversionsraten korrelieren
  • Vergleichen Sie die Leistung über verschiedene Sprachen und Regionen hinweg

Machine-Learning-Pipelines

  • Trainieren Sie Produktempfehlungsmodelle mit angereicherten Produktdaten
  • Erstellen Sie Nachfrageprognosemodelle mit historischen Produkt- und Preisdaten
  • Entwickeln Sie Preisoptimierungsalgorithmen basierend auf Marktdaten
  • Nutzen Sie die Produkt-Embeddings von WISEPIM für Ähnlichkeitssuche und Clustering

Data Governance

  • Verfolgen Sie die Datenherkunft von der Quelle über die Anreicherung bis zum Export mit Unity Catalog
  • Richten Sie Zugriffskontrollen ein, um zu verwalten, wer Produktdaten lesen und ändern darf
  • Überwachen Sie alle Datenänderungen mit dem Transaktionsprotokoll von Delta Lake
Verwenden Sie die Produkt-IDs von WISEPIM als Primärschlüssel, wenn Sie Produktdaten mit Verkaufs-, Bestands- oder Kundendaten in Databricks verknüpfen. Dies stellt eine konsistente Identitätszuordnung über alle Ihre Datensätze sicher.

Batch-Verarbeitungskonfiguration

Für große Produktkataloge können Sie die Batch-Größe konfigurieren, um die Leistung zu optimieren:
  • Kleine Kataloge (unter 10.000 Produkte): Die Standard-Batch-Größe von 1.000 funktioniert gut
  • Mittlere Kataloge (10.000 – 100.000 Produkte): Erwägen Sie eine Erhöhung auf 5.000 pro Batch
  • Große Kataloge (100.000+ Produkte): Verwenden Sie 10.000 pro Batch und überwachen Sie die Ressourcennutzung
Sie können die Batch-Größe im Konfigurationsfenster der Integration unter dem Feld Batch Size anpassen.

Fehlerbehebung

Wenn Probleme mit Ihrer Databricks-Integration auftreten, versuchen Sie Folgendes:

Verbindungsfehler

  • Überprüfen Sie, ob der Server Hostname korrekt ist und die vollständige Domain enthält (z. B. adb-1234567890.1.azuredatabricks.net)
  • Prüfen Sie, ob der HTTP Path auf ein aktives SQL Warehouse oder einen aktiven Cluster verweist
  • Stellen Sie sicher, dass Ihr SQL Warehouse oder Cluster läuft (nicht im gestoppten/beendeten Zustand)
  • Falls Sie ein Personal Access Token verwenden, überprüfen Sie, ob es nicht abgelaufen ist
  • Falls Sie OAuth verwenden, bestätigen Sie, dass der Service Principal Zugriff auf Workspace-Ebene hat

Authentifizierungsprobleme

  • Generieren Sie Ihr Access Token neu, wenn Sie vermuten, dass es kompromittiert oder abgelaufen ist
  • Überprüfen Sie bei OAuth, ob Client ID und Client Secret korrekt sind
  • Stellen Sie sicher, dass der authentifizierte Benutzer oder Service Principal die Berechtigungen USE CATALOG und USE SCHEMA für den Ziel-Catalog und das Ziel-Schema hat

Datenexportprobleme

  • Bestätigen Sie, dass der authentifizierte Benutzer die Berechtigungen CREATE TABLE und MODIFY für das Ziel-Schema hat
  • Prüfen Sie, ob die Catalog- und Schema-Namen korrekt geschrieben sind und im Unity Catalog existieren
  • Falls Exporte langsam sind, versuchen Sie die Batch-Größe zu reduzieren oder ein größeres SQL Warehouse zu verwenden
  • Überprüfen Sie das WISEPIM-Fehlerprotokoll auf spezifische Fehlermeldungen der Databricks-API

Datenimportprobleme

  • Überprüfen Sie, ob die Quelltabellennamen korrekt sind und die Tabellen existieren
  • Bestätigen Sie, dass der authentifizierte Benutzer die Berechtigung SELECT für die Quelltabellen hat
  • Prüfen Sie, ob die Schemas der Quelltabellen mit dem erwarteten Format von WISEPIM kompatibel sind
  • Falls Importe eine Zeitüberschreitung verursachen, versuchen Sie die Batch-Größe zu reduzieren
Databricks-Ressourcen (SQL Warehouses, Cluster) verursachen Kosten, solange sie laufen. Stellen Sie sicher, dass Sie die Auto-Stopp-Einstellungen in Ihrem Databricks-Workspace konfigurieren, um unerwartete Kosten zu vermeiden. WISEPIM versucht, Ihr SQL Warehouse zu starten, wenn es gestoppt ist, was jedoch beim ersten Vorgang zusätzliche Latenz verursachen kann.

Nächste Schritte

Sobald Ihre Databricks-Integration eingerichtet ist, können Sie:
  • Produkte importieren aus Ihren Databricks-Tabellen
  • Produkte anreichern mit KI-gestützter Inhaltsoptimierung
  • Produkte exportieren in Delta Lake-Tabellen für Analysen
  • Dashboards und ML-Modelle mit Ihren angereicherten Produktdaten in Databricks erstellen
  • Geplante Exporte für kontinuierliche Datensynchronisierung einrichten