Dieses Projekt wurde im Rahmen der Data SmartPoint Academy erstellt.
Ziel war es, mithilfe von Python und Machine Learning das Kaufverhalten von Kunden datenbasiert zu analysieren, Muster zu erkennen und daraus strategische Handlungsempfehlungen für Marketingmaßnahmen abzuleiten.
Ziel war es, Machine-Learning-Methoden praxisnah im Marketingkontext anzuwenden – von der Datenvorbereitung über explorative Analysen bis hin zur Segmentierung mittels Clustering.
Das Projekt verbindet technisches Verständnis mit strategischem Denken im Bereich Kundenanalyse.
Die Analyse basiert auf einem realitätsnahen Kundendatensatz aus dem Marketingbereich. Enthalten sind u. a.:
- Demografische Daten (Alter, Einkommen, Bildungsniveau, Familienstand)
- Kaufverhalten nach Produktkategorien
- Reaktionen auf verschiedene Marketingkampagnen
- Nutzung von Vertriebskanälen (Web, Laden, Katalog)
- Kundendauer und Beschwerdeverhalten
Der Datensatz wurde bereinigt und angepasst, um eine fundierte Analyse und Modellbildung zu ermöglichen.
Zur Vorbereitung der Daten für die Analyse wurden folgende Schritte durchgeführt:
- Entfernung von Ausreißern bei Alter (z. B. Kunden > 100 Jahre)
- Imputation fehlender Einkommenswerte mit dem Median
- Prüfung der Verteilungen von Einkommen und Alter
- Umcodierung & Umbenennung von Variablen zur besseren Lesbarkeit
- Normalisierung der Daten für die Clusteranalyse
- Selektion relevanter Features für Machine Learning
Im Zentrum der Analyse stand die Clusterbildung mit K-Means, ergänzt durch klassische deskriptive Analysen mit Pandas, Matplotlib und Seaborn.
Untersucht wurden u. a.:
- Ausgabenverhalten nach Produktkategorie
- Zusammenhang von Einkommen und Gesamtausgaben
- Korrelation zwischen Einkommen und Kampagnenannahme
- Unterschiede in der Kanalnutzung (Web, Laden, Katalog)
- Vergleich von Kunden mit vs. ohne Beschwerden
- Identifikation typischer Zielgruppen durch Clusteranalyse
- Wein & Fleisch dominieren die Ausgaben – zusammen über 75 % Anteil
- Kunden mit höherem Einkommen geben signifikant mehr aus und reagieren häufiger auf Kampagnen
- Kampagne 5 zeigt den stärksten Zusammenhang mit Einkommen
- Offline-orientierte Kunden waren besonders empfänglich für Kampagne 5
- Kunden, die Kampagnen annehmen, sind meist langfristig aktiv
- Ladenkäufe dominieren weiterhin, aber Web wird zunehmend wichtiger
- Kunden mit Beschwerden geben im Schnitt deutlich weniger aus
- Fokus auf Kunden mit > 90.000 € Einkommen
- Zielgruppenspezifische Ansprache je nach Cluster (Vielkäufer, Sparsame etc.)
- Online-Marketing weiter ausbauen, aber Ladenpräsenz nicht vernachlässigen
- Früherkennung von Beschwerden nutzen, um Kundenbindung zu stärken
Der verwendete Datensatz wurde im Rahmen einer Schulung zur Verfügung gestellt und basiert auf öffentlich zugänglichen Übungsdaten von Kaggle.
Aus lizenzrechtlichen Gründen wird der Datensatz in diesem Repository nicht veröffentlicht.
Maschinen können Muster erkennen – aber verstehen muss man sie trotzdem selbst.
Ein paar Eigenheiten im Datensatz wurden bewusst nicht geglättet, um die Realität echter Daten zu zeigen.
Perfekt war hier nichts – aber das war auch nie das Ziel.
Lernen heißt: erkennen, verstehen, verbessern. Und genau das tut dieses Projekt. 😎