1.

Predictive Churn – worum geht’s da?

Unsere Mitarbeiter haben im Rahmen eines Projekts ein Machine Learning Modell erarbeitet. Mit dessen Hilfe wird versucht, Kündigungen vorherzusagen. Durch die Modellklassifikationen können wir besser auf die Wünsche und Bedürfnisse unserer Kunden eingehen. Dies impliziert z. b. das gezielte Ausspielen von Angeboten.

Das Projekt umfasst alle Bereiche des Arbeitens im Data Science Umfeld: von der Analyse des Business Cases und der Abwägung von Kosten und Nutzen, über die Datensicherung, -Vorverarbeitung und -Analyse bis hin zum Testen, Vergleichen und Auswerten diverser Machine und Deep Learning Algorithmen. Weiterhin wurde ein Testdesign entwickelt, mit dessen Hilfe die Performance des Modells und der Kündigungspräventionskampagne langfristig untersucht werden können. Im Projekt enthaltene Tools sind unter Anderem MySQL, Python, SSIS und PowerBI.

1. Predictive Churn – worum geht’s da?

Unsere Mitarbeiter haben im Rahmen eines Projekts ein Machine Learning Modell erarbeitet. Mit dessen Hilfe wird versucht, Kündigungen vorherzusagen. Durch die Modellklassifikationen können wir besser auf die Wünsche und Bedürfnisse unserer Kunden eingehen. Dies impliziert z. b. das gezielte Ausspielen von Angeboten.

Das Projekt umfasst alle Bereiche des Arbeitens im Data Science Umfeld: von der Analyse des Business Cases und der Abwägung von Kosten und Nutzen, über die Datensicherung, -Vorverarbeitung und -Analyse bis hin zum Testen, Vergleichen und Auswerten diverser Machine und Deep Learning Algorithmen. Weiterhin wurde ein Testdesign entwickelt, mit dessen Hilfe die Performance des Modells und der Kündigungspräventionskampagne langfristig untersucht werden können. Im Projekt enthaltene Tools sind unter Anderem MySQL, Python, SSIS und PowerBI.

2.

Was ist Predictive Churn?

Bei Predictive Churn (Churn = Change & Turn) handelt es sich um ein Prognoseverfahren zur Einschätzung des Kündigungsverhaltens von Kunden. Es ermöglicht demnach das Vorhersagen über die Kündigungswahrscheinlichkeit jedes einzelnen Kunden.

Indem mit historischen Daten verschiedene Modelle aus dem Bereich Machine Learning befüllt werden, wird versucht, möglichst exakte Schätzungen und dazugehörige Modelle zu generieren. In einem weiteren Schritt wird das Modell, welches aus historischen Daten erstellt wurde, auf aktuelle Daten angewandt und so eine Vorhersage ermöglicht.

2. Was ist Predictive Churn?

Bei Predictive Churn (Churn = Change & Turn) handelt es sich um ein Prognoseverfahren zur Einschätzung des Kündigungsverhaltens von Kunden. Es ermöglicht demnach das Vorhersagen über die Kündigungswahrscheinlichkeit jedes einzelnen Kunden.

Indem mit historischen Daten verschiedene Modelle aus dem Bereich Machine Learning befüllt werden, wird versucht, möglichst exakte Schätzungen und dazugehörige Modelle zu generieren. In einem weiteren Schritt wird das Modell, welches aus historischen Daten erstellt wurde, auf aktuelle Daten angewandt und so eine Vorhersage ermöglicht.

3.

Warum Predictive Churn?

Die Omniga als Multi-Brand Unternehmen ist bei jedem ihrer Produkte zum einen auf Neukunden, aber zum anderen auch auf Bestandskunden angewiesen. Wie allgemein bekannt, ist die Neukundengewinnung wirtschaftlich gesehen nicht so attraktiv, wie die Bestandskundenpflege. Auf exakt die Pflege unserer Bestandskunden zielt Predictive Churn ab. Wir versuchen möglichst genau das Verhalten unserer Kunden zu analysieren, um ihnen die für sie passendsten Angebote anzubieten. Dadurch erlangen wir eine hohe Kundenzufriedenheit und davon abgeleitet ein minimiertes Kündigungsaufkommen.

3. Warum Predictive Churn?

Die Omniga als Multi-Brand Unternehmen ist bei jedem ihrer Produkte zum einen auf Neukunden, aber zum anderen auch auf Bestandskunden angewiesen. Wie allgemein bekannt, ist die Neukundengewinnung wirtschaftlich gesehen nicht so attraktiv, wie die Bestandskundenpflege. Auf exakt die Pflege unserer Bestandskunden spielt Predictive Churn ab. Wir versuchen möglichst genau das Verhalten unserer Kunden zu analysieren, um ihnen die für sie passendsten Angebote anzubieten. Dadurch erlangen wir eine hohe Kundenzufriedenheit und davon abgeleitet ein minimiertes Kündigungsaufkommen.

4.

Wie sind wir vorgegangen?

Bevor wir in die Erstellung verschiedener Machine Learning Modelle gegangen sind, haben wir uns zunächst verschiedene Kundenmerkmale herangezogen. Diese waren z. B.:

  • Zeitraum der Mitgliedschaft
  • Kunden mit Jahrespaketen
  • Kundenaccount nicht älter als 2016
  • Wenn Kündigung, dann nur gegen Ende der Laufzeit

Durch die Definition der Merkmale können wir die Betrachtungsgruppe und somit auch die Daten eingrenzen. Ohne diese Eingrenzung wären die Daten für eine sinnvolle Berechnung zu breit gefächert.

In einem zweiten Schritt haben wir diese Merkmale mit unserem Erfahrungsschatz gegenübergestellt. So konnten wir z. B. klar definieren, dass eine Kündigung um so unwahrscheinlicher wird, je länger der Kunde schon einen Vertrag hat. Diesen und weitere Punkte haben wir über den Jaccard-Koeffizient oder eine Korrelation miteinander verglichen. Dies ermöglichte es uns, Zusammenhänge in den Daten zu finden.

4. Wie sind wir vorgegangen?

Bevor wir in die Erstellung verschiedener Machine Learning Modelle gegangen sind, haben wir uns zunächst verschiedene Kundenmerkmale herangezogen. Diese waren z. B.:

  • Zeitraum der Mitgliedschaft
  • Kunden mit Jahrespaketen
  • Kundenaccount nicht älter als 2016
  • Wenn Kündigung, dann nur gegen Ende der Laufzeit

Durch die Definition der Merkmale können wir die Betrachtungsgruppe und somit auch die Daten eingrenzen. Ohne diese Eingrenzung wären es zu viele Daten für eine sinnvolle Berechnung.

In einem zweiten Schritt haben wir diese Merkmale mit unserem Erfahrungsschatz gegenübergestellt. So konnten wir z. B. klar definieren, dass eine Kündigung um so unwahrscheinlicher wird, je länger der Kunde schon einen Vertrag hat. Diesen und weitere Punkte haben wir über den Jaccard-Koeffizient oder eine Korrelation miteinander verglichen. Dies ermöglichte es uns, Zusammenhänge in den Daten zu finden.

5.

Welche Berechnungsmodelle haben wir verwendet?

Zunächst sei gesagt, dass sich nicht jedes Berechnungsmodell oder jeder Algorithmus für jeden Test eignet.  Zum einen gilt es, sowohl Unsupervised und Supervised Learning zu unterscheiden. Während dem Unsupervised Learning ein Clustering Algorithmus zugrunde liegt, ist es bei Supervised Learning ein Classification Algorithmus. Weiter gibt es Regressionen, welche stetige Werte (z. B. den Wert einer Immobilie) ausgeben und Klassifikationen, welche Gruppenzugehörigkeiten (z. B. möglichen Standort einer Immobilie) vorhersagen.

Bei unseren Berechnungen haben wir uns auf sechs verschiedene Modelle konzentriert:

  • Lineare Regression
  • Naïve Bayes
  • Support Vector Machine
  • Random Forest
  • Künstliches Neuronales Netz
  • Extreme Gradient Boosting

5. Welche Berechnungs-modelle haben wir verwendet?

Zunächst sei gesagt, dass sich nicht jedes Berechnungsmodell oder jeder Algorithmus für jeden Test eignet.  Zum einen gilt es, sowohl Unsupervised und Supervised Learning zu unterscheiden. Während dem Unsupervised Learning ein Clustering Algorithmus zugrunde liegt, ist es bei Supervised Learning ein Classification Algorithmus. Weiter gibt es Regressionen, welche stetige Werte (z. B. den Wert einer Immobilie) ausgeben und Klassifikationen, welche Gruppenzugehörigkeiten (z. B. möglichen Standort einer Immobilie) vorhersagen.

Bei unseren Berechnungen haben wir uns auf sechs verschiedene Modelle konzentriert:

  • Lineare Regression
  • Naïve Bayes
  • Support Vector Machine
  • Random Forest
  • Künstliches Neuronales Netz
  • Extreme Gradient Boosting

6.

Wie erfolgte die Modellberechnung?

Zunächst haben wir die Daten vorbereitet. Das heißt, wir haben User-IDs entfernt, verschiedene Bezahlmethoden gruppiert oder auch NULL-Werte entfernt. In einem zweiten Schritt haben wir unsere Daten dann in einen Test- und einen Trainingsdatensatz aufgeteilt.

Getestet haben wir dann die Performance der einzelnen Modelle im Vergleich zu den anderen Modelle. Es galt das Modell mit der höchsten Vorhersagekraft zu identifizieren. Die Vorhersagekraft setzt sich genauer zusammen aus der Güte der Klassenerkennung, der Vorhersagegenauigkeit und der korrekten Einteilung der Daten in die Gruppen True Positives, True Negatives, False Positives und False Negatives.

Um das genaueste Modell zu finden, haben wir stetig die Modellparameter angepasst und so die Features der Modelle kontinuierlich verbessert. Ziel war es ein Modell mit möglichst geringer False Ommission Rate und möglichst geringer False Discovery Rate zu erhalten. Für uns die beste Modellperformance erzielte Extreme Gradient Boosting. Hier erhielten wir z. B. eine False Discovery Rate von 2,61 %.

6. Wie erfolgte die Modell-berechnung?

Zunächst haben wir die Daten vorbereitet. Das heißt, wir haben User-IDs entfernt, verschiedene Bezahlmethoden gruppiert oder auch NULL-Werte entfernt. In einem zweiten Schritt haben wir unsere Daten dann in einen Test- und einen Trainingsdatensatz aufgeteilt.

Getestet haben wir dann die Performance der einzelnen Modelle im Vergleich zu den anderen Modelle. Es galt das Modell mit der höchsten Vorhersagekraft zu identifizieren. Die Vorhersagekraft setzt sich genauer zusammen aus der Güte der Klassenerkennung, der Vorhersagegenauigkeit und der korrekten Einteilung der Daten in die Gruppen True Positives, True Negatives, False Positives und False Negatives.

Um das genaueste Modell zu finden, haben wir stetig die Modellparameter angepasst und so die Features der Modelle kontinuierlich verbessert. Ziel war es ein Modell mit möglichst geringer False Ommission Rate und möglichst geringer False Discovery Rate zu erhalten. Für uns die beste Modellperformance erzielte Extreme Gradient Boosting. Hier erhielten wir z. B. eine False Discovery Rate von 2,61 %.

7.

Was geschieht mit dem erstellten Modell?

Theoretisch können mit Hilfe des Modells Kündigungen vorhergesagt und verhindert werden. Doch das Kundenverhalten ist nicht vorhersehbar. Deshalb haben wir uns für ein A/B-Testing zur Beurteilung des Modells entschieden. So wurden Kunden, welche laut unseren Parametern für das Modell in Frage kommen in zwei Gruppen aufgeteilt. Dabei wurden nur Kunden verwendet, welche nicht auch schon im Trainings- oder Testdatensatz vorhanden waren. Kunden der Gruppe A erhielten Angebote je nach Entscheidung des Modells. Kunden der Gruppe B erhielten keine Angebote. Beide Gruppen und deren Verhalten wurden über einen vorher definierten Zeitraum beobachtet. Während diesem Zeitraum haben wir die Kunden der Gruppe A mit verschiedenen Maßnahmen, wie z. B. Mailings mit individuellen Angeboten bespielt.  Abschließend wurde das Kündigungsverhalten der beiden Gruppen miteinander verglichen, um so auch die Modellgüte in der Praxis festzustellen.

7. Was geschieht mit dem erstellten Modell?

Theoretisch können mit Hilfe des Modells Kündigungen vorhergesagt und verhindert werden. Doch das Kundenverhalten ist nicht vorhersehbar. Deshalb haben wir uns für ein A/B-Testing zur Beurteilung des Modells entschieden. So wurden Kunden, welche laut unseren Parametern für das Modell in Frage kommen in zwei Gruppen aufgeteilt. Dabei wurden nur Kunden verwendet, welche nicht auch schon im Trainings- oder Testdatensatz vorhanden waren. Kunden der Gruppe A erhielten Angebote je nach Entscheidung des Modells. Kunden der Gruppe B erhielten keine Angebote. Beide Gruppen und deren Verhalten wurden über einen vorher definierten Zeitraum beobachtet. Während diesem Zeitraum haben wir die Kunden der Gruppe A mit verschiedenen Maßnahmen, wie z. B. Mailings mit individuellen Angeboten bespielt.  Abschließend wurde das Kündigungsverhalten der beiden Gruppen miteinander verglichen, um so auch die Modellgüte in der Praxis festzustellen.

Check out our mission-reports.

Anschnallen und Motoren zünden – bei uns ist ordentlich was los. Wirf einen Blick hinter die Kulissen von Omniga. Prepare yourself for a different kind of adventure.

Menü