CRISP DM Industriestandard von IBM [Teil 1]: Eine branchenübergreifende Methodik für die Entwicklung von ML-Modellen

In diesem Artikel geht es um CRISP DM, einen der gebräuchlichsten Industriestandards, um ML-Modelle für den Einsatz als Softwarekomponente oder zur Prozessautomatisierung zu entwickeln.

Dieses Akronym steht für den „Cross-Industry Standard Process for Data Mining“ und beschreibt eine besonders iterative und qualitätsorientierte Entwicklungsmethodik. Diese Methodik wurde u.a. mit Finanz- und Versicherungsunternehmen erarbeitet und ist durch IBM bekannt geworden. Die Vorteile dieser Methodik umfassen, dass sie nicht nur anwendungs- & lösungsneutral ist, sondern dass sie auch den Einbezug von relevanten Stakeholdern für eine fachgerechte Lösung gewährleistet.

 
 
 

Im Wesentlichen besteht die CRISP-DM aus 6 Schritten (siehe auch Diagramm):

  • Geschäftsproblem

  • Datenbeschaffung

  • Datenaufbereitung

  • Modellierung

  • Evaluation

  • Einsatz/Anwendung

Die Reihenfolge der Schritte ist nicht streng festgelegt; der Prozess erfolgt iterativ. D.h. die während eines Schrittes gewonnenen Erkenntnisse können die vorherigen und nachfolgenden Schritte immer wieder beeinflussen. So kann eine explorative Datenaufbereitung bspw. neue, fokussiertere Geschäftsfragen anstoßen oder die Modellierungsmethode eingrenzen. Selbst nach Einsatz eines ML-Modells wird geschaut, ob das eingesetzte Modell oder die gegebenen Daten das Geschäftsproblem tatsächlich lösen bzw. voranbringen konnten. Das Wiederholen jener Schritte bringt auch immer wieder die verschiedenen Stakeholder des Projekts zusammen und führt somit zu einer kontinuierlichen Qualitätssteigerung.

Gerade diese Eigenschaften machen die CRISP-DM-Methodik nicht nur branchenübergreifend beliebt für ML-Projekte, sondern auch speziell in der Finanz- & Risikobranche.