AutoML [Teil 2]: Nützliche Bibliotheken

Welche Auto-ML Bibliotheken in Python helfen das richtige ML-Modell für Finanz- und Risikoprozesse zu finden?

In ersten Teil haben wir automatisiertes Machine Learning (kurz Auto-ML) als einen schnellen Weg vorgestellt um viele Experimente automatisch durchführen zu können und um dadurch gute ML-Modelle für einen Anwendungsfalls zu finden. Heute stellen wir drei Open-Source Bibliotheken für die Programmiersprache Python vor, die dieses automatisierte Finden mit geringem Nutzeraufwand ermöglichen.

  1. Auto-Sklearn ist eine Bibliothek für Auto-ML, die sich nahtlos mit Scikit-Learn (der verbreitetsten ML-Bibliothek für Python schlechthin) integrieren lässt. Sie enthält viele Datenaufbereitungsmethoden und optimiert viele der bekannten Klassifikation- und Regressionsmodelle aus Scikit-Learn. Durch einen Kompromiss zwischen Modellleistung und Trainingszeit kann die Experimentierzeit auf ein absolutes Minimum konfiguriert werden. Um den potentiellen Leistungsverlust bei ML-Modellen zu beheben, kombiniert die Bibliothek die besten Modelle zu einem Ensemble.

  2. TPOT ist eine weitere Auto-ML Bibliothek, die ihre Schwerpunkte auf Datenaufbereitung, Modellkonfiguration und Hyperparameter setzt. Der Name steht für Tree-based Pipeline Optimization Tool (TPOT), weil die Modellpipeline eine Baum-ähnliche Struktur hat. Die TPOT Optimierung für ML-Modelle dauert länger als bei Auto-Sklearn, aber dafür ist die resultierende Leistung meist auch robuster.

  3. ML-Box ist eine Auto-ML Bibliothek, die nicht nur die statistische Datenaufbereitung und Hyperparameter-Optimierung übernimmt, sondern auch das Auslesen und Bereinigen von Datensätzen. Gerade das initiale Auslesen und Bereinigen ist oft manuell und bei vielen ML-Projekten zeitaufwändig, was somit erleichtert werden kann. Des Weiteren ermöglicht ML-Box die Wartbarkeit von ML-Modellen im Einsatz, in dem es den sog. Datendrift überwacht und korrigiert. Datendrift ist die langsame Änderung der Daten im Laufe der Zeit, die zu einer Verschlechterung der Modellgenauigkeit führen kann.

 
 

Anstatt ihre Zeit und Energie auf das Testen vieler Datenaufbereitungsmethoden, vieler ML-Modelle und vieler Hyperparameter zu verwenden, können Experten im Finanz- und Risikobereich somit ihr Fachwissen auf die Feinstimmung vorselektierter ML-Modelle aus dem Auto-ML-Prozess konzentrieren.