Datenaufbereitung & EDA [Teil 2]: 2 wichtige Python Bibliotheken

Wie kann man die Datenexploration für Finanz- & Risikoprozesse durch Python beschleunigen? - Ohne Programmierkenntnisse!

Im ersten Artikel wurden zwei Bibliotheken vorgestellt, die den langatmigen Prozess der Datenaufbereitung in Python automatisieren, ohne dass man auf den Komfort üblicher Spreadsheets verzichten muss. Dieses Mal werden zwei Python-Bibliotheken vorgestellt, mit denen man die explorative Datenanalyse (EDA) ebenfalls beschleunigen und vereinfachen kann.

Die EDA passiert oft zusammen mit der Datenaufbereitung. Die EDA ist der Prozess, erste Erkenntnisse aus Datensätzen zu gewinnen, bspw. durch deskriptive Statistiken und Datenvisualisierungen (aber ohne stat. Modellieren oder Machine-Learning). Auch hier ist das beliebteste, branchenübergreifende Tool MS Excel bzw. Google Sheets. Herkömmliche Spreadsheets haben jedoch auch viele Nachteile, da sie nur begrenzte Möglichkeiten zur Automatisierung oder zur Einbindung in andere Systeme bieten.

Daher möchten wir hier die zwei Python-Bibliotheken „Pandas-Profiling“ und „D-tale“ vorstellen, die Ihnen helfen, den Komfort von Excel beizubehalten und gleichzeitig Ihre EDA in den Gesamtzyklus des Datenprojekts zu integrieren. Sie verfolgen dabei den „Low-Code“-Ansatz, bei dem ein Benutzer keine Programmiererfahrung braucht.

Pandas-Profiling ist eine Python-Bibliothek speziell für EDA. Sie generiert vollautomatisch einen interaktiven Bericht für einen gegebenen Datensatz mit deskriptiven Statistiken und besondere Eigenschaften der Variablen, wie fehlende Werte oder doppelte Einträge. Außerdem werden hierzu auch gleich die passenden Grafiken wie Histogramme, Liniendiagramme, oder Korrelations-Heatmaps erstellt.

D-tale bietet viele der gleichen Funktionen wie Pandas-Profiling, aber macht sie als Einzelaktionen auch ad-hoc abrufbar. Darüber hinaus bietet es durch sein Excel-ähnliches Interface eine noch tiefgreifendere EDA, mit der Datensätze oder ihre Variablen bis ins Detail erforscht werden können. Ein weiteres Feature ist, dass jede Aktion des Benutzers in einer Historie dokumentiert werden kann, wodurch sie auch in Python-Code zur Automatisierung des EDA-Prozesses exportiert werden kann.

Dank Pandas-Profiling oder D-tale muss die EDA also nicht mühsam sein, sondern kann einfach und schnell umgesetzt werden.