OLS mit vorgelagerter Lasso Regression

Bei der Analyse stiller Lasten / Reserven können lineare Zusammenhänge zwischen mehreren Parametern mithilfe von Machine Learning gefunden werden.

Im Artikel zum linearen OLS-Modell wird dargestellt, wie man sich eine lineare Regression mit nur einem Regressor (Feature) vorstellen kann. In der Praxis gibt es fast ausschließlich Prozesse, bei denen mehr als nur ein Regressor in Frage kommt, sollte ein linearer Zusammenhang existieren. Allerdings kann dies zu dem Problem führen, dass ein großer Teil der Features wenig bis gar keinen oder sogar einen negativen Einfluss auf die Modellgüte haben.

Um die wichtigen Features zu selektieren, kann man ein vorgelagertes ML-Verfahren vor die OLS-Regression schalten, die sogenannte Lasso-Feature-Selektion (Least Absolute Shrinkage Selection Operator). Bei diesem Vorgehen soll die Ausgangsmenge an Features reduziert werden, um die Interpretierbarkeit zu verbessern.

Bei diesem Verfahren wird auch, analog zur linearen Regression, ein linearer Zusammenhang zwischen den Regressoren (Features) und dem Regressand (Prediction) gesucht. Es wird durch einen zusätzlichen additiven Term der Einfluss der einzelnen Features reguliert. Die Shrinkage Eigenschaft kann zu einer Elimination von unbedeutenden Features führen.

Nachdem ausschließlich die wichtigsten Features selektiert wurden, kann mit diesen nun erneut eine Regression durchgeführt werden - diesmal mit dem gewöhnlichen OLS-Modell. Damit lassen sich einfach und schnell lineare Zusammenhänge verschiedener Features untersuchen.

Die Gewichte der einzelnen Features erklären jeweils den Einfluss des Features auf das Ergebnis. Je höher das Gewicht eines Features ist, umso wichtiger ist dieses Feature für die Vorhersage. Aus diesem Grund gehört das lineare Modell zu den am einfachsten interpretierbaren Machine-Learning Modellen.

Ein ausführlicher Artikel zum Lasso-OLS-Ansatz findet sich unter folgendem Link

>> ML zur Analyse von Hidden Reserves / Losses

Use CasesIvan Balashov28. April 2022Finance, MachineLearning, Automatisierung