Regression

Regression bzw. das Verb regressieren meint im Gegensatz zur Klassifikation (Zuordnung eines Punktes zu einer Klasse) die Vorhersage von stetigen Werten. Genauer gesagt wird ein Zusammenhang zwischen einer oder mehrerer unabhängigen Variablen und einer abhängigen Variablen hergestellt. Beispielsweise könnte ein Ziel sein, Aktienkurse in Abhängigkeit von den Einnahmen und der Branchenzugehörigkeit eines Unternehmens vorherzusagen. Abhängige Variablen können dabei wie die Einnahmen stetiger oder wie die Branche kategorischer Art sein. Die unabhängigen Variablen werden auch als Regressoren bezeichnet, die Zielvariable/n als Target/s.
Grundlegend unterscheidet man zwischen den folgenden zwei Arten der Regression:

Lineare Regression
Wie der Name aussagt, beschreibt die lineare Regression einen linearen Zusammenhang zwischen unabhängigen und einer abhängigen Variablen. Im Falle eines Regressors wird die Gerade durch eine Gleichung der Form y=m*x+b beschrieben, allgemein formuliert ergibt sich
y = w0 * x0 + w1 * x1 + … + wn * xn
Dabei steht w jeweils für die Gewichtung der n verschiedenen Regressoren x.
Nicht-Lineare Regression
In diesem Falle besteht kein linearer Zusammenhang zwischen Regressoren und Target, bzw. eine lineare Regression könnte den Zusammenhang nur sehr ungenau und mit hohen Abweichungen abbilden. Der Zusammenhang kann dabei etwa wie in der Abbildung polynomisch sein, jedoch auch zyklische Form haben (z.B. Zeitreihen von Daten). Unabhängig von der Art der Korrelation werden auch bei der Nicht-Linearen Regression die Regressoren gewichtet, um das Target vorhersagen zu können.

Anwendungsfälle der Regression #

Regressionen finden immer dann Anwendung, wenn die Daten nicht sinnvoll in Klassen eingeteilt werden können und die Ausgabe von kontinuierlichen Werten eine hohe Bedeutung hat. Jedoch lässt sich jedes Regressions-Problem in ein Klassifikations-Problem umwandeln, indem der Wertebereich in Abschnitte, sogenannte Bins, unterteilt wird , die dann eine Klasse bilden. Beispielweise ließe sich die Herzfrequenz, die als kontinuierliches Target gesehen werden kann, in Bereiche unterteilen (die zum Beispiel eine bestimmte Belastung widerspiegeln) und damit in ein Klassifizierungs-Problem umwandeln.

Ähnlich zur Klassifikation gib es verschiedene Lernverfahren bzw. Regressions-Algorithmen, die sich je nach Problemstellung mehr oder weniger eignen. Generell gilt, dass Klassifikations-Algorithmen in den meisten Fällen auch zur Regression verwenden lassen können. So gibt es analog zum K-Nearest-Neighbour-Klassifikator ebenfalls den K-Nearest-Neighbour-Regressor. Die Funktionsweise ist dabei sehr ähnlich, nur dass im Falle der Regression die kontinuierlichen Werte verwendet werden an Stelle von Klassen.

Weiterführende Links:
Introduction to Machine Learning Algorithms: Linear Regression: https://towardsdatascience.com/introduction-to-machine-learning-algorithms-linear-regression-14c4e325882a
Classification and Regression by randomForest: https://cogns.northwestern.edu/cbmg/LiawAndWiener2002.pdf
Risk prediction with machine learning and regression methods: https://onlinelibrary.wiley.com/doi/full/10.1002/bimj.201300297

Schreibe einen Kommentar