Lineare Regression

Lineare Regressionen zählen zu den grundlegendsten Algorithmen des maschinellen Lernens in der Kategorie der Regression. Die Regression ist ein überwachter Lernalgorithmus, der im Falle der linearen Regression einen linearen Zusammenhang zwischen unabhängigen und abhängigen Variablen annimmt. Bei einem Datensatz mit n Parametern ist die Gleichung gegeben durch

Y= w₀ + w₁ x₁ + … + wₙ xₙ + 𝜀

Y ist die abhängige Variable, 𝑥ₙ der Wert der unabhängigen Variablen in der n-ten Dimension, 𝜀 der Fehlerterm und wₙ das Gewicht, also der durchschnittliche Effekt einer Erhöhung von 𝑥ₙ um eine Einheit auf Y, wobei alle anderen Variablen unverändert bleiben. Die Optimierungsfunktion ist hierbei der Abstand der Datenpunkte zu den Modellvorhersagen, bzw. die Summe aller Fehlerquadrate. Es wird also für die Trainingsdaten jene Gerade gefunden, die den geringsten durchschnittlichen Abstand zu allen Datenpunkten hat. 

Anwendung in Python #

Lineare Regression mit einer unabhängigen Variablen
# Regression in Python
import numpy as np

best_fit = np.poly1d(np.polyfit(x=x_values, y=y_values, deg=1))

y_pred = best_fit(10)

Der obige Code berechnet wie zuvor beschrieben die optimalen Parameter für die Datenpunkte (x_values und y_values) und kann anschließend für neue x-Werte den entsprechenden y-Wert berechnen.

Weiterführende Links:
Linear Regression Example: https://scikit-learn.org/stable/auto_examples/linear_model/plot_ols.html
Linear Regression using Python: https://towardsdatascience.com/linear-regression-using-python-b136c91bf0a2

Schreibe einen Kommentar