Metrics

Metrics oder auch zu deutsch Metriken sind Kennzahlen, die zur Bewertung der Performance von Machine Learning Modellen genutzt werden. Je nach Art des Problems, also entweder Klassifikation oder Regression, stehen verschiedene Metriken zur Auswahl. Die Metriken werden jeweils berechnet, indem die wahren Werte (auch Ground Truth genannt) mit den Vorhersagen des Modells verglichen werden – also allgemein ausgedrückt als

metric = f(y-true, y-pred)

wobei die Funktion f je nach Metric variiert. Nachfolgend werden die wichtigsten Metriken für Klassifikation und Regression vorgestellt.

Regression #

Da Regressionsprobleme kontinuierlich sind, geben alle Metriken im Bereich der Regression an, wie weit die wahren Werte und die Vorhersagen auseinander liegen – also wie groß die Differenz zwischen ihnen ist. Dabei werden die folgenden drei Metriken am häufigsten verwendet:

  • Mean Absolute Error (MAE): Der Mean-Absolute-Error gibt an, wie weit die Vorhersagen mit Mittel absolut von den wahren Werten abweichen. Da nur die absolute Differenz betrachtet wird, werden große Abweichungen  im Verhältnis genau so viel bestraft wie Abweichungen.
  • Mean Squared Error (MSE): Der Mean-Squared-Error gibt an, wie groß im Mittel die quadrierten Abweichungen zwischen wahren Werten und Vorhersagen sind. Im Gegensatz zum Mean Absolute Error fallen große Abweichungen mehr ins Gewicht, da die Abweichung quadriert wird. Beim MSE ist zu beachten, dass die Metrik nicht direkt auch die Skalenbereiche der Werte gelegt werden kann.
  • Root Mean Squared Error (RMSE): Der Root-Mean-Squared-Error ist die Wurzel des MSE. Der Vorteil des RMSE besteht unter anderem darin, dass eine direkte Vergleichbarkeit mit der Skala der Werte besteht.

Klassifikation #

Klassifikationsprobleme beschäftigen sich mit einer endlichen Anzahl an Klassen, in die Datenpunkte eingeordnet werden. Die Metriken für Klassifikation basieren darauf zu überprüfen, ob ein Datenpunkt in die richtige Klasse eingeordnet wurde oder nicht. Nachfolgend wird zunächst die sogenannte Confusion Matrix vorgestellt. Daran können dann die weiteren Metriken erläutert und gezeigt werden.

Confusion Matrix #

Generell stellen Konfusionsmatrizen einen Vergleich zwischen tatsächlicher Klasse (Label) und vorhergesagter Klasse (Prediction) dar. Je nachdem wie viele Klassen das Problem hat, gibt es entsprechend viele Einträge auf den Seiten und damit Zellen in der Matrix. Die Felder in der Diagonale stehen für richtig klassifizierte Datenpunkte, alles weiteren Felder stellen die fehlerhaft klassifizierten Datenpunkte dar. Die Konfusionsmatrix für binäre Klassifikationsprobleme besteht aus nur 2*2=4 Feldern. Sie könnte bspw. so aussehen: 

Abbildung 1: Binäre Konfusionsmatrix. TN = True Negatives, TP = True Positives, FN = False Negatives, FP = False Positives (Quelle)

Für binäre Probleme werden korrekte Predictions auch als True Positives und True Negatives bezeichnet, also vorhersagen, die korrekt getroffen wurden. Falsche Punkte werden als False Positives (= fälschlicherweise als positiv klassifiziert) bzw. False Negatives (= fälschlicherweise  bezeichnet. Daraus ergeben sich die folgenden Metriken:

  • Accuracy = Anzahl korrekt vorhergesagter Datenpunkte / Anzahl aller Datenpunkte
  • Recall (auch Sensitivity genannt)
    = Anzahl vorhergesagter Positives / Anzahl aller Positives
    = Anteil der korrekt als Positiv vorhersagten Punkte
    = (True Positives) / (True Positives + False Negatives)
  • Specificity = Anzahl vorhergesagter Negatives / Anzahl aller Negatives
    = Anteil der korrekt als Negativ vorhersagten Punkte)
    = (True Negatives) / (True Negatives + False Positives)
  • Precision = Anzahl korrekt als Positiv vorhergesagter Punkte / Anzahl aller als Positives vorhergesagten Punkte
    = (True Positives) / (True Positives + False Positives)
  • F1-Score = 2 * [ (Precision * Recall) / (Precision + Recall) ]

Eine Konfusionsmatrix für ein Klassifikationsproblem mit mehr als zwei Klassen könnte bspw. so aussehen:

Abbildung 2: Eine Konfusionsmatrix für ein Klassifikationsproblem mit 13 Klassen (Quelle).

Weiterführende Links:
Confusion matrix (Scikit-Learn): https://scikit-learn.org/stable/auto_examples/model_selection/plot_confusion_matrix.html 
Accuracy, Precision, Recall or F1: https://towardsdatascience.com/accuracy-precision-recall-or-f1-331fb37c5cb9 
Data Science Performance Metric for Everyone: https://towardsdatascience.com/data-science-performance-metrics-for-everyone-4d68f4859eef 

Schreibe einen Kommentar