View Categories

Grundlagen

14 Beiträge

Unüberwachtes Lernen

Last Updated: 12/03/2022

Unüberwachtes Lernen ist ein der Teilgebiete des maschinellen Lernens und kann verwendet werden, um aus vorliegenden Daten Gruppen zu identifizieren.

Überwachtes Lernen

Last Updated: 12/03/2022

Überwachtes Lernen ist das größte Teilgebiet des maschinellen Lernens Die Lernverfahren basieren darauf, aus Beispielen Regeln und Zusammenhänge zu extrahieren.

Trainingsphase

Last Updated: 12/03/2022

In der Trainingsphase geht es darum, ein Modell so zu trainieren, dass es neue, unbekannte Daten möglichst gut klassifizieren bzw. vorhersagen können.

Sampling

Last Updated: 12/03/2022

Sampling ist ein Verfahren aus der Phase der Modelloptimierung und wird sehr häufig bei ungleichen Klassenverteilungen eingesetzt.

Regression

Last Updated: 12/03/2022

Regression meint die Vorhersage von stetigen Werten. Genauer gesagt wird ein Zusammenhang zwischen unabhängigen und einer abhängigen Variablen hergestellt.

Preprocessing

Last Updated: 12/03/2022

Beim Preprocessing geht es darum, Rohdaten umzuwandeln, zu reduzieren und aufzuräumen, um einen möglichst aussagekräftigen Datensatz zu erhalten.

Metrics

Last Updated: 11/03/2022

Metrics oder auch zu deutsch Metriken sind Kennzahlen, die zur Bewertung der Performance von Machine Learning Modellen genutzt werden. Je nach Art des Problems, also entweder Klassifikation oder Regression, stehen verschiedene Metriken zur Auswahl. Die Metriken werden jeweils berechnet, indem die wahren Werte (auch Ground Truth genannt) mit den Vorhersagen des Modells verglichen werden –...

Klassifikation

Last Updated: 12/03/2022

Klassifikation bezeichnet das Einordnen von einem Element in eine bestimmte Klasse. Ein simples Beispiel ist etwa die Unterscheidung zwischen Hunden und Katzen.

Hyperparameter Tuning

Last Updated: 12/03/2022

Hyperparameter Tuning meint die Optimierung der externen Parameter eines Modells und ist wesentlicher Bestandteil der Trainingsphase im Data Science Workflow.

Hyperparameter

Last Updated: 12/03/2022

Der Begriff Hyperparameter bezeichnet Parameter, die vor dem Durchlaufen des Trainings gesetzt werden und den modellspezifischen Algorithmus beeinflussen.

Distanzmetriken

Last Updated: 12/03/2022

Distanzmetriken oder auch Distanzmaße werden verwendet, um die Ähnlichkeit von Daten(-punkten) zu bestimmen und einen Vergleich zu ermöglichen.

Data Science Workflow

Last Updated: 12/03/2022

Der grundlegende Data Science Workflow gibt eine ungefähre Struktur vor, wie man bei Data Science und Machine Learning Projekten vorgehen kann, um am Ende ein nutzbares Modell als Ergebnis zu haben. Es gibt verschiedene Ansätze für das Projektmanagement und die einzelnen Abschnitte bieten jeweils nur eine ungefähre Empfehlung in Bezug auf die Reihenfolge im Workflow. Dieser Artikel zeigt daher verschiedene Handlungsmöglichkeiten der einzelnen Phasen auf und ist keinesfalls als strikte Anweisung zu verstehen, alle Data Science Projekte zukünftig genau so zu gestalten.

Data Exploration

Last Updated: 12/03/2022

Die Data Exploration bezeichnet den klassischen ersten Schritt in Datenanalyse-Projekten. Dabei wird der Datensatz auf Insights und Zusammenhänge untersucht.

Cross Validation

Last Updated: 12/03/2022

Cross Validation ist eine Methodik zur Evaluierung von Machine Learning Modellen und kommt daher in der Trainingsphase der Modelle zum Einsatz.