Zum Inhalt wechseln
LG4ML
  • Start
  • Idee
  • Projekte
  • Über uns
  • Wiki
  • Blog

Buzzwords

7
  • Transfer Learning
  • Machine Learning
  • Künstliche Intelligenz
  • Deep Learning
  • Data Science Workflow
  • Computer Vision
  • Big Data

Computer Vision

3
  • YOLOv4
  • Object Tracking
  • Frame Differencing

Grundlagen

14
  • Unüberwachtes Lernen
  • Überwachtes Lernen
  • Trainingsphase
  • Sampling
  • Regression
  • Preprocessing
  • Metrics
  • Klassifikation
  • Hyperparameter Tuning
  • Hyperparameter
  • Distanzmetriken
  • Data Science Workflow
  • Data Exploration
  • Cross Validation

Lernverfahren

8
  • Support Vector Machine
  • Principal Component Analysis
  • Perceptron
  • Logistische Regression
  • Lineare Regression
  • K-Nearest-Neighbours
  • K-Means
  • Decision Tree

Neuronale Netze

5
  • Verlustfunktion
  • Transfer Learning
  • Künstliches Neuron
  • Early Stopping
  • Aktivierungsfunktion

Preprocessing

8
  • Value Imputation
  • Scaling
  • Principal Component Analysis
  • Outlier Detection Basic
  • Outlier Detection Advanced
  • Frequenz Filter
  • Feature Engineering
  • Data Augmentation

Python Pakete

1
  • Data-Science Pakete
View Categories
  • Startseite
  • Docs
  • Preprocessing
  • Data Augmentation

Data Augmentation

4 min read

Data Augmentation meint die Veränderung von bestehenden Daten, um mehr Variation in die Trainingsdaten zu bekommen und damit Overfitting der Machine Learning Modelle zu vermeiden. Gerade bei kleinen Datensätzen kann durch Data Augmentation mehr oder weniger ein “größerer” Datensatz simuliert werden, da sich Input Daten durch die leichte Veränderung zwar ähnlich sind, aber nicht mehr identisch. Somit können Modelle nicht direkt einzelne Samples auswendig lernen, sondern müssen generalisieren und die wichtigen Merkmale extrahieren bzw. lernen. Data Augmentation kann viele verschiedene Formen haben, die im Wesentlichen durch die Art der Daten eingegrenzt bzw. festgelegt wird. In diesem Artikel werden verschiedene Methoden der Data Augmentation vorgestellt.

Bilder #

Gerade in der Klassifikation oder Segmentierung von Bildern sind die Neuronalen Netzwerke derart komplex, dass die Variation der Trainingsdaten durch Data Augmentation eine wichtige Rolle spielt. Ohne Data Augmentation neigen vor allem beim Transfer Learning Netze wie bspw. ResNet-50 sehr schnell zum Overfitting und lernen aufgrund der hohen Anzahl an Parametern alle Samples auswendig. Für Bilddaten gibt es ein breites Spektrum an Methoden zur Veränderung des originalen Inputbildes, wie die folgende Abbildung gut verdeutlicht.

Verschiedene Methoden der Data Augmentation auf Bilddaten (Quelle)

Die Data Augmentation kann entweder vor Beginn jeder Epoche auf die Trainingsdaten angewandt oder alternativ direkt in das Modell integriert werden. Bei letzterem werden verschiedene Layer verwendet, die etwa Operationen wie zufällige Rotation oder Skalierung auf den eingehenden Bilddaten vornehmen. Am meisten genutzt wird neben Rotation und Skalierung bzw. Cropping noch das Spiegeln entlang der horizontalen oder vertikalen Achse.

Zeitreihen #

Zeitreihen haben eine komplett andere Beschaffenheit bzw. Form als Bilder und dementsprechend auch andere Methoden für die Data Augmentation. Wichtig ist dabei, dass die grundlegende Form der Zeitreihe erhalten bleibt und Proportionen nicht übermäßig verändert werden. Beispielsweise würde es keinen Sinn machen, bei einem insgesamt fallenden Aktienkurs durch Cropping (wie bei Bildern) einen kleinere Ausschnitt zu betrachten. In diesem könnte der Kurs kurzfristig steigen und damit falsche Informationen ermitteln. Daher sollte die Zeitreihe immer als Ganzes behandelt werden und entsprechend bestehen bleiben. Nachfolgend werden zwei simple Methoden, die in der Abbildung verdeutlich werden, weiter erläutert.

Addition von Noise (mitte) und Skalierung (rechts) auf Zeitreihen-Daten
  • Hinzufügen von Noise: Auf jeden einzelnen Punkt der Zeitreihe werden Werte addiert, die aus einer Normalverteilung mit dem Mittelwert 0 stammen. Die Standardabweichung der Verteilung muss je nach Problemstellung gewählt werden, da nicht immer das gleiche Maß an Streuung benötigt wird. Bei kleinen Wertebereichen in der Zeitreihe würde ein zu großes Sigma bewirken, dass die Zeitreihe ihre generelle Form verliert und Zusammenhänge verloren gehen. Ein zu kleines Sigma dagegen würde zu Geringe Unterschiede bewirken, die Overfitting nicht verhindern könnten.
  • Streckung & Stauchung: Eine zweite Möglichkeit ist die Multiplikation der gesamten Zeitreihe mit einem festen Faktor, der aus einer Normalverteilung mit dem Mittelwert 1 gezogen wird. Ist der Faktor größer als 1 resultiert daraus eine Streckung, andernfalls wird die Zeitreihe gestaucht. In beiden Fällen bleiben die Zusammenhänge und Verläufe exakt erhalten, jedoch verändert sich der Wertebereich.

Text #

Für Data Augmentation auf Textdaten werden noch einmal gänzlich andere Methoden benötigt, da es sich nicht um numerische Daten handelt bzw. Text nicht sinnvoll als Zahlen dargestellt werden kann. Zur Veränderung von Sätzen gibt es unter anderem die folgenden Möglichkeiten:

  • Übersetzung: Der Satz wird in eine andere Sprache und anschließend zurück übersetzt. Dadurch werden Struktur und Wörter geändert und die Sätze sind nicht identisch.
  • Synonyme: Wörter werden durch ein Synonym mit der gleichen Bedeutung ersetzt.
  • Ergänzen & Löschen: Der Satz wird verändert, indem zufällig ein Synonym eingefügt oder ein Wort gelöscht wird.

Nach der Augmentation können die Sätze mit Verfahren wie Bag-of-Words oder Word Embedding in eine Zahlendarstellung umgewandelt und von Machine Learning Modellen verarbeitet werden.

Audio #

Audiosignale sind grundsätzlich ebenfalls Zeitreihen und können mit den obenstehenden Methoden der Data Augmentation transformiert werden. Wird das Audiosignal jedoch als Spektrogram dargestellt, gibt es eine andere Möglichkeit der Transformation. Das SpecAugment Verfahren funktioniert wie folgt:

  1. Die Spektrogramme werden standardisiert, wodurch der Mittelwert auf 0 gesetzt wird und die Standardabweichung bei 1 liegt.
  2. Aus den verfügbaren Frequenzbereichen werden n zufällig ausgewählt, wobei n als Parameter optimiert werden muss.
  3. Die Werte der gewählten Bereiche werden auf 0 (den Mittelwert) gesetzt und damit quasi “abgeschaltet”.

Durch dieses Vorgehen verhindert, dass Machine Learning Modelle nur einzelne Bereiche für die Entscheidungsfindung heranziehen, sondern die gesamten verfügbaren Informationen.

Weiterführende Links:
– What is Data Augmentation?: https://research.aimultiple.com/data-augmentation/
– Data Augmentation in NLP: https://neptune.ai/blog/data-augmentation-nlp
– SpecAugment: https://arxiv.org/abs/1904.08779v2

Updated on 04/07/2022

What are your Feelings

  • Happy
  • Normal
  • Sad
Share This Article :
  • Facebook
  • X
  • LinkedIn
  • Pinterest

Schreibe einen Kommentar Antworten abbrechen

Deine E-Mail-Adresse wird nicht veröffentlicht. Erforderliche Felder sind mit * markiert

Inhalt
  • Bilder
  • Zeitreihen
  • Text
  • Audio

LG4ML

Promoting Machine Learning from Lüneburg!

© 2025 LG4ML

Navigation

  • Kontakt
  • Datenschutzerklärung
  • Impressum

Folge uns auf

Github Slack Instagram

Made with 🍺 in Lüneburg.

Cookie-Hinweis
Wir verwenden Cookies auf unserer Website, um Ihnen die bestmögliche Erfahrung zu bieten, indem wir uns an Ihre Präferenzen und wiederholten Besuche erinnern. Wenn Sie auf "Alle akzeptieren" klicken, erklären Sie sich mit der Verwendung aller Cookies einverstanden. Sie können jedoch die Einstellungen besuchen, um eine kontrollierte Zustimmung zu erteilen.
EinstellungenAlle akzeptieren
Zustimmung verwalten

Privacy Overview

This website uses cookies to improve your experience while you navigate through the website. Out of these, the cookies that are categorized as necessary are stored on your browser as they are essential for the working of basic functionalities of the website. We also use third-party cookies that help us analyze and understand how you use this website. These cookies will be stored in your browser only with your consent. You also have the option to opt-out of these cookies. But opting out of some of these cookies may affect your browsing experience.
Necessary
immer aktiv
Necessary cookies are absolutely essential for the website to function properly. These cookies ensure basic functionalities and security features of the website, anonymously.
CookieDauerBeschreibung
cookielawinfo-checkbox-analytics11 monthsThis cookie is set by GDPR Cookie Consent plugin. The cookie is used to store the user consent for the cookies in the category "Analytics".
cookielawinfo-checkbox-functional11 monthsThe cookie is set by GDPR cookie consent to record the user consent for the cookies in the category "Functional".
cookielawinfo-checkbox-necessary11 monthsThis cookie is set by GDPR Cookie Consent plugin. The cookies is used to store the user consent for the cookies in the category "Necessary".
cookielawinfo-checkbox-others11 monthsThis cookie is set by GDPR Cookie Consent plugin. The cookie is used to store the user consent for the cookies in the category "Other.
cookielawinfo-checkbox-performance11 monthsThis cookie is set by GDPR Cookie Consent plugin. The cookie is used to store the user consent for the cookies in the category "Performance".
viewed_cookie_policy11 monthsThe cookie is set by the GDPR Cookie Consent plugin and is used to store whether or not user has consented to the use of cookies. It does not store any personal data.
Functional
Functional cookies help to perform certain functionalities like sharing the content of the website on social media platforms, collect feedbacks, and other third-party features.
Performance
Performance cookies are used to understand and analyze the key performance indexes of the website which helps in delivering a better user experience for the visitors.
Analytics
Analytical cookies are used to understand how visitors interact with the website. These cookies help provide information on metrics the number of visitors, bounce rate, traffic source, etc.
Advertisement
Advertisement cookies are used to provide visitors with relevant ads and marketing campaigns. These cookies track visitors across websites and collect information to provide customized ads.
Others
Other uncategorized cookies are those that are being analyzed and have not been classified into a category as yet.
SPEICHERN & AKZEPTIEREN