Computer Vision

Objekterkennung mit Hilfe eines vortrainierten Modells mit über 90 verschiedenen Klassen.

Computer Vision bezeichnet den Vorgang bzw. die Fähigkeit, einem Computer menschenähnliches Sehen beizubringen bzw. dieses zu simulieren. Ziel ist es dabei, aufgenommene Bilder zu analysieren und verwertbare Informationen daraus zu extrahieren. Auf methodischer Ebene unterscheidet man zwischen zwei wesentlichen Vorgängen.

  1. Objekterkennung (engl. Object Detection): Im ersten Schritt müssen zunächst für das Ziel relevante Objekte innerhalb eines Bildes erkannt werden. Dies kann zum einen über klassische Verfahren der Bildverarbeitung (z.B. Frame-Differencing) erfolgen. Deutlich genauer sind Neuronale Netze, die auf Basis großer Datenmengen trainiert worden sind und im Bild alle bekannten Objekte erkennen. Ein Beispiel für ein solches Netz ist YOLO (You only look once), das auch für die Objekterkennung der oberen Abbildung verwendet wurde.
  2. Objektverfolgung (engl. Object Tracking): Im zweiten Schritt können Objekte innerhalb eines Videos, also aufeinander folgenden Bildern, verfolgt werden. Alleine durch die Objekterkennung weiß ein Computer ledigleich, dass beispielsweise ein Auto gefunden wurde. Er weiß jedoch nicht, dass es sich um das gleiche Auto handelt wie im vorherigen Bild. Diese Aufgabe wäre für einen Menschen gar kein Problem, in zwei Bildern das gleiche Auto festzumachen, ist jedoch für den Computer mit einem gewissen Aufwand verbunden. Über unterschiedliche Verfahren, auf die an dieser Stelle jedoch nicht näher eingegangen werde soll, können Objekte aus einem Bild vorherigen Objekten zugeordnet werden. Dadurch weiß dann auch der Computer, dass es sich um das gleiche Auto handelt. Erst durch das Tracking können weitergehende Informationen gewonnen werden, ob ein Auto etwa nach links oder rechts fährt.

Anwendungen: Computer Vision findet in immer mehr Bereichen Anwendung und gewinnt dementsprechend an Bedeutung. Wohl am bekanntesten ist der Bereich des autonomen Fahrens, bei dem Computer Vision die Basis bildet. Aber auch Anwendungen aus der Zahntechnik sind zu nennen, wo unter anderem aus Einzelbildern ein 3-dimensionales Modell des Kiefers erstellt werden kann.

Weiterführende Links:
Basics Computer Vision: https://towardsdatascience.com/opencv-complete-beginners-guide-to-master-the-basics-of-computer-vision-with-code-4a1cd0c687f9
YOLO-Objekterkennung: https://arxiv.org/abs/2004.10934
Projektideen: https://data-flair.training/blogs/computer-vision-project-ideas/