Beschreibung:
|
****** Wichtiger Hinweis zum
Sommersemester 2020 *****
Die Veranstaltung wird während der SARS-CoV-2-bedingten Beschränkungen
im Sommersemester 2020 zunächst als synchroner Distance-Learning-Kurs
angeboten. Den zugehörige Zoom-Link werde ich vor dem 20.04. in die Gruppe der online registrierten User im persönlichen Stundenplan posten. Es gilt der Stundenplan laut Starplan. Neuigkeiten zur Vorlesung finden Sie auch unter Homepage der Vorlesung
Falls oder wenn wir
uns wieder in Hörsälen treffen dürfen, gilt der jeweils in Starplan
angegebene Raum.
**********************************************************************
Das Ziel der Computer Vision ist es, Maschinen in die Lage zu versetzen, Daten aus Bildern und Videos zu sehen und zu verstehen. Um dieses Ziel zu erreichen, ist die zentrale Aufgabe der Computer Vision die Objekterkennung. Aufgrund der immensen Zunahme von Bild- und Videodaten, die von Digitalkameras geliefert und im Internet zur Verfügung gestellt werden, sind intelligente Systeme zur Überwachung, Suche, Filterung und automatischen Organisation der visuellen Daten dringend erforderlich. In den letzten Jahren hat Deep Learning die Anwendungen der Objekterkennung revolutioniert.
Diese Vorlesung gibt einen umfassenden Einblick in den Stand der Technik der Objekterkennungsmethoden und -algorithmen und stellt moderne Anwendungen vor, in denen diese Techniken eingesetzt werden. Bewährte Methoden der Bildverarbeitung, Filterung, Merkmalsextraktion und des maschinellen Lernens werden ebenso behandelt wie die neuesten und leistungsfähigsten Deep Learning-Architekturen.
In den ersten ca. 10 Wochen werden die wichtigsten Verfahren im Kontext der Objekterkennung in Form einer Vorlesung vorgestellt. Danach wählen die Studierenden ein Thema aus, das sie in Gruppenarbeit vertiefen und am Ende des Semesters in einer 30-minütigen Präsentation vorstellen.
Der erste Block der Vorlesung setzt sich mit der Frage auseinander, wie robuste Merkmale aus Bild- und Videodaten extrahiert werden können. Robuste Merkmale sollten möglichst invariant hinsichtlich Translation und Rotation, variierender Lichtverhältnisse, unterschiedlicher Skalierungen usw. sein. Unterschieden werden dabei globale und lokale Merkmale. Letztere beziehen sich nicht auf das Bild als ganzes, sondern auf im Bild vorkommende Objekte bzw. Objektteile.
Inhalte dieses ersten Blocks sind:
Globale Features:
- Intensität, Gradienten
- globale Histogramme (z.B. Farbhistogramme)
- Principal Component Analysis (PCA)
Lokale Features:
- Erkennung (Detection) von Keypoints wie Kanten und Ecken
- Beschreibung (Description) von Keypoints durch z.B.
- SIFT: Scale Invariant Feature Transform
- SURF: Speeded Up Robust Features
- HOG: Histogram of Oriented Gradients
Gegenstand des zweiten Blockes sind die verfahren für Detection, Recognition, Segmentation und Tracking.
Detection bezeichnet den Fall, dass nach einem vorgegebenen Objekttyp, z.B. einem Gesicht oder einem Fußgänger, in Bildern gesucht wird. Die entsprechenden Algorithmen stellen fest, ob der gesuchte Typ im Bild vorkommt und falls ja an welchen Stellen. Moderne Digitalkameras können mit derartigen Verfahren Gesichter im Bildausschnitt erkennen und auf diese fokusieren.
Recognition Verfahren müssen erkennen welche Objekte bzw. Objektkategorien in einem Bild vorkommen. Die entsprechenden Systeme müssen hierfür zunächst trainiert werden. Die maschinellen Lernverfahren, die sich hierfür in den vergangenen Jahren als besonders performant erwiesen haben, werden in dieser Vorlesung behandelt. Hierzu gehören u.a. SVM - Classifier, Ada-Boost oder tiefe neuronale Netze.
Segmentation zerlegt ein Bild in die in ihm vorkommenden Objekte und Szenen. Segmentierungsverfahren finden die Grenzen zwischen den Objekten. Dadurch kann z.B. der Hintergrund subtrahiert oder einzelne Objete extrahiert werden.
Beim Tracking werden Objekte in Videodaten erkannt und verfolgt. Damit kann die Objektbewegung über die Zeit aufgenommen werden. Eingesetzt werden Trackingalgorithmen z.B. in Überwachungskameras oder im Eyetracking.
|