143108a Object Recognition in Image and Video Data

Zuletzt geändert:	10.12.2024 / Özkan
EDV-Nr:	143108a
Studiengänge:	Computer Science and Media (Master), Prüfungsleistung im Modul Object Recognition in Image and Video Data in Semester 1 2 3 Häufigkeit: nur SS
Dozent:	Florian Strohm
Sprache:	Deutsch
Art:	-
Umfang:	4 SWS
ECTS-Punkte:	5
Workload:	Vorlesung: 10 x 4 SWS = 30 Zeitstunden Vor- und Nachbearbeitung: 10 x 6 SWS = 40 Zeitstunden Vertiefung des vereinbarten Themas und Präsentation 80 Zeitstunden Gesamt: 150 Zeitstunden
Prüfungsform:
Bemerkung zur Veranstaltung:	Unterrichtssprache Englisch
Beschreibung:	**** Wichtiger Hinweis zum Sommersemester 2020 * Die Veranstaltung wird während der SARS-CoV-2-bedingten Beschränkungen im Sommersemester 2020 zunächst als synchroner Distance-Learning-Kurs angeboten. Den zugehörige Zoom-Link werde ich vor dem 20.04. in die Gruppe der online registrierten User im persönlichen Stundenplan posten. Es gilt der Stundenplan laut Starplan. Neuigkeiten zur Vorlesung finden Sie auch unter Homepage der Vorlesung Falls oder wenn wir uns wieder in Hörsälen treffen dürfen, gilt der jeweils in Starplan angegebene Raum. ****************************************************************** Das Ziel der Computer Vision ist es, Maschinen in die Lage zu versetzen, Daten aus Bildern und Videos zu sehen und zu verstehen. Um dieses Ziel zu erreichen, ist die zentrale Aufgabe der Computer Vision die Objekterkennung. Aufgrund der immensen Zunahme von Bild- und Videodaten, die von Digitalkameras geliefert und im Internet zur Verfügung gestellt werden, sind intelligente Systeme zur Überwachung, Suche, Filterung und automatischen Organisation der visuellen Daten dringend erforderlich. In den letzten Jahren hat Deep Learning die Anwendungen der Objekterkennung revolutioniert. Diese Vorlesung gibt einen umfassenden Einblick in den Stand der Technik der Objekterkennungsmethoden und -algorithmen und stellt moderne Anwendungen vor, in denen diese Techniken eingesetzt werden. Bewährte Methoden der Bildverarbeitung, Filterung, Merkmalsextraktion und des maschinellen Lernens werden ebenso behandelt wie die neuesten und leistungsfähigsten Deep Learning-Architekturen. In den ersten ca. 10 Wochen werden die wichtigsten Verfahren im Kontext der Objekterkennung in Form einer Vorlesung vorgestellt. Danach wählen die Studierenden ein Thema aus, das sie in Gruppenarbeit vertiefen und am Ende des Semesters in einer 30-minütigen Präsentation vorstellen. Der erste Block** der Vorlesung setzt sich mit der Frage auseinander, wie robuste Merkmale aus Bild- und Videodaten extrahiert werden können. Robuste Merkmale sollten möglichst invariant hinsichtlich Translation und Rotation, variierender Lichtverhältnisse, unterschiedlicher Skalierungen usw. sein. Unterschieden werden dabei globale und lokale Merkmale. Letztere beziehen sich nicht auf das Bild als ganzes, sondern auf im Bild vorkommende Objekte bzw. Objektteile. Inhalte dieses ersten Blocks sind: Globale Features: Intensität, Gradienten globale Histogramme (z.B. Farbhistogramme) Principal Component Analysis (PCA) Lokale Features: Erkennung (Detection) von Keypoints wie Kanten und Ecken Beschreibung (Description) von Keypoints durch z.B. SIFT: Scale Invariant Feature Transform SURF: Speeded Up Robust Features HOG: Histogram of Oriented Gradients Gegenstand des zweiten Blockes sind die verfahren für Detection, Recognition, Segmentation und Tracking. Detection bezeichnet den Fall, dass nach einem vorgegebenen Objekttyp, z.B. einem Gesicht oder einem Fußgänger, in Bildern gesucht wird. Die entsprechenden Algorithmen stellen fest, ob der gesuchte Typ im Bild vorkommt und falls ja an welchen Stellen. Moderne Digitalkameras können mit derartigen Verfahren Gesichter im Bildausschnitt erkennen und auf diese fokusieren. Recognition Verfahren müssen erkennen welche Objekte bzw. Objektkategorien in einem Bild vorkommen. Die entsprechenden Systeme müssen hierfür zunächst trainiert werden. Die maschinellen Lernverfahren, die sich hierfür in den vergangenen Jahren als besonders performant erwiesen haben, werden in dieser Vorlesung behandelt. Hierzu gehören u.a. SVM - Classifier, Ada-Boost oder tiefe neuronale Netze. Segmentation zerlegt ein Bild in die in ihm vorkommenden Objekte und Szenen. Segmentierungsverfahren finden die Grenzen zwischen den Objekten. Dadurch kann z.B. der Hintergrund subtrahiert oder einzelne Objete extrahiert werden. Beim Tracking werden Objekte in Videodaten erkannt und verfolgt. Damit kann die Objektbewegung über die Zeit aufgenommen werden. Eingesetzt werden Trackingalgorithmen z.B. in Überwachungskameras oder im Eyetracking.
English Title:	Object Recognition
Internet:	Homepage der Vorlesung