fbpx
KI-Pedia

Was ist maschinelles Sehen?

31. Mai 2018
Maschinelles Sehen
Lass dir den Text vorlesen
Subscribe

Benötigte Lesezeit: 2 Minuten

Maschinelles Sehen (engl. Computer Vision) ist ein Teilbereich des maschinellen Lernens. Computer identifizieren wiederkehrende Muster in Bildern und erkennen so Objekte wie z.B. eine Katze. (Was wäre das Internet ohne Katzen?)

Grundlage für diese Technologie ist eine umfassende Bilddatenbank, die das Tier in unterschiedlichen Positionen, Belichtungen oder Umgebungen darstellt. Noch vor wenige Jahren wurden Maschinen durch die manuelle Vorgabe von Begriffen trainiert. Menschen gingen Bild für Bild durch und tagten jede Datei einzeln mit dem treffenden Begriff. Heute entwickeln Tech-Experten komplexe Modelle (künstliches neuronales Netz), die versuchen das menschliche Sehen und Verstehen nachzuahmen. Maschinen benötigen keine Tags mehr, sondern lernen eigenständig.

So funktioniert maschinelles Sehen

Ein Algorithmus klassifiziert dazu jedes einzelne Foto und weist dem dargestellten Objekt eigenständig Schlagworte zu. Stark vereinfacht, wird dazu ein Raster über ein Foto gelegt, welches das Bild in viele einzelne Quadrate unterteilt. Jedes einzelne Viereck symbolisiert ein Merkmal. Die Features mehrerer Bilder werden dann automatisch verglichen und Muster erkannt. Anschließend wird berechnet, mit welcher Wahrscheinlichkeit das Objekt tatsächlich z.B. eine Katze ist. Die Maschine “sieht” also visuelle Inhalte mit Hilfe von Statistik und Informatik.

Anwendungsbeispiele für maschinelles Sehen

Auf diese Weise ist etwa Google in der Lage eine Katze mit 80%iger Genauigkeit zu identifizieren und benötigt dafür gerade mal 40 Zeilen Code. Diese Zahl sollte jedoch nicht unterschätzt werden. Denn der dafür benötigte Programmiervorgang ist komplex und langwierig. 

Maschinelles Sehen steckt z.B. hinter der Google Fotosuche oder der Google Fotos App. Weitere Anwendungsbeispiele sind die Gesichtserkennung, etwa beim Hochladen von Bildern auf Facebook, oder die visuelle Suche. Facebook kombiniert die Bildklassifizierung außerdem mit der Verarbeitung natürlicher Sprache: Das  automatisch erkannte Objekt wird zusätzlich laut ausgesprochen. So können auch Blinde visuelle Inhalte verstehen.

Mein Fazit: Maschinelles Sehen hat in den letzten Jahren riesige Fortschritte gemacht und bereichert nun unseren (visuellen) Alltag. Dennoch können komplexere Zusammenhänge noch nicht vollständig durch Maschinen erfasst werden. Das menschliche Auge bleibt am Ende der Sieger beim Erkennen von Bildinhalten.

Wer sich im Detail mit dem technischen Hintergrund vertraut machen möchte, dem empfehle ich den kostenlosen (englischsprachigen) Online-Kurs von Google zum Thema Bildklassifizierung. Alternativ hilft dieses YouTube-Video von Phils Physics die Hintergründe zu verstehen.

Quellen:

www.techcrunch.com/2016/04/30/why-image-recognition-is-about-to-transform-business/

https://developers.google.com/machine-learning/practica/image-classification/

www.research.fb.com/category/computer-vision/

Titelbild: Photo by c ● n t e s s a, EyeEm

Diese Beiträge dürften dir gefallen

Kein Kommentar

Jetzt kommentieren