Institut für Kognitionswissenschaft

Institute of Cognitive Science


Osnabrück University navigation and search


Main content

Top content

Sprachbasierte KI als besseres Modell des menschlichen Sehens

Das menschliche Gehirn ist ein Meister des Sehens. Es extrahiert, scheinbar spielerisch, reichhaltige Informationen aus den Lichtmustern, die unsere Netzhaut erreichen. Obwohl es uns leichtfällt zu sehen, sind die zugrunde liegenden Berechnungen im Gehirn überaus komplex. Ein dementsprechend großer Bereich der computergestützten visuellen Neurowissenschaften beschäftigt sich deshalb damit, diese komplexen Vorgänge zu verstehen. Bisher war die Lehrbuchmeinung, dass ein Ziel der visuellen Berechnungen ist, Objektkategorien zu erkennen (also z.B. Stuhl, Auto, Schlüssel, ...). Aber ist das die ganze Geschichte? In diesem Forschungsprojekt konnten wir mit Hilfe von KI dieses derzeit vorherrschende Verständnis des Sehens auf den Kopf stellen. Wir konnten zeigen, dass KI-Sprachmodelle, entgegen der Erwartung, die besseren Modelle des Sehens sind. Hierfür haben wir natürliche Szenen mit einfachen Sätzen beschrieben und diese den KI-Sprachmodellen gegeben. Die resultierenden Aktivierungsmuster im Modell zeigten erstaunliche Ähnlichkeit zu den Aktivierungsmustern im Gehirn während des Betrachtens der Bilder. Ein sprachbasierter Code als Ziel der visuellen Verarbeitung? Ein Paradigmenwechsel.

Beteiligte Forschungsgruppe: Maschinelles Lernen