
Mit ImageBind soll künftig komplexe Szenendarstellung gelingen
11. Mai 2023Mit ImageBind soll künftig komplexe Szenendarstellung gelingen
San Francisco, 11.5.2023
Mets veröffentlicht ein neues multimodales KI-Modell namens ImageBind als Open-Source-Tool. Obwohl sich ImageBind noch im Anfangsstadium befindet, fungiert es als Rahmen für die schließliche Erstellung komplexer Szenen und Umgebungen aus einer oder mehreren Eingaben, beispielsweise einer Text- oder Bildaufforderung.
Wenn ImageBind beispielsweise mit einem Bild eines Strandes gefüttert würde, könnte es das Geräusch von Wellen identifizieren. Ebenso könnte das System ein Video von beiden erstellen, wenn man ihm ein Foto eines Tigers zusammen mit dem Geräusch eines Wasserfalls zuspielt.
Das Modell arbeitet derzeit mit sechs Datentypen: Text, visuelle Daten (Bild/Video), Audio, Tiefe, Temperatur und Bewegung. Sein Ansatz ist vergleichbar mit der Art und Weise, wie Menschen Informationen über mehrere Sinne sammeln und Eingaben zwischen den verschiedenen Datenmodi in Beziehung setzen können.
Laut Meta vermittelt das Modell Maschinen ein „ganzheitliches Verständnis“, das Objekte auf einem Foto mit ihrem entsprechenden Klang, ihrer 3D-Struktur, ihrer Temperatur und ihrer Bewegung verknüpft.
Obwohl Meta es noch nicht als Produkt veröffentlicht hat, könnten die Anwendungen von ImageBind die Verbesserung der Suchfunktion für Fotos und Videos oder die Erstellung von Mixed-Reality-Umgebungen umfassen. Meta plant, die Datenmodi von ImageBind in Zukunft auf andere Sinne auszudehnen.
Aufrufe: 2