Mit ImageBind soll künftig komplexe Szenendarstellung gelingen

11. Mai 2023 0 Von Horst Buchwald

San Francisco, 11.5.2023

Mets veröffentlicht ein neues multimodales KI-Modell namens ImageBind als Open-Source-Tool. Obwohl sich ImageBind noch im Anfangsstadium befindet, fungiert es als Rahmen für die schließliche Erstellung komplexer Szenen und Umgebungen aus einer oder mehreren Eingaben, beispielsweise einer Text- oder Bildaufforderung.

Wenn ImageBind beispielsweise mit einem Bild eines Strandes gefüttert würde, könnte es das Geräusch von Wellen identifizieren. Ebenso könnte das System ein Video von beiden erstellen, wenn man ihm ein Foto eines Tigers zusammen mit dem Geräusch eines Wasserfalls zuspielt.

Das Modell arbeitet derzeit mit sechs Datentypen: Text, visuelle Daten (Bild/Video), Audio, Tiefe, Temperatur und Bewegung. Sein Ansatz ist vergleichbar mit der Art und Weise, wie Menschen Informationen über mehrere Sinne sammeln und Eingaben zwischen den verschiedenen Datenmodi in Beziehung setzen können.

Laut Meta vermittelt das Modell Maschinen ein „ganzheitliches Verständnis“, das Objekte auf einem Foto mit ihrem entsprechenden Klang, ihrer 3D-Struktur, ihrer Temperatur und ihrer Bewegung verknüpft.

Obwohl Meta es noch nicht als Produkt veröffentlicht hat, könnten die Anwendungen von ImageBind die Verbesserung der Suchfunktion für Fotos und Videos oder die Erstellung von Mixed-Reality-Umgebungen umfassen. Meta plant, die Datenmodi von ImageBind in Zukunft auf andere Sinne auszudehnen.

KategorieHeader

GPTZero debunks any text written with ChatGTP

With ImageBind complex scene representation should succeed in the future

Mit ImageBind soll künftig komplexe Szenendarstellung gelingen

Schreibe einen Kommentar Antwort abbrechen

Rechtliches:

Kategorien:

Kontakt: