Google präsentiert Text- Bild- Generator
25. Mai 2022Google präsentiert Text- Bild- Generator
San Francisco, 25.5.2022
Google hat Imagen vorgestellt, ein KI-System, das Wortbeschreibungen in fotorealistische Bilder umwandelt. Der Text-Bild-Generator soll Bilder erzeugen, die realistischer und lebensechter wirken als OpenAIs DALL-E 2. Wie dieses KI-Modell hat Google es nicht der Öffentlichkeit zugänglich gemacht.
Das Imagen-Diffusionsmodell gibt Zeichnungen, Ölgemälde, CGI-Renderings und vieles mehr (siehe Grafik oben) auf der Grundlage einer schriftlichen Eingabeaufforderung von Benutzern aus.
Die Entwickler von Imagen, das Google Research’s Brain Team, erklärte, dass es aufgrund von Transformator- und Bilddiffusionsmodellen einen noch nie dagewesenen Fotorealismus erreicht.
Google behauptet, dass die menschlichen Bewerter Imagen in Bezug auf Bildtreue und Bild-Text-Ausrichtung gegenüber „allen anderen Modellen“ bevorzugt haben.
Es gibt jedoch einige beunruhigende Probleme:
Imagen wird auf Datensätzen aus dem Internet trainiert und kann daher schädliche Stereotypen und Vorurteile widerspiegeln, so Google.
Das Modell schnitt bei der Erzeugung menschlicher Gesichter schlechter ab als bei anderen Dingen. Es zeigt eine Vorliebe für Bilder von Menschen mit heller Haut und porträtiert Berufe, die mit westlichen Geschlechterstereotypen übereinstimmen“.
Bei der Erstellung von Bildern von Ereignissen, Objekten und Aktivitäten kodiert Imagen „soziale und kulturelle Vorurteile“, so Google.
Aus diesen und anderen Gründen hat Google Imagen noch nicht für die Öffentlichkeit freigegeben, obwohl es den Nutzern erlaubt, es anhand von vorgewählten Phrasen auf der Imagen-Website auszuprobieren.