KI – Entwicklung bald nur noch mit synthetischen Daten?

KI – Entwicklung bald nur noch mit synthetischen Daten?

28. Juni 2022 0 Von Horst Buchwald

KI – Entwicklung bald nur noch mit synthetischen Daten?

San Francisco, 28.6.2022

Aus einer Analyse von Bloomberg geht hervor, dass die Mehrheit der KI-Entwickler gefälschte oder „synthetische“ Daten einsetzen, um KI-Systeme zu trainieren und mögliche Verzerrungen zu vermeiden.

Die Daten haben die gleichen statistischen Eigenschaften wie reale Daten. Sie kommen bevorzugt zum Einsatz, wenn die benötigten Daten zu teuer oder nur selten vorkommen. Auch wenn sie gar nicht existieren oder es keinen Zugang zu ihnen gibt. Setzen die Entwickler synthetische ein.

Ein Beispiel ist die Website Yuty von Simi Lindgren, die Selfies analysiert, um Hautpflegeprodukte zu empfehlen. Lindgren wollte ein KI-System auf Gesichtsbildern trainieren, aber es fehlten ihr genügend Fotos von dunkelhäutigen Frauen. Stattdessen wandte sich Lindgren an General Adversarial Networks (GANs), um Hunderttausende von fotorealistischen Bildern von Menschen mit unterschiedlichen Hauttönen zu erstellen.

Siehe hier:

https://this-person-does-not-exist.com/de

https://research.aimultiple.com/synthetic-data/

Vor diesem Hintergrund prognostiziert Gartner: bis 2024 könnten etwa 60 % der Daten, die für KI- und Analyseprojekte verwendet werden, 2024 synthetisch generiert werden. Ab 2030 würden gefälschte Daten die echten Daten beim KI-Training überholen.

Nach Angaben von StartUs Insights produzieren inzwischen mehr als 50 Startups synthetische Daten als Dienstleistung. Zu den Unternehmen in diesem Bereich gehören Mostly AI, das synthetische Daten mithilfe von Algorithmen erzeugt, die auf den echten Daten eines Unternehmens trainiert wurden, und Datagen Technologies, eine Plattform, die synthetische Daten für Computer-Vision-Systeme erzeugt.