Die KI von SenseTime erzeugt realistische Deepfake-Videos
22. Januar 2020Die KI von SenseTime erzeugt realistische Deepfake-Videos
Hongkong, 22.1.2020
SenseTIme und akademische Forscher stellten zu Beginn der Woche eine Methode zur Bearbeitung von Zielportraitaufnahmen vor, bei der eine Audiosequenz zur Synthese fotorealistischer Videos verwendet wird. In einem Online-Bericht beschrieben die Forscher, wie die neue Methode zur Erstellung von Deepfakes „einzigartig ist, weil sie hochdynamisch ist“
Somit werden Deepfakes – also Medien, die eine Person in ein bestehendes Bild, eine Audio- oder Videoaufnahme aufnehmen und durch das Abbild eines anderen ersetzen – immer überzeugender. Auf diesem lukrativen Markt herrscht insbesondere in Asien starker Wettbewerb.
Ende 2019 entwickelten Forscher des in Seoul ansässigen Unternehmens Hyperconnect ein Werkzeug (MarioNETte), das die Gesichtszüge einer historischen Figur, eines Politikers oder eines CEOs mit nichts anderem als einer Webcam und Standbildern manipulieren kann.
Kürzlich schlug ein Team des in Hongkong ansässigen Technikgiganten SenseTIme, der Technologischen Universität Nanyang und des Instituts für Automation der Chinesischen Akademie der Wissenschaften eine Methode zur Bearbeitung von Zielporträtfotos vor, bei der Tonsequenzen zur Synthese fotorealistischer Videos verwendet werden. Im Gegensatz zu MarioNETte ist die Technik von SenseTime dynamisch, d.h. sie ist in der Lage, besser mit Medien umzugehen, denen sie noch nie zuvor begegnet ist. Und die Ergebnisse sind beeindruckend, wenn auch beunruhigend angesichts der jüngsten Entwicklungen im Zusammenhang mit Deepfakes.
Die Koautoren der Studie, die die Arbeit beschreiben, stellen fest, dass die Aufgabe der „Many-to-Many-Übersetzung“ von Audio-zu-Video – d.h. eine Übersetzung, die keine einzige Identität von Quell- und Zielvideo voraussetzt – eine Herausforderung darstellt. Typischerweise steht nur eine geringe Anzahl von Videos zur Verfügung, um ein KI-System zu trainieren, und jede Methode muss mit großen Audio-Video-Variationen zwischen den Probanden und dem Fehlen von Kenntnissen über Szenengeometrie, Materialien, Beleuchtung und Dynamik zurechtkommen.
Zur Bewältigung dieser Herausforderungen verwendet das Team den Ausdrucksparameter Raum oder die vor Beginn des Trainings festgelegten Werte für die Gesichtsmerkmale als Zielraum für das Audio-Video-Mapping. Sie sagen, dass dies dem System hilft, das Mapping effektiver zu lernen als volle Pixel, da Ausdrücke semantisch relevanter für die Audioquelle und durch die Erzeugung von Parametern durch maschinelle Lernalgorithmen manipulierbar sind.
Die von den Forschern generierten Expressionsparameter – kombiniert mit Geometrie- und Posenparametern der Zielperson – erzeugen die Rekonstruktion eines dreidimensionalen Gesichtsnetzes mit derselben Identität und Kopfhaltung wie das Ziel, aber mit Lippenbewegungen, die mit den Quellaudio-Phonemen (wahrnehmbare unterschiedliche Toneinheiten) übereinstimmen. Eine spezialisierte Komponente sorgt dafür, dass die Übersetzung von Audio in Ausdruck agnostisch gegenüber der Identität des Quellaudios bleibt, so dass die Übersetzung robust gegenüber Variationen in den Stimmen verschiedener Personen und dem Quellaudio ist. Und das System extrahiert Merkmale – Landmarken – aus der Mundregion der Person, um sicherzustellen, dass jede Bewegung präzise abgebildet wird, indem sie zunächst als Heatmaps dargestellt und dann mit Frames im Quellvideo kombiniert werden, wobei die Heatmaps und Frames als Input verwendet werden, um eine Mundregion zu vervollständigen.
Die Forscher sagen, dass in einer Studie, in der 100 Freiwillige damit beauftragt wurden, den Realismus von 168 Videoclips zu bewerten, von denen die Hälfte vom System synthetisiert wurde, synthetisierte Videos in 55 % der Fälle als „real“ bezeichnet wurden, während 70,1 % der Zeit für die Grundwahrheit verwendet wurden. Sie führen dies auf die überlegene Fähigkeit ihres Systems zurück, Zähne und Details der Gesichtstextur sowie Merkmale wie Mundwinkel und Nasolabialfalten (die Einkerbungslinien auf beiden Seiten des Mundes, die sich vom Nasenrand bis zu den äußeren Mundwinkeln erstrecken) zu erfassen.
Die Forscher räumen ein, dass ihr System für „verschiedene böswillige Zwecke“, wie Medienmanipulation oder die „Verbreitung böswilliger Propaganda“, missbraucht oder missbraucht werden könnte. Als Abhilfemaßnahmen schlagen sie „Schutzmaßnahmen“ und die Verabschiedung und Durchsetzung von Gesetzen vor, um bearbeitete Videos als solche zu kennzeichnen. „Da wir bei der Entwicklung kreativer und innovativer Technologien an vorderster Front stehen, bemühen wir uns, Methoden zu entwickeln, um bearbeitete Videos als Gegenmaßnahme zu erkennen“, schrieben sie. „Wir ermutigen auch die Öffentlichkeit dazu, als Wächter zu fungieren und verdächtig aussehende Videos an die Behörden zu melden. Wenn wir zusammenarbeiten, können wir modernste und innovative Technologien fördern, ohne das persönliche Interesse der Öffentlichkeit zu beeinträchtigen.
Leider scheinen diese Vorschläge kaum geeignet, die Flut der von der KI erzeugten Deepfakes wie die oben beschriebenen einzudämmen. Das in Amsterdam ansässige Cybersicherheits-Startup Deeptrace fand bei seiner letzten Zählung im Juni und Juli 14.698 Deepfake-Videos im Internet, gegenüber 7.964 im vergangenen Dezember – ein Anstieg um 84% innerhalb von nur sieben Monaten. Das ist nicht nur deshalb beunruhigend, weil Deepfakes nicht nur dazu benutzt werden könnten, die öffentliche Meinung beispielsweise während einer Wahl zu beeinflussen oder jemanden in ein Verbrechen zu verwickeln, das er nicht begangen hat, sondern auch, weil die Technologie bereits pornographisches Material erzeugt und Firmen um Hunderte von Millionen Dollar betrogen hat.