Deep Fakes sind in aller Munde. Je nach Auslegung und technologischem Verständnis stehen wir dabei kurz vor dem grossen Kontrollverlust über unser Gesicht und unsere Stimme oder aber vor dem nächsten logischen Schritt nach den Veränderungsmöglichkeiten von statischen Bildern mittels Photoshop und anderen Bildbearbeitungssoftware.

Meine Kolleginnen und Kollegen von SRF Data haben das Phänomen beleuchtet und zeigen hier auf, wie Deep Fake-Videos entstehen.

Was sind Deep Fakes?

Der Begriff setzt sich aus «deep learning» und «fake» zusammen – also dem Lernen von künstlicher Intelligenz mit der Absicht, eine gezielte Fälschung zu kreieren. Meist geht man dabei von Video-Manipulationen aus, bei welchen eine Software das Quellmaterial analysiert und einen Teil daraus extrahiert und in einem anderen Video wiederum einfügt und adaptiert. Am häufigsten verbreitet sind so genannte «face swaps» – also das Vertauschen von Gesichtern. Doch die Entwicklung geht weiter: Unlängst hat Adobe das Projekt Cloak vorgestellt, bei welchem eine intelligente Technologie hilft, spezifische Inhalte aus einem Video zu entfernen.

Wie entstehen Deep Fakes?

Während man früher zur Veränderung von Bewegtbild-Material kostspielige Software einsetzen musste und dies deshalb vor allem der Filmproduktion in Hollywood vorbehalten war, kann dies heute mit den entsprechenden Apps auf seinem Smartphone jeder Nutzer selbst tun. Das Resultat ist aktuell noch eine Annäherung, die schnell entlarvt werden kann. Doch mit einem etwas aufwändigeren Grafikprozess und der entsprechenden (frei verfügbaren) Software lassen sich bereits jetzt ziemlich professionell wirkende Deep Fakes entwickeln. Um «gute» Deep Fakes zu generieren, braucht es aktuell noch immer ca. 300-2000 Bilder als Quellmaterial, welche die künstliche Intelligenz analysieren muss, um daraus lernen zu können.

Wie verbreitet sind Deep Fakes?

Das Phänomen tauchte vor etwa einem Jahr in der breiten Öffentlichkeit zum ersten Mal auf. Damals berichtete Motherboard zum ersten Mal über bewusste Fälschungen, bei welchen die Gesichter von Celebrities in Porno-Videos eingebaut wurden. Weltweite Beachtung erhielt die Technologie, nachdem Forscher der University of Washington US-Präsident Barack Obama frei erfundene Worte in den Mund legten. Dies birgt auf den ersten Blick viele Gefahren und unzählige missbräuchliche Anwendungsfälle. Allerdings ist bisher noch kein Fall bekannt, in welchem ein Deep Fake-Video bewusst eingesetzt wurde, um politische Prozesse zu manipulieren oder gar Wahlen zu fälschen.

Wie können Deep Fakes entdeckt werden?

Prof. Ira Kemelmacher-Shlizerman der University of Washington argumentiert, dass wenn bekannt ist, wie solche Deep Fakes entstehen können, man auch umgekehrt eine Technologie entwickeln kann, die solche Deep Fakes wiederum aufdecken kann. Noch ist diese Gegenentwicklung in den Kinderschuhen: Zwei Forscher der New York State University in Albany haben in einem Versuch mit rund 25’000 Bildern ein lernendes System entwickelt, welches künftig Deep Fakes erkennen sollte. Neben der Forschung ist auch die Wirtschaft und das US-Militär daran, softwarebasierte Lösungen im Kampf gegen Deep Fakes zu entwickeln: So hat die GIF-Plattform Gfycat unlängst angekündigt, sie hätten ein Tool auf Basis von künstlicher Intelligenz entwickelt, welche Deep Fakes künftig entdecken und sperren soll. Und auch Facebook gibt an, mittels eines selbst entwickelten Tools Deep Fake-Videos in einem ersten Schritt aufspüren zu wollen, damit diese anschliessend manuell von Faktencheckern überprüft werden können.

Sämtliche dieser technologiegetriebenen Hilfen gegen Deep Fakes haben allerdings eines gemeinsam: Sie brauchen sehr viel Quellmaterial, um die nötige Intelligenz systematisch aufbauen zu können. Dies ist aktuell noch immer aufwändig und braucht vor allem viel Zeit. Deshalb ist mittelfristig noch immer die journalistische Verifikation dieser Inhalte der einzig realistische Weg im Kampf gegen Deep Fakes.

Wie können Deep Fakes verifiziert werden?

Wie immer bei der Verifikation handelt sich um einen mehrstufigen Prozess, welcher einem Puzzle-Spiel gleicht. Hier 8 Schritte zur Verifikation von Deep Fakes:

1. Flackernde Gesichter

Starten wir mit dem Offensichtlichen: flackernde Gesichter. Bei vielen Deep Fakes sehen die Gesichter noch immer seltsam aus. Die Übergänge zwischen Gesicht und Hals oder den Haaren passen zum Teil nicht zusammen. Wenn alles andere normal aussieht, aber das Gesicht seltsam wirkt, handelt es sich wahrscheinlich um eine Fälschung.

2. Übereinstimmung von Gesicht und Körper

Ebenfalls offensichtlich, aber vielleicht auf den ersten Blick doch vernachlässigt: passt der Körper zum Gesicht oder stimmt die Körperhaltung mit der Mimik überein? Die meisten Deep Fakes sind in erster Linie Gesichtsvertauschungen – Veränderungen am Körper können nur mit grossem Aufwand umgesetzt werden. Wenn die Person also merklich schwerer, leichter, grösser oder kleiner und plötzlich sonstige Auffälligkeiten hat (zB. Tattoos, ausgeprägte Muskeln, andere Hautfarbe), deutet das ebenfalls auf eine Fälschung hin.

3. Länge der Aufnahme

Kurze Clips. Obwohl die Technologie bereits sehr einfach anwendbar ist, sind die Lernprozesse für die Herstellung von Deep Fakes noch immer aufwändig. Deshalb sind die meisten Deep Fake-Clips, die geteilt werden, nur ein paar Sekunden lang. Soll also ein sehr kurzer Clip eines unglaubwürdigen Inhalts verifiziert werden und es keinen ersichtlichen Grund gibt, warum die Aufnahme so kurz ist, dann ist dies oft ein Hinweis, dass es sich um eine Fälschung handelt.

4. Ursprungsquelle der Aufnahme

In diesem Zusammenhang hilft auch die Suche nach der Ursprungsquelle der Aufnahme – also die Person oder der Account, welche/r das Video als erstes geteilt hat. Vielfach hilft dies, um den Kontext der Publikation herauszufinden und um zu überprüfen, ob das Quellmaterial vielleicht doch ausführlicher war.

5. Ton zur Aufnahme

Nicht nur das Bild entlarvt Deep Fake-Videos, sondern auch der Ton. Deep Fake-Software beschränkt sich häufig auf die Veränderung des Bildes, nicht aber um die Anpassung des Tons. Ist also der Ton nicht vorhanden oder passt er nicht zur Bild-Aufnahme – zum Beispiel bei schlecht umgesetzter Lippensynchronisation – deutet dies wiederum auf einen Fake hin.

6. In halber Geschwindigkeit Details erkennen

Details beachten: Beim Verifizieren von Video-Inhalten ist es ausserdem hilfreich, das Video in halber Geschwindigkeit abspielen zu lassen. So fallen kleine Unstimmigkeiten zum Beispiel auch im Hintergrund einer Person oder bei plötzlichen Veränderungen im Bild schneller auf.

7. Unscharfer Mundinnenraum

Software zum Erstellen von Deep Fakes können bisher zwar Gesichter bereits ziemlich gut transferieren, aber der Teufel steckt bekanntlich im Detail. So ist eine gewisse Unschärfe im Mundinnenraum ein weiterer Hinweis darauf, dass es sich um eine gefälschte Aufnahme handeln könnte. Künstliche Intelligenz hat aktuell nämlich noch immer Mühe damit, die Zähne, die Zunge und den Mundinnenraum beim Sprechen korrekt darzustellen.

8. Blinzeln beachten

Ein weiterer Hinweis kann das Blinzeln der sprechenden Person darstellen: Gesunde erwachsene Menschen blinzeln alle 2-8 Sekunden. Dieses Blinzeln kann zwischen einer Zehntels- und Viertelssekunde dauern. Davon könnte man demnach ausgehen, um gefälschte Videos zu entlarven, denn die meiste Software kann das Blinzeln aktuell noch nicht normal umsetzen.

Welche Tipps zur Verifikation von Deep Fakes kennen Sie? Schreiben Sie es mir in die untenstehenden Kommentare oder melden Sie sich via Twitter (@konradweber) – ich bin gespannt auf Ihre Antwort.


Je mehr Daten im Internet frei zugänglich sind, desto wichtiger wird deren journalistische Aufbereitung. In einer dreiteiligen Serie habe ich Tipps gesammelt, wie Daten aus dem Netz – im Speziellen der Social Networks – überprüft und verifiziert werden können.


Lesen und teilen Sie diesen Artikel auch in Englisch auf meinem Medium-Blog.

5 Kommentare

  1. Gut gemacht, Konrad! Danke für die Hinweise. Ich schaue genauer hin, weiss jetzt auch, dass der Mundinnenraum entscheidend ist🐸

  2. Die in den Punkten 1, 2, 5 und 6 genannten Schritte sind möglich aufgrund der Resultate schlechter Arbeit.
    Unlängst hat Nvidia seine neuen Grafikkarten mit Raytracing-Unterstützung in Hardware vorgestellt.
    Ein unscharfer Mundinnenraum ist dann genauso Gschichte wie fehlerhaftes Blinzeln.

    In kürzester Zeit werden nur noch die jounalistischen Methoden zur Aufdeckung übrig bleiben.

  3. Direktlink: YouTube-Empfehlungen, Social Media und Depressionen, 💪-👩‍🔬-Bot

  4. Direktlink: Fragwürdige YouTube-Empfehlungen, Social Media und Depressionen

  5. Lachhaft, davon ausgegangen das die meisten “Deep Fakes” von amateure hergestellt wurden; Sind deine “Methoden” ebenfalls dem Profi-Niveau gewachsen? Das einzige was ich hierraus beziehen kann ist das wir uns alle (das Volk) uns gegenseitig nicht über den Weg trauen sollen – Weiterhin wird die Legitimität deren bewahrt die die Mitteln zur Produktion von nahezu perfekte “Fakes” haben, sowie die meisten Film-Produktion Studios der Welt.

    Da wir in einen Unmoralischen Zeitalter leben, erahneich ein Zeitpunkt in der die Mainstream Medien auf täglicher Basis “Deep Fakes” herstellen werden und wir diese konsumieren wollen werden. Denn, was ist Wahrheit? Meistens das woran die Mehrheit glaubt. Funktioniert ein wenig wie das Prinzip einer Religion!

    Ich meine, bei solch Technologie geht es wohl eher um die Frage “Wann?” anstatt “Warum?”. Denken Sie an Videospiele, TV, das internet und vor kurzem beginnend der “VR craze”.

Hinterlassen Sie einen Kommentar

Deine E-Mail-Adresse wird nicht veröffentlicht. Erforderliche Felder sind mit * markiert.