Wie Deepfakes mehrere Personen & verschiedene Winkel mit konsistenten Gesichtern meistern

Die Kompromisse zwischen Deepfakes mit mehreren Personen, Kamerawinkeln und stabiler Gesichtsidentität

Die Erstellung von Deepfakes mit mehreren Personen oder die Aufnahme derselben Person aus verschiedenen Winkeln stellt besondere technische Herausforderungen dar. Dasselbe Gesicht muss über Frames, Winkel und Interaktionen mit anderen Gesichtern hinweg konsistent bleiben – ein Problem, das grundlegende Einschränkungen der aktuellen Deepfake-Technologie offenbart.

Das Wichtigste in Kürze

Deepfake-Systeme haben Schwierigkeiten, eine konsistente Gesichtsidentität beizubehalten, wenn dieselbe Person mehrmals in einer Szene oder aus verschiedenen Blickwinkeln erscheint.
Deepfakes mit mehreren Personen bringen zusätzliche Herausforderungen mit sich: Jedes Gesicht erfordert eine separate Verarbeitung, was den Rechenaufwand erhöht und das Risiko einer Identitätsdrift steigert.
Unterschiedliche Kamerawinkel zeigen verschiedene Gesichtszüge, was es für die KI schwieriger macht, eine einheitliche Darstellung derselben Person beizubehalten.
Diskussionen in der Community zeigen, dass Nutzer häufig auf das Vertauschen von Gesichtern („Face Swapping“) zwischen Personen oder auf allmähliche Identitätsveränderungen über die Frames hinweg stoßen.
Aktuelle Lösungen erfordern Kompromisse zwischen Verarbeitungszeit, Qualität und Konsistenz – in der Regel können nicht alle drei Faktoren gleichzeitig optimiert werden.

Das Problem mit mehreren Personen

Wenn ein Deepfake-Video mehrere Personen enthält, muss jedes Gesicht separat verarbeitet werden. Dies führt zu mehreren miteinander verbundenen Herausforderungen.

Warum mehrere Gesichter die Deepfake-Generierung erschweren

Jede Person in einer Szene erfordert:

Separate Gesichtserkennung und -verfolgung (Face Tracking): Das System muss jedes Gesicht unabhängig identifizieren und verfolgen.
Individuelle Identitätskodierung: Jedes Gesicht erhält eine eigene Repräsentation im KI-Modell.
Unabhängige Verarbeitungspipelines: Gesichter werden nacheinander ausgetauscht oder modifiziert.
Konsistente Ergebnisse für alle Personen: Alle Gesichter müssen realistisch aussehen und ihre Identität behalten.

Die Rechenkomplexität steigt ungefähr linear mit der Anzahl der Gesichter. Eine Szene mit drei Personen benötigt bei ähnlichen Qualitätseinstellungen etwa dreimal so lange zur Verarbeitung wie eine Szene mit nur einer Person.

Was bei der Verarbeitung mehrerer Gesichter passiert

Nutzer berichten von mehreren häufigen Problemen bei der Arbeit mit Deepfakes mit mehreren Personen:

Vermischung der Gesichtsidentitäten

„Ich habe versucht, die Gesichter in einem Gruppenfoto auszutauschen, und nach der Hälfte des Videos fing das Gesicht von Person A an, wie das von Person B auszusehen. Die KI war verwirrt, welches Gesicht zu wem gehört.“

Dies geschieht, weil Algorithmen zur Gesichtsverfolgung den Überblick darüber verlieren können, welches Gesicht zu welcher Person gehört, insbesondere wenn sich Gesichter überlappen, sich schnell bewegen oder ähnlich aussehen.

Inkonsistente Qualität zwischen den Gesichtern

„Die Hauptperson sieht perfekt aus, aber die Person im Hintergrund ist verschwommen und verzerrt. Es ist, als ob der KI die Rechenleistung für das zweite Gesicht ausgegangen ist.“

Wenn die Rechenressourcen begrenzt sind, priorisieren Deepfake-Systeme oft die Hauptperson, was dazu führt, dass sekundäre Gesichter mit geringerer Qualität oder unvollständiger Verarbeitung dargestellt werden.

Zeitliche Inkonsistenzen

Selbst wenn jedes Gesicht seine Identität beibehält, bleiben sie möglicherweise nicht über die Zeit hinweg konsistent. Das Gesicht einer Person könnte in Frame 50 etwas anders aussehen als in Frame 1, während das Gesicht einer anderen Person stabil bleibt. Dies erzeugt einen unnatürlichen Effekt, bei dem Gesichter unterschiedlich schnell zu „altern“ oder sich zu verändern scheinen.

Das Problem mit unterschiedlichen Kamerawinkeln

Dieselbe Person sieht aus verschiedenen Kamerawinkeln unterschiedlich aus. Dies stellt eine grundlegende Herausforderung für Deepfake-Systeme dar.

Warum Kamerawinkel wichtig sind

Ein von vorne betrachtetes Gesicht zeigt andere Merkmale als dasselbe Gesicht von der Seite:

Frontalansicht: Augen, Nase und Mund sind deutlich sichtbar.
Profilansicht: Nur eine Seite des Gesichts ist sichtbar, mit anderen Proportionen.
Dreiviertelansicht: Eine Mischung aus Frontal- und Seitenmerkmalen.
Extreme Winkel: Der Blick nach oben oder unten verändert die Gesichtsproportionen dramatisch.

Deepfake-Systeme werden in der Regel mit Gesichtern aus verschiedenen Winkeln trainiert, aber die Aufrechterhaltung der Konsistenz, wenn dieselbe Person in demselben Video aus unterschiedlichen Winkeln erscheint, ist schwierig.

Was Nutzer erleben

Identitätsdrift bei wechselnden Blickwinkeln

„Wenn die Kamera um die Person schwenkt, verändert sich ihr Gesicht. Es ist immer noch als dieselbe Person erkennbar, aber irgendetwas fühlt sich falsch an – als ob sich die Gesichtszüge mit jedem Winkelwechsel leicht verschieben.“

Dies geschieht, weil das KI-Modell Gesichtsmerkmale je nach Blickwinkel unterschiedlich kodiert. Wenn sich der Winkel ändert, kann das System zwischen verschiedenen internen Darstellungen wechseln, was zu subtilen Identitätsverschiebungen führt.

Inkonsistenzen bei Merkmalen

Bestimmte Gesichtsmerkmale lassen sich möglicherweise nicht gut über verschiedene Winkel hinweg übertragen:

Augen: Können aus verschiedenen Winkeln unterschiedlich groß oder geformt erscheinen.
Nase: Profilansichten offenbaren eine Nasenstruktur, die in Frontalansichten nicht sichtbar ist.
Gesichtssymmetrie: Asymmetrien werden je nach Winkel mehr oder weniger sichtbar.
Hauttextur: Beleuchtung und Schatten ändern sich mit dem Winkel, was das Erscheinungsbild der Haut beeinflusst.

Der „Uncanny Valley“-Effekt

Wenn Gesichter über verschiedene Winkel hinweg keine perfekte Konsistenz aufweisen, bemerken die Zuschauer, dass etwas nicht stimmt, auch wenn sie das spezifische Problem nicht benennen können. Dies erzeugt einen „Uncanny Valley“-Effekt, bei dem der Deepfake fast, aber nicht ganz echt wirkt.

Die kombinierte Herausforderung: Mehrere Personen + mehrere Kamerawinkel

Wenn eine Szene mehrere Personen enthält UND die Kamera sich bewegt, um verschiedene Winkel zu zeigen, summieren sich die Probleme.

Warum dies besonders schwierig ist

Stellen Sie sich eine Szene mit drei Personen vor, in der sich die Kamera um 180 Grad dreht:

Jede Person muss eine konsistente Identität bewahren.
Jede Person muss aus jedem Winkel realistisch aussehen.
Alle Personen müssen im Verhältnis zueinander konsistent bleiben.
Die Szene muss über die gesamte Drehung hinweg zeitlich kohärent bleiben.

Dies erfordert vom System, mehrere Identitäten über mehrere Winkelrepräsentationen gleichzeitig zu verfolgen – eine rechenintensive Aufgabe, die oft die aktuellen Fähigkeiten übersteigt.

Reale Szenarien, in denen dies scheitert

Gruppengespräche

„Ich habe versucht, ein Deepfake von einer Gruppendiskussion zu erstellen. Wenn sich die Leute einander zuwandten, verformten sich ihre Gesichter leicht. Die Person links fing an, wie die Person rechts auszusehen.“

In Gruppensituationen wenden sich Menschen natürlich einander zu, was zu Winkeländerungen führt. Deepfake-Systeme haben Schwierigkeiten, unterschiedliche Identitäten aufrechtzuerhalten, wenn mehrere Winkeländerungen gleichzeitig stattfinden.

Tanz- oder Bewegungssequenzen

„Ich wollte eine Tanzszene mit mehreren Darstellern erstellen. Während sie sich bewegten und die Kamera ihnen folgte, drifteten die Gesichter. Am Ende des Videos ähnelten einige Gesichter kaum noch den Originalen.“

Schnelle Bewegungen in Kombination mit Kamerabewegungen erzeugen schnelle Winkeländerungen für mehrere Personen. Aktuelle Systeme können unter diesen Bedingungen die Konsistenz nicht aufrechterhalten.

Massenszenen

„Figuren im Hintergrund von Massenszenen sehen aus einem Winkel gut aus, aber wenn sich die Kamera bewegt, werden sie verzerrt oder tauschen ihre Identität mit Personen in der Nähe.“

Massenszenen stellen die ultimative Herausforderung dar: viele Gesichter, viele Winkel und begrenzte Rechenressourcen pro Gesicht.

Technische Einschränkungen hinter den Problemen

Um zu verstehen, warum diese Probleme auftreten, muss man sich ansehen, wie Deepfake-Systeme tatsächlich funktionieren.

Einschränkungen bei der Gesichtskodierung

Deepfake-Systeme kodieren Gesichter in mathematische Darstellungen, sogenannte „latente Räume“. Diese Darstellungen funktionieren gut für einzelne Gesichter bei konsistenten Winkeln, haben aber ihre Grenzen:

Winkelspezifische Kodierungen: Das System kann unterschiedliche Kodierungen für Frontal- und Profilansichten verwenden.
Begrenzte Trainingsdaten: Die meisten Trainingsdaten zeigen Gesichter aus gängigen Winkeln, nicht aus extremen oder ungewöhnlichen.
Kodierungskonflikte: Wenn dieselbe Person aus mehreren Winkeln erscheint, muss das System unterschiedliche Kodierungen miteinander in Einklang bringen.

Rechnerische Beschränkungen

Die Verarbeitung mehrerer Gesichter aus mehreren Winkeln erfordert erhebliche Rechenressourcen:

Szenario	Ungefähre Verarbeitungszeit (vs. Einzelgesicht, Frontalansicht)
Einzelnes Gesicht, mehrere Winkel	2-3x länger
Mehrere Gesichter, ein Winkel	2-4x länger (abhängig von der Anzahl der Gesichter)
Mehrere Gesichter, mehrere Winkel	5-10x länger

Die meisten Nutzer haben nicht den Zugang zu den Rechenressourcen, die für hochwertige Deepfakes mit mehreren Personen und Winkeln erforderlich sind.

Lücken in den Trainingsdaten

Deepfake-Modelle werden mit Datensätzen trainiert, die Einschränkungen aufweisen:

Fokus auf Einzelpersonen: Die meisten Trainingsbeispiele zeigen jeweils nur eine Person.
Winkelverteilung: Trainingsdaten repräsentieren gängige Winkel (frontal, leichtes Profil) überproportional und extreme Winkel unterproportional.
Interaktionsdaten: Es gibt nur wenige Beispiele, in denen dieselbe Person mit anderen interagiert und dabei ihre Identität beibehält.

Diese Lücken bedeuten, dass die Modelle nicht gelernt haben, komplexe Szenarien mit mehreren Personen und Winkeln effektiv zu bewältigen.

Diskussionen in der Community und Nutzererfahrungen

Online-Foren offenbaren häufige Frustrationen und Lösungsansätze.

Häufige Fragen

„Warum funktioniert mein Deepfake perfekt mit einer Person, aber scheitert bei zwei?“

Die Antwort liegt in der Regel in den Rechenlimits. Bei Deepfakes mit einer Person kann die gesamte verfügbare Rechenleistung für ein Gesicht genutzt werden. Bei mehreren Personen muss diese Leistung aufgeteilt werden, was oft zu geringerer Qualität oder unvollständiger Verarbeitung führt.

„Kann ich die Identitätsdrift beheben, indem ich jede Person separat verarbeite?“

Einige Nutzer versuchen, jede Person einzeln zu verarbeiten und die Ergebnisse dann zusammenzufügen. Dies kann die Identitätskonsistenz verbessern, bringt aber neue Probleme mit sich:

Gesichter interagieren möglicherweise nicht natürlich (Beleuchtung, Schatten, Reflexionen).
Die zeitliche Kohärenz zwischen den Gesichtern kann verloren gehen.
Das Endergebnis kann künstlich aussehen.

„Warum sehen Gesichter aus einem Winkel gut aus, aber aus einem anderen falsch?“

Dies deutet typischerweise auf unzureichende Trainingsdaten für diesen spezifischen Winkel hin oder darauf, dass das Modell zwischen verschiedenen winkelspezifischen Darstellungen ohne fließende Übergänge wechselt.

Workarounds und Lösungsansätze von Nutzern

Begrenzung der Personenzahl

„Ich habe festgestellt, dass man mit maximal zwei Personen deutlich bessere Ergebnisse erzielt. Bei drei oder mehr Personen fangen die Probleme an.“

Einschränkung der Kamerabewegung

„Wenn ich die Kamera relativ statisch halte und die Personen sich nur leicht drehen, sind die Ergebnisse viel konsistenter.“

Verarbeitung in Segmenten

„Ich teile das Video in kurze Segmente auf, verarbeite jedes separat mit konsistenten Einstellungen und füge sie dann wieder zusammen. Das ist zeitaufwändig, führt aber zu besseren Ergebnissen.“

Verwendung niedrigerer Qualitätseinstellungen

„Ich habe gelernt, eine etwas geringere Auflösung zu akzeptieren, wenn dafür die Gesichter konsistent bleiben. Perfekte Qualität ist es nicht wert, wenn die Identitäten driften.“

Die Kompromisse, denen sich Nutzer stellen

Bei der Arbeit mit Deepfakes mit mehreren Personen oder Winkeln müssen Nutzer Entscheidungen darüber treffen, was sie priorisieren möchten.

Qualität vs. Verarbeitungszeit

Höhere Qualitätseinstellungen verbessern die Konsistenz, erhöhen aber die Verarbeitungszeit drastisch. Bei Szenen mit mehreren Personen wird dieser Kompromiss noch deutlicher:

Niedrige Qualität, schnelle Verarbeitung: Gesichter können driften oder ihre Identität tauschen.
Hohe Qualität, langsame Verarbeitung: Bessere Konsistenz, kann aber Tage oder Wochen dauern.
Mittlere Qualität, mittlere Zeit: Ein Kompromiss, der oft immer noch einige Inkonsistenzen aufweist.

Konsistenz vs. Realismus

Einige Nutzer berichten, dass die Aufrechterhaltung perfekter Konsistenz dazu führen kann, dass Gesichter „zu perfekt“ oder künstlich aussehen:

„Wenn ich das System zwinge, die Gesichter exakt gleich zu halten, sehen sie wie Schaufensterpuppen aus. Eine kleine Variation wirkt natürlicher, aber dann leidet die Konsistenz.“

Anzahl der Personen vs. individuelle Qualität

Mehr Personen in eine Szene einzufügen, bedeutet in der Regel:

Geringere Qualität pro Person (Rechenressourcen werden aufgeteilt).
Höhere Wahrscheinlichkeit von Identitätsdrift.
Längere Verarbeitungszeiten.
Mehr potenzielle Fehlerquellen.

Nutzer müssen entscheiden, ob die Darstellung mehrerer Personen die Qualitätskompromisse wert ist.

Aktuelle Lösungen und ihre Grenzen

Mehrere Ansätze versuchen, diese Herausforderungen zu bewältigen, jeder mit seinen eigenen Einschränkungen.

Techniken zur Identitätserhaltung

Einige Systeme verwenden „Identitäts-Embeddings“, die versuchen, konsistente Gesichtsmerkmale über Winkel und Frames hinweg beizubehalten. Diese helfen, lösen das Problem aber nicht vollständig:

Funktionieren gut bei: Einer Person, moderaten Winkeländerungen.
Haben Schwierigkeiten bei: Mehreren Personen, extremen Winkeln, schnellen Änderungen.
Einschränkung: Sind immer noch auf winkelspezifische Trainingsdaten angewiesen.

Multi-Tracker-Systeme

Fortschrittliche Systeme verwenden separate Tracker für jedes Gesicht und versuchen, für jede Person eine unabhängige Identität zu wahren:

Vorteil: Bessere Trennung zwischen verschiedenen Personen.
Nachteil: Erhöhter Rechenaufwand.
Einschränkung: Tracker können immer noch Gesichter verlieren oder Identitäten vertauschen.

Winkelbewusste Modelle (Angle-Aware Models)

Einige neuere Modelle werden speziell für die Verarbeitung mehrerer Winkel trainiert:

Verbesserung: Bessere Konsistenz über verschiedene Winkel hinweg.
Verbleibendes Problem: Haben immer noch Schwierigkeiten, wenn mehrere Winkel in schneller Abfolge auftreten.
Kosten: Erfordern mehr Trainingsdaten und Rechenressourcen.

Häufig gestellte Fragen (FAQ)

Warum funktionieren Deepfakes besser mit einer Person als mit mehreren?

Jedes Gesicht erfordert eine separate Verarbeitung. Bei begrenzten Rechenressourcen bedeutet das Hinzufügen weiterer Personen, dass diese Ressourcen aufgeteilt werden. Zudem können Algorithmen zur Gesichtsverfolgung durcheinanderkommen, welches Gesicht zu welcher Person gehört, insbesondere wenn sich Gesichter ähneln oder überlappen.

Kann ich die Qualität von Deepfakes mit mehreren Personen durch bessere Hardware verbessern?

Bessere Hardware hilft, beseitigt aber nicht die grundlegenden Herausforderungen. Selbst mit leistungsstarken Systemen bleibt die Aufrechterhaltung perfekter Konsistenz über mehrere Personen und Winkel hinweg aufgrund von Einschränkungen bei den Trainingsdaten und der Modellarchitektur schwierig.

Warum verändern sich Gesichter, wenn sich der Kamerawinkel ändert?

Deepfake-Systeme kodieren Gesichter je nach Blickwinkel unterschiedlich. Wenn sich der Winkel ändert, kann das System zwischen verschiedenen internen Darstellungen wechseln, was zu subtilen Identitätsverschiebungen führt. Trainingsdaten neigen auch dazu, gängige Winkel über- und extreme Winkel unterzurepräsentieren.

Gibt es eine Möglichkeit, perfekte Konsistenz über alle Winkel hinweg zu gewährleisten?

Die derzeitige Technologie unterstützt keine perfekte Konsistenz über alle Winkel hinweg. Die besten Ergebnisse werden erzielt, indem man Winkeländerungen begrenzt, hohe Qualitätseinstellungen verwendet und akzeptiert, dass eine gewisse Variation normal ist. Die Forschung geht weiter, aber dies bleibt ein aktives Entwicklungsfeld.

Wie viele Personen können in einem Deepfake erscheinen, bevor die Qualität erheblich nachlässt?

Dies hängt von der Videoauflösung, der Rechenleistung und den Qualitätseinstellungen ab. Die meisten Nutzer berichten, dass zwei Personen einigermaßen gut funktionieren, drei zu einer Herausforderung werden und vier oder mehr typischerweise eine signifikante Qualitätsverschlechterung oder Identitätsdrift aufweisen.

Kann ich jede Person separat verarbeiten und sie dann kombinieren?

Einige Nutzer versuchen diesen Ansatz. Er kann bei der individuellen Identitätskonsistenz helfen, schafft aber neue Herausforderungen: Die Gesichter interagieren möglicherweise nicht natürlich (Beleuchtung, Schatten), die zeitliche Kohärenz kann verloren gehen und das Endergebnis kann eher wie eine Collage als natürlich aussehen.

Fazit

Deepfakes mit mehreren Personen und Winkeln offenbaren grundlegende Grenzen der aktuellen Technologie. Dieselben Systeme, die überzeugende Einzelpersonen-Deepfakes erstellen, haben Schwierigkeiten, wenn die Komplexität zunimmt.

Das Kernproblem ist nicht nur rechnerischer Natur – es geht darum, wie KI-Modelle Identität repräsentieren und aufrechterhalten. Gesichter sind nicht nur eine Ansammlung von Merkmalen; sie sind einheitliche Identitäten, die über Kontexte, Winkel und Interaktionen hinweg konsistent bleiben müssen.

Während die Deepfake-Technologie fortschreitet, arbeiten Forscher an besseren Methoden zur Identitätserhaltung, Multi-Tracker-Systemen und winkelbewussten Modellen. Vorerst müssen Nutzer, die mit komplexen Szenarien arbeiten, jedoch Kompromisse akzeptieren: weniger Personen, begrenzte Winkel, längere Verarbeitungszeiten oder eine geringere Qualität.

Die Technologie wird sich verbessern, aber die grundlegende Herausforderung – die Aufrechterhaltung einer konsistenten Identität über mehrere Personen und Blickwinkel hinweg – stellt eines der schwierigsten Probleme bei der Generierung synthetischer Medien dar. Das Verständnis dieser Einschränkungen hilft dabei, realistische Erwartungen zu setzen und Entscheidungen darüber zu treffen, wann und wie die Deepfake-Technologie eingesetzt werden sollte.

Wie Deepfakes mehrere Personen und verschiedene Winkel verwalten – Gesichtskonsistenz bewahren