← Retour au Blog
RechercheFace SwappingDeep Learning

L’évolution du Face Swapping par réseaux neuronaux : des Deepfakes à l’innovation One-Shot avec InsightFace

Introduction

Le face swapping consiste à remplacer le visage d’une personne par celui d’une autre dans une image ou une vidéo. Ce qui relevait autrefois d’un travail manuel long et complexe pour des artistes spécialisés peut aujourd’hui être réalisé quasiment instantanément grâce à l’IA, avec des résultats photoréalistes.

Premières techniques de manipulation numérique

Approches manuelles

Avant les réseaux neuronaux, le face swapping s’effectuait avec des outils comme Photoshop. Il fallait détourer, coller, fusionner et corriger les couleurs avec beaucoup de soin, ce qui demandait du temps et une forte expertise.

3D Morphable Models

Les premières approches automatisées utilisaient des 3D Morphable Models (3DMM) pour ajuster un modèle facial 3D à partir d’images 2D, puis transférer les textures entre reconstructions. Cette automatisation était intéressante, mais restait limitée sur les poses extrêmes et les variations d’éclairage.

La révolution GAN

Autoencoders et Deepfakes

L’essor des deepfakes a commencé avec l’application des autoencoders au face swapping. L’idée centrale était d’utiliser un encoder partagé avec des décodeurs séparés pour différentes identités.

Méthodes basées sur les GAN

Les Generative Adversarial Networks ont nettement amélioré la qualité du face swapping. Le mécanisme adversarial entre générateur et discriminateur a permis des rendus beaucoup plus crédibles.

Limites des méthodes initiales

  • nécessité de disposer de centaines à milliers d’images par identité
  • entraînement pouvant durer de plusieurs heures à plusieurs jours par paire d’identités
  • baisse de qualité en cas de différences importantes de pose ou d’expression
  • cohérence temporelle insuffisante dans les vidéos

One-Shot Face Swapping : la percée d’InsightFace

Architecture InSwapper

Les modèles InSwapper d’InsightFace représentent un changement de paradigme. Au lieu d’exiger un entraînement par identité, ils utilisent un ArcFace identity vector comme entrée conditionnelle dans une architecture encoder-decoder basée sur StyleGAN2 :

1. Identity Extraction : ArcFace extrait un identity embedding compact à partir du visage source

2. Attribute Preservation : la pose, l’expression et l’éclairage du visage cible sont préservés

3. Feature Fusion : les attributs et l’identité sont fusionnés via Adaptive Instance Normalization

4. High-Fidelity Output : le decoder génère un visage remplacé en haute résolution

Variantes du modèle

InsightFace propose plusieurs variantes InSwapper :

  • inswapper_128 : modèle initial en 128×128
  • inswapper_512 : version 512×512 pour des usages de production
  • inswapper_512_live : optimisée pour les scénarios caméra en temps réel
  • Commercial variants : variantes enterprise avec qualité et vitesse renforcées

Capacité One-Shot

L’innovation majeure d’InSwapper est sa capacité one-shot : un simple visage de référence suffit pour réaliser un échange sur n’importe quelle cible, sans entraînement spécifique. Cela repose sur la séparation apprise entre identité et attributs.

Utilisation pratique

Le face swapping avec InsightFace nécessite peu de code :

import insightface

from insightface.app import FaceAnalysis

app = FaceAnalysis(name='buffalo_l')

app.prepare(ctx_id=0, det_size=(640, 640))

swapper = insightface.model_zoo.get_model('inswapper_128.onnx')

# Get faces from source and target

source_faces = app.get(source_img)

target_faces = app.get(target_img)

# Swap faces

result = swapper.get(target_img, target_faces[0], source_faces[0], paste_back=True)

Applications et licence

Le face swapping a aussi des usages légitimes :

  • Film et TV : doublures numériques, rajeunissement, effets créatifs
  • Gaming et VR : création d’avatars et personnalisation de personnages
  • Protection de la vie privée : anonymisation et protection des données
  • Entertainment : filtres sociaux et contenus créatifs

InsightFace propose des licences commerciales pour les modèles InSwapper, tandis que Picsi.ai fournit un service managé de face swapping pour les particuliers et les entreprises.

Conclusion

Le passage de l’édition d’image manuelle au face swapping one-shot en temps réel avec réseaux neuronaux constitue une avancée majeure. Les modèles InSwapper d’InsightFace rendent cette technologie plus accessible tout en soutenant un usage responsable via des licences commerciales et un cadre éthique clair.