Avec GANverse 3D, Nvidia transforme les photos en objet 3D grâce à l’IA.

 

Temps de lecture : 5 min

Le 16 avril dernier, Nvidia Research présentait son dernier outil baptisé GANverse 3D, basé sur l’Intelligence Artificielle (IA).

À destination des créateurs, designers et du monde du jeu vidéo, cette technologie permet de transformer, à partir d’une simple photo, un objet en rendu 3D animé et personnalisable rapidement. 

Un travail complexe, puisqu’une simple photo n’offre pas la visibilité d’un objet sous tous ses angles. 

 

 

De la 2D à la 3D

Comme son nom l’indique, ce projet s’appuie directement sur les Generative Adversarial Networks (GAN), des algorithmes de Machine Learning capables de créer des images.
Nvidia n’en est pas à son coup d’essai avec les GAN.
L’entreprise américaine, spécialisée dans la conception de processeurs, cartes et puces graphiques, a en effet déjà présenté trois outils :

  • StyleGAN : permettant de créer des portraits photréalistes de personnes fictives. 
  • GauGAN : qui permet de générer des peintures à partir de croquis.
  • GameGAN : qui reproduit une partie de Pac-Man grâce à une simple imitation visuelle.

En lien direct avec l’outil de virtualisation du monde réel baptisé “Omniverse”, mis en avant quelques jours au préalable lors de la keynote de Nvidia de la GTC (GPU Technology Conférence), GANverse 3D est une nouvelle technologie basée sur l’IA. Concrètement, après avoir été alimentée par des milliers d’images de photos d’objets sous tous les angles au préalable, cet outil prend une image en 2D, puis la transforme en objet 3D en reproduisant jusqu’à ses textures en seulement quelques instants.
Un procédé simplifié, permettant de modéliser des objets beaucoup plus rapidement qu’avec les techniques classiques.

Bien que l’entraînement du GAN se fasse en plusieurs jours dans le centre de calcul, le temps d’assimiler l’ensemble des images, la création d’un modèle 3D à partir d’une photo de l’objet en 2D se réalise en 65 millisecondes : un temps record ! 

Le tout grâce à l’exécution sur un GPU V100 de Nvidia, un processeur graphique, et à l’utilisation combinée de la plateforme Nvidia Omniverse, conçue pour les entreprises souhaitant collaborer en 3D en temps réel.

Pour un rendu rapide, à moindre frais et facile d’utilisation, la technologie assimile les données de manière accélérée afin de créer un objet 3D avec une perspective à une certaine hauteur et à une distance de caméra définie.
Le but ici n’étant pas d’obtenir le résultat le plus précis face à l’original, mais bien d’obtenir un rendu optimal très rapidement.

Comme lors de chaque découverte d’un nouveau système par Nvidia Research, le Laboratoire de la firme à Toronto, le code de GANverse 3D sera rendu public d’ici un mois.


// À (re)lire : Alteia : la plateforme d’Intelligence Visuelle basée sur l’IA de Delair prend son indépendance ! 

 

 

Un premier test sur le modèle de K2000

Pour présenter son nouveau GAN, la société a décidé d’utiliser l’exemple de KITT, la Pontiac Firebird dotée d’une conscience de la célèbre série télévisée K2000.

Grâce à l’apprentissage préalable de milliers d’images, le système est capable de différencier les différents éléments qui composent une voiture comme les rétroviseurs, les phares ou encore les roues.

 

© Nvidia Research

Une fois l’entraînement de la machine avec de nombreuses images sous différents angles de l’objet en question, une seule image de la voiture KITT suffit à construire sa maquette 3D pour virtualiser la voiture sur un ordinateur.
Le GAN génère ensuite les textures, avant de passer le relai aux outils Nvidia, Omniverse et Nvidia PhysX, chargés de l’amélioration de la qualité des textures pour les rendre le plus réaliste possible. 

La voiture est ensuite placée dans un contexte de conduite au sein d’une scène virtuelle, avec ses feux allumés ou clignotants et des effets de lumière apparaissant sur la carrosserie, puis accompagnée d’autres voitures dans le but de réaliser une vidéo.

Bien que les détails du véhicule demande plus d’efforts et d’attention, les éléments présents en arrière-plan sont quant à eux plus faciles à créer et à obtenir. La société a profité de sa présentation pour montrer la facilité du changement de la couleur, la texture ou même de n’importe quel élément de la voiture, grâce au moteur de rendu neuronal 3D.

La firme y voit là une réelle utilité pour les constructeurs automobiles, qui pourront utiliser cet outil pour la création d’images promotionnelles plus facilement. L’outil pourrait également s’avérer intéressant pour reproduire des voitures dans le cadre de projets de développement urbain par exemple.

Pour créer des images réalistes de modèles de voitures inventées, il est également possible d’utiliser StyleGAN, puis de passer sur GANverse 3D pour la transformer en maquette 3D, non soumise à un copyright.

 

// À (re)lire : Navigation autonome, AR Cloud : la course aux jumeaux numériques. 

 

 

Une utilisation limitée pour le moment

Pour sa présentation, Nvidia s’est focalisé sur les voitures, dont les textures ne se déforment pas en mouvement, à l’inverse du corps humain ou animal.

Pour parvenir à ces résultats, plus de 55 000 images réelles de voitures en tous genres ont été utilisées précise Juan Gao, chercheur et auteur du projet.
Parmi toutes les photos, on retrouve l’objet à modéliser sous tous les angles, permettant une vision plus globale, synthétisée ensuite grâce à la technologie de Nvidia. 

L’entreprise a également tenté de modéliser des chevaux, présents dans sa présentation, mais le manque d’images de cheval vu du haut pénalise l’IA lors de la modélisation, qui doit alors “inventer” cet aspect du cheval et donne lieu à un résultat moins abouti.
Comme avec les chevaux, des images d’oiseaux ont été chargées, mais à cause de l’entraînement plus limité de l’IA, plusieurs parties des animaux restent étranges voire même carrées à certains endroits.

 

© Nvidia Research

GANverse fonctionne également avec des objets géométriques, ou même des visages humains, même si les résultats ne sont pas aussi pertinents qu’avec la modélisation de voiture.

Comme toutes les IA spécialisées, GANverse a donc ses limites, notamment pour la modélisation d’un corps entier. Mais pour l’entreprise, ce n’est qu’une question de temps pour réussir avec succès ce type de modélisation. En effet, le système en lui-même fonctionne et ne nécessite plus que d’être alimenté avec davantage d’images semblables au sujet à modéliser.

Avec un peu plus d’entrainement et l’ajout de plusieurs millions d’images supplémentaires, cet outil pourrait s’avérer très utile pour les créateurs, les designers industriels, les environnements de jeu, ou encore les architectures 3D.

 

Même si cette technologie nécessite encore du temps pour s’améliorer et permettre de modéliser beaucoup plus d’objets, voire même un humain en entier, ce premier rendu de GANverse3D promet de belles choses !
Elle promet de révolutionner les techniques actuelles de photogrammétrie, qui nécessitent de capter tous les angles de vue d’un objet pour créer un élément 3D, et pourrait permettre à de nombreux secteurs des modélisations rapides et à moindre coût.

On peut une nouvelle fois saluer le choix de Nvidia de partager ses recherches et sa technologie en Open Source, afin que d’autres puissent l’utiliser pour concevoir de nouveaux systèmes.

 

> En savoir plus

 

Rejoignez-nou

Vos études touchent à leurs fins ou vous êtes à la recherche de nouveaux défis ? Alors rejoignez Adentis dès aujourd’hui en cliquant sur le lien ci-dessous :

>> Je veux rejoindre Adentis <<