Découvrez DALL-E, l'IA qui dessine tout ce que vous commandez

SAN FRANCISCO – À OpenAI, l’un des laboratoires d’intelligence artificielle les plus ambitieux au monde, les chercheurs développent une technologie qui vous permet de créer des images numériques simplement en décrivant ce que vous voulez voir.

Ils l’appellent DALL-E en un clin d’œil aux deux “WALL-E”, le film d’animation de 2008 sur un robot autonome, et Salvador Dalí, le peintre surréaliste.

OpenAI, soutenu par un milliard de dollars de financement de Microsoft, ne partage pas encore la technologie avec le grand public. Mais un après-midi récent, Alex Nichol, l’un des chercheurs derrière le système, a démontré comment cela fonctionne.

Lorsqu’il a demandé “une théière en forme d’avocat”, en tapant ces mots sur un écran d’ordinateur en grande partie vide, le système a créé 10 images distinctes d’une théière d’avocat vert foncé, certaines avec des noyaux et d’autres sans. “DALL-E est bon pour les avocats”, a déclaré M. Nichol.

Lorsqu’il a tapé “des chats jouant aux échecs”, il a placé deux chatons pelucheux de chaque côté d’un plateau de jeu à carreaux, 32 pièces d’échecs alignées entre eux. Lorsqu’il a convoqué “un ours en peluche jouant de la trompette sous l’eau”, une image montrait de minuscules bulles d’air s’élevant du bout de la trompette de l’ours vers la surface de l’eau.

DALL-E peut également éditer des photos. Lorsque M. Nichol a effacé la trompette de l’ours en peluche et a demandé une guitare à la place, une guitare est apparue entre les bras poilus.

Une équipe de sept chercheurs a passé deux ans à développer la technologie, qu’OpenAI prévoit d’offrir à terme comme un outil pour des personnes comme les graphistes, fournissant de nouveaux raccourcis et de nouvelles idées lors de la création et de l’édition d’images numériques. Les programmeurs informatiques utilisent déjà Copilot, un outil basé sur une technologie similaire d’OpenAIpour générer des extraits de code logiciel.

Mais pour de nombreux experts, DALL-E est inquiétant. À mesure que ce type de technologie continue de s’améliorer, disent-ils, cela pourrait aider à répandre la désinformation sur Internet, alimentant le type de campagnes en ligne qui ont peut-être contribué à influencer l’élection présidentielle de 2016.

“Vous pouvez l’utiliser pour de bonnes choses, mais vous pouvez certainement l’utiliser pour toutes sortes d’autres applications folles et inquiétantes, et cela inclut les contrefaçons profondes”, comme photos et vidéos trompeusesa déclaré Subbarao Kambhampati, professeur d’informatique à l’Arizona State University.

Il y a une demi-décennie, les plus grands laboratoires d’IA du monde ont construit des systèmes capables de identifier des objets dans des images numériques et même générer des images par eux-mêmes, y compris des fleurs, des chiens, des voitures et des visages. Quelques années plus tard, ils ont construit des systèmes qui pourrait faire à peu près la même chose avec le langage écritrésumant des articles, répondant à des questions, générant des tweets et même écrivant des articles de blog.

Maintenant, les chercheurs combinent ces technologies pour créer de nouvelles formes d’IA DALL-E est un pas en avant notable car il jongle à la fois avec le langage et les images et, dans certains cas, saisit la relation entre les deux.

“Nous pouvons désormais utiliser plusieurs flux d’informations croisés pour créer une technologie de mieux en mieux”, a déclaré Oren Etzioni, directeur général de l’Allen Institute for Artificial Intelligence, un laboratoire d’intelligence artificielle à Seattle.

La technologie n’est pas parfaite. Lorsque M. Nichol a demandé à DALL-E de “mettre la tour Eiffel sur la lune”, il n’a pas tout à fait saisi l’idée. Il a mis la lune dans le ciel au-dessus de la tour. Lorsqu’il a demandé “un salon rempli de sable”, cela a produit une scène qui ressemblait plus à un chantier de construction qu’à un salon.

Mais lorsque M. Nichol a un peu peaufiné ses demandes, ajoutant ou soustrayant quelques mots ici ou là, cela a fourni ce qu’il voulait. Lorsqu’il a demandé “un piano dans un salon rempli de sable”, l’image ressemblait plus à une plage dans un salon.

DALL-E est ce que les chercheurs en intelligence artificielle appellent un réseau neuronal, qui est un système mathématique vaguement modélisé sur le réseau de neurones du cerveau. C’est la même technologie qui reconnaît les commandes prononcées dans les smartphones et identifie la présence de piétons lorsque les voitures autonomes naviguent dans les rues de la ville.

Un réseau de neurones acquiert des compétences en analysant de grandes quantités de données. En identifiant des motifs dans des milliers de photos d’avocats, par exemple, il peut apprendre à reconnaître un avocat. DALL-E recherche des modèles en analysant des millions d’images numériques ainsi que des légendes de texte qui décrivent ce que chaque image représente. De cette façon, il apprend à reconnaître les liens entre les images et les mots.

Lorsque quelqu’un décrit une image pour DALL-E, cela génère un ensemble de fonctionnalités clés que cette image peut inclure. Une caractéristique pourrait être la ligne au bord d’une trompette. Un autre pourrait être la courbe au sommet de l’oreille d’un ours en peluche.

Ensuite, un deuxième réseau de neurones, appelé modèle de diffusion, crée l’image et génère les pixels nécessaires pour réaliser ces caractéristiques. La dernière version de DALL-E, dévoilée mercredi avec un nouveau document de recherche décrivant le système, génère des images haute résolution qui, dans de nombreux cas, ressemblent à des photos.

Bien que DALL-E ne parvienne souvent pas à comprendre ce que quelqu’un a décrit et déforme parfois l’image qu’il produit, OpenAI continue d’améliorer la technologie. Les chercheurs peuvent souvent affiner les compétences d’un réseau de neurones en lui fournissant des quantités encore plus importantes de données.

Ils peuvent également construire des systèmes plus puissants en appliquant les mêmes concepts à de nouveaux types de données. L’Institut Allen a récemment créé un système capable d’analyser l’audio ainsi que les images et le texte. Après avoir analysé des millions de vidéos YouTube, y compris des pistes audio et des sous-titres, il a appris à identifier des moments particuliers dans des émissions de télévision ou un films, comme un chien qui aboie ou une porte qui se ferme.

Les experts pensent que les chercheurs continueront à perfectionner ces systèmes. En fin de compte, ces systèmes pourraient aider les entreprises à améliorer les moteurs de recherche, les assistants numériques et d’autres technologies courantes, ainsi qu’à automatiser de nouvelles tâches pour les graphistes, les programmeurs et d’autres professionnels.

Mais il y a des mises en garde à ce potentiel. Les systèmes d’IA peuvent montrer des préjugés contre les femmes et les personnes de couleur, en partie parce que ils apprennent leurs compétences à partir d’énormes pools de textes, d’images et d’autres données en ligne qui montrent des préjugés. Ils pourraient être utilisés pour générer de la pornographie, des discours de haine et d’autres contenus offensants. Et de nombreux experts pensent que la technologie finira par rendre si facile à créer de la désinformationles gens devront être sceptiques quant à presque tout ce qu’ils voient en ligne.

« Nous pouvons falsifier du texte. Nous pouvons mettre du texte dans la voix de quelqu’un. Et nous pouvons forger des images et des vidéos », a déclaré le Dr Etzioni. “Il y a déjà de la désinformation en ligne, mais l’inquiétude est que cette désinformation atteigne de nouveaux niveaux.”

OpenAI garde une laisse serrée sur DALL-E. Cela ne laisserait pas les étrangers utiliser le système par eux-mêmes. Il met un filigrane dans le coin de chaque image qu’il génère. Et bien que le laboratoire envisage d’ouvrir le système aux testeurs cette semaine, le groupe sera petit.

Le système comprend également des filtres qui empêchent les utilisateurs de générer des images qu’il juge inappropriées. Lorsqu’on lui a demandé “un cochon à tête de mouton”, il a refusé de produire une image. La combinaison des mots “cochon” et “tête” a très probablement déclenché les filtres anti-intimidation d’OpenAI, selon le laboratoire.

“Ce n’est pas un produit”, a déclaré Mira Murati, responsable de la recherche chez OpenAI. “L’idée est de comprendre les capacités et les limites et de nous donner la possibilité d’intégrer l’atténuation.”

OpenAI peut contrôler le comportement du système de certaines manières. Mais d’autres à travers le monde pourraient bientôt créer une technologie similaire qui mettrait les mêmes pouvoirs entre les mains de presque n’importe qui. Travaillant à partir d’un document de recherche décrivant une première version de DALL-E, Boris Dayma, un chercheur indépendant à Houston, a déjà construit et publié un version simplifiée de la technologie.

“Les gens doivent savoir que les images qu’ils voient peuvent ne pas être réelles”, a-t-il déclaré.

Enregistrer un commentaire

0 Commentaires