DALL.E et CLIP: Comment les nouveaux modèles de l’IA ouverte définissent encore une fois l’avenir de l’IA

NRZ.Digital
0 0

Table des matières

Il n’y a pas longtemps, Open AI a réalisé une percée dans l’IA en annonçant le lancement de GPT-3, un algorithme de langage à usage général qui utilise l’apprentissage automatique pour traduire du texte, répondre aux questions et écrire du texte de manière prédictive. Cela a créé un véritable buzz pour être le plus grand modèle formé à ce jour et pour atteindre le plus haut niveau de l’intelligence humaine grâce au ML et à la PNL. Fasttrack six mois et nous apprenons qu’OpenAI a étendu GPT-3 avec deux nouveaux modèles qui combinent la PNL avec la reconnaissance d’image pour donner à leur IA une meilleure compréhension des concepts quotidiens.

Ouvrez les nouveaux modèles d’IA – DALL.E et CLIP

Nous avons déjà vu dans le cas de GPT-3 qu’un seul modèle d’apprentissage en profondeur pouvait être formé pour utiliser le langage de diverses manières simplement en lui fournissant de grandes quantités de texte, cela a été suivi en échangeant du texte contre des pixels et en utilisant la même approche pour former une IA à compléter des images semi-finies. OpenAI a maintenant rassemblé ces idées pour créer deux nouveaux modèles, appelés DALL · E et CLIP. Ces modèles combinent le langage et les images d’une manière qui permettra aux IA de mieux comprendre les deux mots et ce à quoi ils se réfèrent.

DALL.E: Création d’images à partir de texte

DALL.E est le réseau neuronal formé par Open AI qui crée des images à partir de légendes de texte pour un large éventail de concepts exprimables en langage naturel. Il s’agit d’une version de 12 milliards de paramètres de GPT-3 formée pour générer des images à partir de descriptions de texte, en utilisant un ensemble de données de paires texte-image. Il a un ensemble diversifié de capacités, y compris la création de versions anthropomorphisées d’animaux et d’objets, la combinaison de concepts non liés de manière probable, le rendu de texte et l’application de transformations à des images existantes.

En termes simples, il s’agit d’un réseau neuronal qui, au lieu de reconnaître les images, les dessine en fonction de la description textuelle. Vous pouvez fournir une courte légende en langage naturel, comme «illustration d’un bébé radis daikon dans un tutu promenant un chien» ou «un fauteuil en forme d’avocat», et DALL · E génère de nombreuses images qui lui correspondent.

Invite de texte: une illustration d’un bébé radis daikon dans un tutu promenant un chien

Production:

Source: AI ouverte

Invite de texte: un fauteuil en forme d’avocat

Production:

Source: AI ouverte

Limites de DALL.E

Bien que la capacité de DALL.E à générer des images synthétiques à partir d’idées fantaisistes semble prometteuse pour l’avancement de l’IA, elle a ses propres limites. Par exemple, inclure trop d’objets dans une invite de texte met sa capacité à garder une trace de ce qu’il faut dessiner, tester. De plus, la reformulation d’une invite de texte donne parfois des résultats différents. Il y a également eu des signaux indiquant que DALL · E imite des images qu’il a rencontrées en ligne plutôt que de générer des images originales.

CLIP: connexion de texte et d’images

CLIP, ou Contrastive Language – Image Pre-training, est un réseau neuronal qui apprend efficacement les concepts visuels à partir de la supervision du langage naturel. Il peut être appliqué à n’importe quel repère de classification visuelle en fournissant simplement les noms des catégories visuelles à reconnaître, similaires aux capacités «zéro coup» de GPT-2 et 3.

On peut penser que CLIP n’est qu’un autre système de reconnaissance d’image, mais il y a une exception. Il reconnaît les images non pas à partir d’exemples étiquetés dans des ensembles de données de formation, mais à partir d’images et de leurs légendes prises sur Internet. Il apprend l’image à partir d’une description au lieu d’étiquettes d’un mot.

Les performances de CLIP ont été testées sur ImageNet et il a été constaté que les performances de CLIP sont beaucoup plus représentatives de la façon dont il se comportera sur des ensembles de données qui mesurent la précision dans des paramètres non ImageNet.

Source: AI ouverte

Les limites de CLIP

CLIP s’est avéré difficile avec des tâches plus abstraites ou systématiques telles que le comptage du nombre d’objets dans une image. Il n’a pas réussi à effectuer des tâches complexes telles que la prédiction de la proximité de la voiture la plus proche sur une photo. Tout naturellement, CLIP généralise également mal les images qui n’étaient pas couvertes dans son jeu de données de pré-formation.

Conclusion

Malgré les limites, il s’agit d’une autre innovation révolutionnaire d’Open AI. L’équipe d’OpenAI prévoit d’analyser comment ces modèles corrèlent des problèmes tels que l’impact économique sur certaines professions, le potentiel de biais dans les résultats du modèle, ainsi que les défis éthiques à long terme posés par cette technologie. Avec cela, nous avons plus d’informations sur le type de systèmes d’IA que nous sommes susceptibles de voir à l’avenir. À [x]cube LABS, nous aidons nos clients à créer des résultats révolutionnaires, à stimuler la croissance opérationnelle et à gagner en efficacité grâce à des services avancés d’intelligence artificielle et d’apprentissage automatique. Si vous souhaitez explorer des opportunités avec l’IA pour votre entreprise, n’hésitez pas à nous contacter.


Happy
Happy
0
Sad
Sad
0
Excited
Excited
0
Sleepy
Sleepy
0
Angry
Angry
0
Surprise
Surprise
0

Average Rating

5 Star
0%
4 Star
0%
3 Star
0%
2 Star
0%
1 Star
0%

Laisser un commentaire

Next Post

Principaux cas d'utilisation du chatbot pour chaque entreprise

En comprenant les capacités et l’utilité d’un chatbot, de plus en plus d’entreprises exploitent les chatbots dans les fonctions métier telles que le service client, les ventes, le marketing et même pour rationaliser leurs processus internes.Vous trouverez ci-dessous les principaux cas d’utilisation des différentes fonctions métier où les chatbots ont […]

Abonnez-vous maintenant