GPT-4o, une Nouvelle Ère de Communication avec l’IA
OpenAI vient de lancer GPT-4o, un modèle d’IA révolutionnaire qui permet des interactions en temps réel via des conversations vocales en direct, les flu vidéo de votre téléphone et du texte. Selon l’entreprise, ce modèle sera déployé au cours des prochaines semaines et sera gratuit pour tous les utilisateurs à travers l’application GPT et l’interface web. Les abonnés des offres payantes d’OpenAI, dont les tarifs commencent à 20 $ par mois, pourront effectuer davantage de demandes.
Démonstration en Direct et Perspectives d’Avenir
Mira Murati, CTO d’OpenAI, a dirigé la démonstration en direct de cette nouvelle version, un jour avant que Google ne dévoile ses propres avancées en matière d’IA lors de sa conférence I/O phare, prévue pour le mardi 14 mai.
GPT-4 offrait des capacités similaires, permettant aux utilisateurs de nombreuses façons d’interagir avec les offres d’IA d’OpenAI. Cependant, ces capacités étaient compartimentées dans des modèles distincts, ce qui entraînait des temps de réponse plus longs et des coûts informatiques potentiellement plus élevés. GPT-4o a maintenant fusionné ces capacités en un seul modèle, que Murati a qualifié d’« omnimodèle ». Cela signifie des réponses plus rapides et des transitions plus fluides entre les tâches.
Un Assistant Conversationnel de Nouvelle Génération
Le résultat, selon la démonstration de l’entreprise, est un assistant conversationnel dans la veine de Siri ou Alexa, mais capable de traiter des requêtes beaucoup plus complexes. « Nous envisageons l’avenir de l’interaction entre nous et les machines », a déclaré Murati à propos de la démonstration. « Nous pensons que GPT-4o est vraiment en train de faire évoluer ce paradigme vers l’avenir de la collaboration, où cette interaction devient beaucoup plus naturelle. »
Applications Innovantes et Interactions Fluides
Barret Zoph et Mark Chen, tous deux chercheurs chez OpenAI, ont présenté plusieurs applications du nouveau modèle. La plus impressionnante était sa facilité avec laquelle il a mené une conversation en direct. Vous pouviez interrompre le modèle pendant ses réponses, il s’arrêtait, écoutait et ajustait sa réponse …
Capacité d’Adaptation Vocale
OpenAI a également démontré la capacité de changer le ton du modèle. Chen a demandé au modèle de lire une histoire pour enfants « sur les robots et l’amour », intervenant rapidement pour demander une voix plus dramatique. Le modèle devenait progressivement plus théâtral jusqu’à ce que Murati demande qu’il passe rapidement à une voix de robot convaincante (ce qu’il a excellemment exécuté). Bien qu’il y ait eu quelques pauses courtes pendant la conversation, alors que le modèle réfléchissait à ce qu’il devait dire ensuite, cela ressortait comme une conversation IA remarquablement naturelle.
Résolution de Problèmes Visuels en Temps Réel
Le modèle peut également résoudre des problèmes visuels en temps réel. Utilisant son téléphone, Zoph s’est filmé en train d’écrire une équation algébrique (3x + 1 = 4) sur une feuille de papier, en demandant à GPT-4o de suivre. Il lui a demandé de ne pas fournir de réponses, mais plutôt de le guider comme le ferait un enseignant. « La première étape consiste à regrouper tous les termes avec x d’un côté », a dit le modèle d’un ton amical. « Alors, que pensez-vous que nous devrions faire avec ce plus un ? »
Continuité des Interactions et Autres Fonctionnalités
GPT-4o enregistrera les interactions des utilisateurs avec lui, ce qui signifie que le modèle « a désormais une continuité dans toutes vos conversations », selon Murati. Parmi les autres points forts figurent la traduction en direct, la capacité de rechercher dans vos conversations avec le modèle et la possibilité de rechercher des informations en temps réel.
Défis et Perspectives
Comme c’est le cas pour une démonstration en direct, il y a eu des accros et des bugs. La voix de GPT-4o pouvait parfois intervenir maladroitement pendant la conversation. Il semblait commenter la tenue d’un des présentateurs alors qu’on ne lui avait pas demandé. Cependant, il se récupérait bien lorsque les démonstrateurs lui indiquaient qu’il avait fait une erreur. Il semble être capable de répondre rapidement et utilement à travers plusieurs médias, choses que d’autres modèles ne maîtrisent pas aussi efficacement.
Accès et Limites pour les Utilisateurs
Auparavant, de nombreuses fonctionnalités les plus puissantes d’OpenAI, comme le raisonnement à travers les images et les vidéos, étaient payantes. GPT-4o laisse à supposer qu’elles seront ouvertes au grand public, sans que le nombre d’interactions vous pourrez avoir avec le modèle avant d’être facturé ne soit encore défi. OpenAI indique que les abonnés payants continueront d’avoir jusqu’à cinq fois les limites de capacité des utilisateurs gratuits.
Découvrez l'annonce de GPT-4o lors OpenAI Spring Update
En résumé
Points Importants
- Introduction de GPT-4o, offrant des fonctionnalités avancées gratuitement à tous les utilisateurs.
- Expérience utilisateur améliorée avec une interface utilisateur rafraîchie et des interactions plus fluides.
- Capacités de conversation en temps réel pour des dialogues améliorés.
- Ajout de fonctionnalités de vision pour une interaction utilisateur améliorée.
- Gestion améliorée des émotions et des styles expressifs diversifiés.
- Disponibilité dans 50 langues avec une meilleure qualité et rapidité.
- Engagement en matière de sécurité et collaborations avec divers intervenants pour un déploiement responsable de l’IA.