OpenAI élargit les capacités de ChatGPT avec la voix et l’image
OpenAI dévoile de nouvelles fonctionnalités vocales et visuelles pour ChatGPT, offrant ainsi une interface plus intuitive aux utilisateurs. Ces améliorations permettent d’entamer une conversation vocale ou de montrer directement à ChatGPT ce dont on parle.
La voix et l’image, deux nouvelles dimensions pour ChatGPT
Ces nouvelles fonctionnalités offrent de multiples façons d’utiliser ChatGPT au quotidien. Par exemple, lors d’un voyage, il est possible de prendre une photo d’un monument et d’avoir une conversation en temps réel sur son histoire ou sa signification. De retour à la maison, une photographie de son réfrigérateur pourrait aider à définir le menu du dîner, tout en obtenant des suggestions de recettes. Même pour aider un enfant avec un problème mathématique, il suffit de prendre une photo, de souligner le problème, et ChatGPT fournira des astuces.
Intégration de la voix et des images pour les utilisateurs Plus et Entreprise de ChatGPT
OpenAI prévoit de déployer ces nouvelles capacités vocales et visuelles pour les utilisateurs Plus et Entreprise dans les prochaines semaines. La fonctionnalité vocale sera disponible sur iOS et Android (activation nécessaire dans les paramètres), tandis que les images seront accessibles sur toutes les plateformes.
Engagez des conversations vocales avec ChatGPT
La nouvelle capacité vocale de ChatGPT, alimentée par un modèle de synthèse vocale innovant, permet d’engager des dialogues fluides avec l’assistant. Pour activer cette fonction, les utilisateurs peuvent se rendre dans les paramètres de l’application mobile et activer les conversations vocales. Le modèle de synthèse vocale est capable de générer un audio réaliste à partir de simples textes et quelques secondes d’échantillons vocaux. Whisper, le système de reconnaissance vocale open-source d’OpenAI, est utilisé pour transcrire les paroles en texte.
Découvrez le monde avec l’aide visuelle de ChatGPT
Les utilisateurs peuvent désormais montrer une ou plusieurs images à ChatGPT pour diverses utilisations, que ce soit pour dépanner un appareil, explorer le contenu de leur réfrigérateur ou analyser un graphique complexe pour des données professionnelles. Pour se lancer, il suffit d’appuyer sur le bouton de photo pour capturer ou choisir une image. Cette compréhension des images est rendue possible grâce aux modèles multimodaux GPT-3.5 et GPT-4 d’OpenAI, qui appliquent leurs compétences linguistiques à une vaste gamme d’images, telles que les photographies, les captures d’écran et les documents contenant à la fois du texte et des images.
Un déploiement progressif axé sur la sécurité
OpenAI a pour objectif de construire une Intelligence Artificielle Générale (AGI) qui soit à la fois sûre et bénéfique. Ils croient en une mise à disposition progressive de leurs outils, ce qui leur permet de perfectionner et d’affiner les mesures de mitigation des risques au fil du temps. Cette stratégie est d’autant plus cruciale avec les modèles avancés intégrant la voix et la vision.
Les challenges de la nouvelle technologie vocale
Bien que la technologie vocale offre de nombreuses possibilités créatives et axées sur l’accessibilité, elle présente également de nouveaux défis, tels que la possibilité pour des acteurs malveillants d’usurper des personnalités publiques ou de commettre des fraudes. C’est pour limiter ce risque que la technologie est utilisée pour un cas d’utilisation spécifique, le chat vocal. Des partenariats sont également établis pour utiliser cette technologie dans d’autres domaines, comme par exemple avec Spotify pour leur fonction de traduction vocale.
La vision par ChatGPT : utile et sécurisée
Comme d’autres fonctionnalités de ChatGPT, la vision vise à assister les utilisateurs dans leur vie quotidienne. Des mesures techniques ont également été prises pour limiter la capacité de ChatGPT à analyser et à faire des déclarations directes sur les individus, car ChatGPT n’est pas toujours précis et ces systèmes doivent respecter la vie privée des individus.
Une transparence concernant les limites du modèle
Il se peut que des utilisateurs comptent sur ChatGPT pour des sujets spécialisés, comme la recherche. OpenAI est transparent sur les limites du modèle et décourage les cas d’utilisation à haut risque sans vérification appropriée. Le modèle est compétent pour transcrire le texte en anglais, mais il présente des lacunes avec certaines autres langues, notamment celles avec un script non-romain. OpenAI conseille donc à ses utilisateurs non anglophones de ne pas utiliser ChatGPT à cette fin.
GPT Génie adapte son système
GPT Génie prévoit d’adapter son système pour faire bénéficier ses abonnés des innovations récentes au plus vite dès que la technologie sera ouverte aux développeurs.