Le nouveau modèle GPT phare d'OpenAI est conçu pour les agents IA

Résumé créé par Smart Answers AI

En résumé:

Le GPT-5.4 d’OpenAI introduit des capacités révolutionnaires d’IA agentique qui lui permettent d’effectuer des actions informatiques telles que cliquer sur une souris et éditer des fichiers de manière autonome.
PCWorld rapporte que ce développement marque un changement significatif vers des agents d’IA contrôlant les tâches du PC de manière indépendante, dotés de compétences améliorées en matière de feuilles de calcul et d’un raisonnement efficace.
Le modèle est disponible via ChatGPT, OpenAI API et Codex, ce qui représente une étape majeure au-delà de l’IA traditionnelle fournissant des informations vers un contrôle informatique interactif.

Vous vous souvenez de l’époque où les modèles d’IA ne pouvaient que vous dire quoi faire ? Désormais, les derniers LLM peuvent réellement faire choses à l’aide d’un logiciel d’IA agentique, et le nouveau modèle phare d’OpenAI est le plus récent du groupe.

GPT-5.4 est maintenant disponible sur ChatGPT (où il s’appelle GPT-5.4 Thinking) ainsi que sur l’API OpenAI et l’outil de codage d’OpenAI Codex (dont une version vient de sortir pour Windows).

Ce nouveau GPT arrive avec un certain nombre d’astuces nouvelles et remaniées, à commencer par ses compétences améliorées en matière de tableur, son raisonnement plus efficace (ce qui signifie qu’il peut résoudre des problèmes en utilisant moins de jetons, ce qui vous coûte donc moins cher) et sa capacité à vous montrer un plan « initial » avant d’exécuter des tâches complexes, vous donnant une chance d’orienter le modèle dans une nouvelle direction avant qu’il ne se mette au travail.

Plus intéressant encore, GPT-5.4 marque le premier modèle à usage général d’OpenAI qui peut réellement faire choses sur votre ordinateur, pas seulement vous le dire comment faire des choses. Par exemple, GPT-5.4 peut cliquer sur une souris ou, pour être plus précis, il peut émettre une commande « cliquez sur la souris » à un système d’agent IA sur votre PC, qui effectue le clic réel. GPT-5.4 peut également modifier des fichiers sur votre système, saisir des commandes clavier et « voir » des captures d’écran (lui permettant d’utiliser un navigateur Web ou d’interagir avec des programmes informatiques).

Maintenant, une mise en garde importante ici : GPT-5.4 ne peut prendre en charge votre PC que lorsqu’il fonctionne via l’API OpenAI ou l’outil Codex d’OpenAI. Lorsque vous utilisez GPT-5.4 Penser via ChatGPT, c’est-à-dire l’application de bureau ou l’interface Web ChatGPT, le LLM est toujours limité à sa boîte de discussion et à ses diverses intégrations ChatGPT, comme pour Google Drive, Spotify, Adobe Photoshop et autres.

Il convient également de noter que même si GPT-5.4 est le premier usage général GPT qui peut réellement utiliser votre PC, ce n’est pas le premier GPT jamais cela peut le faire. Il existe des GPT spécifiques au Codex qui peuvent exécuter des commandes, modifier des fichiers et (dans une certaine mesure) naviguer dans des interfaces graphiques et se frayer un chemin à travers les flux de travail Web. Mais avec sa capacité à naviguer sur le Web et à prendre en charge les programmes PC, GPT-5.4 fait passer les capacités « d’utilisation informatique » des modèles précédents spécifiques au Codex à un niveau supérieur.

Cela signifie que vous pourriez éventuellement demander à un agent IA contrôlé par GPT-5.4 sur votre ordinateur de « équilibrer mes comptes sur Quicken » et il serait capable de lancer de manière autonome l’application Quicken, de cliquer sur l’interface et d’équilibrer vos comptes.

Bien sûr, que vous le vouliez vouloir GPT-5.4 jouer seul dans Quicken est une question complètement distincte. Pour les tâches sensibles, vous souhaiterez probablement regarder par-dessus son épaule pendant qu’il fonctionne, comme vous pouvez le faire en codant avec GPT-5.4 dans l’application Codex.

Pourtant, les capacités « faire, ne pas se contenter de dire » de GPT-5.4 constituent un exemple parfait de la direction vers laquelle nous nous dirigeons : des PC contrôlés par des agents IA qui font les choses par eux-mêmes, sous une direction de haut niveau de notre part. Cela dit, faire en sorte que nos agents IA suivent nos instructions correctement sera le vrai truc.