La semaine dernière, OpenAI a publié ses nouveaux modèles de raisonnement O3 et O4-MinI, qui fonctionnent beaucoup mieux que leurs prédécesseurs O1 et O3-Mini et ont de nouvelles capacités comme «Penser avec des images» et combinant agent des outils d’IA pour des résultats plus complexes.
Cependant, selon les tests internes d’Openai, ces nouveaux modèles de raisonnement O3 et O4-MinI hallucinent également beaucoup plus souvent que les modèles d’IA précédents, rapporte TechCrunch. Ceci est inhabituel car les modèles plus récents ont tendance à halluciner moins à mesure que la technologie d’IA sous-jacente s’améliore.
Dans le domaine des LLM et du raisonnement AIS, une «hallucination» se produit lorsque le modèle constitue des informations qui semblent convaincantes mais qui n’ont aucune incidence en vérité. En d’autres termes, lorsque vous posez des questions à Chatgpt, il peut répondre avec une réponse manifestement fausse ou incorrecte.
La personne de référence interne d’Openai – qui est utilisée pour mesurer la précision factuelle de ses modèles d’IA lorsqu’il parlait de personnes – a trouvé que l’O3 a halluciné dans 33% des réponses tandis que O4-MinI a fait encore pire à 48%. En comparaison, les anciens modèles O1 et O3-Mini ont halluciné 16% et 14,8%, respectivement.
À ce jour, Openai dit qu’ils ne savent pas pourquoi les hallucinations ont augmenté dans les nouveaux modèles de raisonnement. Les hallucinations peuvent être bien pour les efforts créatifs, mais ils sapent la crédibilité d’assistants d’IA comme Chatgpt lorsqu’ils sont utilisés pour les tâches où la précision est primordiale. Dans une déclaration à TechCrunch, un représentant d’Openai a déclaré que l’entreprise «travaille continuellement à améliorer la précision et la fiabilité de leurs modèles)».











