OpenAI a publié mardi la dernière – et massivement améliorée du moteur de génération d’images de Chatgpt, et Internet a bientôt été en train de se procurer et de se demander à l’AI de faire tout à partir de mèmes dans le style de South Park aux images de Barbie Dolls dans le bureau ovale.
Mais un exploit du nouveau modèle de génération d’images GPT-4O de Chatgpt a même laissé des observateurs d’IA blasés dans un état de crainte mâchoire moulue et lâche.
Vin rouge, quelqu’un?
Voici, Chatgpt peut maintenant – tout à fait de manière fiable – à faire une image d’un verre de vin rouge rempli au sommet de Tippity.
Rapide: render an image of a wine glass filled to the very top with red wine
Cela ressemble à une tâche simple, non? Étonnamment, le test du «verre complet du vin» a perplexe beaucoup de grandes AIS, notamment – jusqu’à ce que, de toute façon, le chatppt et son plus ancien moteur Dall-E.
Ici, par exemple, iMogen 3 de Google qui brise le test lors de l’utilisation de la même invite: est-ce

Et Grok 3 ne s’en sort pas beaucoup mieux:

Le copilote de Microsoft a également frappé:

J’ai même essayé avec Flux, l’un des derniers modèles de diffusion stable, et j’ai obtenu ceci:

Oups.
L’astuce «verre de vin» n’est pas une référence formelle des capacités de rendu d’image d’une IA; Au lieu de cela, c’est un test occasionnel, comme demander à un LLM combien de «R» sont dans le mot «fraise». Ils ont tendance à se tromper, parfois hilarants.
Pourquoi un verre de vin complètement plein est-il un tel défi pour les AIS générateurs d’images? La sagesse dominante est que les modèles alimentés par l’IA font mieux avec les images sur lesquelles ils ont été formés – et en ce qui concerne les photos de verres à vin rouge, ils sont généralement remplis à mi-chemin, c’est pourquoi une invite pour un «verre de vin complètement complet, jusqu’à la rastitude» tend à vous promener un verre à moitié plein.
Maintenant, un vraiment bien Le générateur d’image IA devrait (comme un Redditor l’a expliqué utilement) être capable de «extrapoler» l’idée d’un verre de vin complètement complet même s’il n’existe pas dans ses données de formation. Soit cela, soit quelqu’un d’Openai vient de nourrir les nouveaux modèles des dizaines de photos de verres à vin remplis.
Bien sûr, il y a un autre test d’acide pour les générateurs d’images AI: une horloge analogique définie à une période spécifique. Betcha Chatgpt et son nouveau générateur d’images peuvent faire un court travail de celui-ci, non? Voyons:
Rapide: render an image of a clock, with the hands showing 3:15

Invite suivante: good, but the clock hands MUST be at 3:15

Um, paginant Sam Altman?











