Nano Banana 2 a un atout dans sa manche

Résumé créé par Smart Answers AI

En résumé:

PCWorld rapporte que le générateur d’images Nano Banana 2 AI de Google offre des mises à niveau significatives avec une résolution 2K extensible à 4K et des capacités de rendu de texte considérablement améliorées.
Le modèle amélioré génère avec succès des images complexes avec du texte, des diagrammes et des légendes intégrés précis, éliminant ainsi les problèmes de texte charabia des versions précédentes.
Disponible via l’application Gemini, la recherche Google et AI Studio, Nano Banana 2 représente un bond en avant majeur dans la qualité des images générées par l’IA et dans le suivi des instructions.

Le rendu d’un texte précis a longtemps été une pierre d’achoppement, même pour les générateurs d’images IA les plus avancés, mais c’est l’un des points forts du moteur Nano Banana 2 de Google qui vient d’être mis à jour.

Disponible dès maintenant dans l’application Gemini (vous le trouverez également dans la recherche Google, AI Studio et d’autres produits Google), Nano Banana 2 offre une gamme de nouvelles fonctionnalités, notamment une résolution jusqu’à 2K qui peut être mise à l’échelle jusqu’à 4K, un suivi d’instructions « amélioré » qui aide le modèle à mieux adhérer à vos invites et la possibilité de s’appuyer sur les connaissances « du monde réel » de Gemini, lui permettant d’obtenir des informations en temps réel via la recherche sur le Web lors du rendu des images.

Pas mal, mais la fidélité du texte de Nano Banana 2 est encore plus impressionnante. J’ai demandé à Nano Banana 2 de créer des images avec des panneaux d’affichage, des panneaux, des journaux et d’autres objets avec du texte intégré, et il s’est comporté comme un champion, évitant largement le charabia que les précédents générateurs d’images d’IA produisaient généralement lorsqu’ils essayaient de restituer des lettres et des mots.

Par exemple, j’ai demandé à Nano Banana 2 de restituer l’image d’un robot fumant une cigarette à Times Square, avec un chapiteau au néon indiquant « Nano Banana 2 on Broadway » en arrière-plan. Pas de problème, et l’image (ci-dessus) a été rendue en 10 secondes environ.

J’ai ensuite demandé à Nano Banana 2 de créer une photo d’une femme lisant un journal dans un coin petit-déjeuner, avec le titre du journal indiquant « Nano Banana 2 fait ses débuts ». Mais pour ce test, j’ai augmenté la mise : j’ai demandé au moteur d’écrire le sous-titre et l’article lui-même, et j’ai ordonné que l’histoire porte spécifiquement sur Nano Banana 2.

Eh bien, le modèle a parfaitement compris le sous-titre, mais mieux encore, il a écrit l’article – jusqu’à un certain point, en tout cas. Le texte de l’article est un peu ondulé, mais on peut presque le lire.

J’ai ensuite poussé un peu plus Nano Banana 2, lui demandant de zoomer sur l’article et d’enrichir le texte.

Ici, le rendu du texte s’est un peu dégradé : « Google a dévoilé son dernier akthrough (sic) en matière d’IA générative, le ‘Nano Banana 2’ », lit-on dans l’article, « promettant un grand pas en avant (le mot « saut » est partiellement masqué par un doigt) dans la fidélité de la génération d’images. Pas mal, mais au fur et à mesure que vous continuez à lire, la fidélité du texte commence à s’effondrer.

Finalement, j’ai essayé de demander à Nano Banana 2 de dessiner un diagramme de lui-même. « Rendez un diagramme de l’architecture de nano banane 2 dans le cadre plus grand de Gemini, avec des légendes de texte », ai-je demandé, et environ 15 secondes plus tard, j’ai obtenu ceci :

En regardant attentivement le diagramme, je n’ai vu aucun charabia de texte, et le diagramme et les légendes semblaient avoir un sens, ou du moins c’était le cas pour mon œil non averti.

En connectant le diagramme à l’application Gemini, la version « réfléchie » de Gemini m’a assuré qu’il s’agissait d’une « carte architecturale remarquablement précise » du cadre global de Gemini, décrivant avec précision comment le nouveau modèle peut gérer jusqu’à cinq caractères cohérents dans un flux de travail d’image. Il a également correctement référencé le tout nouveau moteur de rendu de diffusion GemPix 2, le composant Nano Banana 2 qui prend les rendus d’images 2K natifs du moteur et les convertit en 4K.

Dans l’ensemble, c’est très impressionnant, même si Nano Banana 2 soulève également la question de savoir quand OpenAI contrecarrera avec un suivi de GPT Image 1.5 de l’année dernière. Cela pourrait arriver n’importe quel jour, sinon aujourd’hui.