Google DeepMind Unveils The Video Generation Model Veo 2 To Compete With Sora

Google DeepMind vient d’être lancé Véo 2, en concurrence avec Sora d’OpenAI. Alors que Sora peut générer des clips de 20 secondes jusqu’à une résolution de 1080p, le modèle Veo 2 de Google peut produire des vidéos d’une minute avec une résolution 4K époustouflante.

Google affirme également que Veo 2 peut comprendre la physique du monde réel et les nuances des mouvements et des expressions humaines, ce avec quoi des modèles comme Sora ont encore du mal. Voici tout ce que vous devez savoir sur le nouveau modèle Veo 2 de Google.

Android 16 QPR Beta 1 : Material 3 Expressif est ici !

il y a 4 semaines

Honkai Star Rail Rail GAXION Meilleure Construction : Cons de lumière, reliques et compositions d’équipe

il y a 4 semaines

Connexions du NYT d’aujourd’hui # 702 Indices et réponses pour le 13 mai 2025

Connexions du NYT d’aujourd’hui # 711 Indices, réponses – 22 mai 2025

il y a 4 semaines

Bordure NYT d’aujourd’hui # 1378 Indices et réponses pour le 28 mars 2025

Bordure NYT d’aujourd’hui # 1433 indices, réponses – 22 mai 2025

il y a 4 semaines

Quoi de neuf avec le modèle Veo 2 de Google ?

Plus tôt cette année, Google a annoncé Veo, son modèle de génération de texte en vidéo par IA. Sur cette base, l’équipe a maintenant introduit la version améliorée Modèle Véo 2.

Aujourd’hui, nous annonçons Veo 2 : notre modèle de génération vidéo de pointe qui produit des clips réalistes et de haute qualité à partir d’invites de texte ou d’images. 🎥
Nous publions également une version améliorée de notre modèle de conversion texte-image, Imagen 3 – disponible pour utilisation dans ImageFX via… pic.twitter.com/h6ejHaMUM4
– Google DeepMind (@GoogleDeepMind) 16 décembre 2024

L’une des plus grandes améliorations de Veo 2 est sa compréhension de la physique du monde réel et du mouvement humain. Par exemple, si vous avez essayé des modèles comme Sora, vous avez peut-être remarqué des problèmes tels que des doigts supplémentaires sur une main ou des objets qui n’ont pas leur place dans une scène. Veo 2 résout ces problèmes, créant des sorties plus naturelles et cohérentes. Google affirme également que le Veo 2 hallucine moins que les autres modèles.

Source : Google

De plus, Veo 2 peut comprendre le langage du cinéma. Vous pouvez spécifier un genre, un type d’objectif ou des effets cinématiques, et Veo 2 suivra ces instructions. Par exemple, vous pouvez demander des travellings à faible angle, une faible profondeur de champ ou un objectif 18 mm.

Source : Google

Cependant, Google affirme que le modèle a encore du mal à gérer des scènes ou des mouvements complexes.

Source : Google

Le modèle peut également générer des vidéos plus longues (jusqu’à plusieurs minutes) et à des résolutions ultra-élevées allant jusqu’à 4K. Par rapport à Sora d’OpenAI, qui est limité à des clips de 20 secondes en résolution 1080p, il s’agit d’un grand pas en avant. Veo 1, en comparaison, ne pouvait générer que des vidéos d’une durée maximale d’une minute en 1080p.

Toutes les vidéos générées avec le modèle Veo 2 incluront un filigrane SynthID invisible pour les identifier comme générées par l’IA, contribuant ainsi à réduire le risque de désinformation.

Comment utiliser Veo 2 ?

Tout comme le modèle Veo original, Veo 2 n’est pas accessible au public pour tout le monde. À l’heure actuelle, il est accessible via l’outil VideoFX de Google, qui fait partie de Google Labs. L’accès est actuellement limité et les utilisateurs peuvent inscrivez-vous à la liste d’attente. Alors que Veo 2 prend en charge la résolution 4K et les durées étendues, la mise en œuvre actuelle dans VideoFX est limitée à une résolution 720p et à des clips d’une durée de huit secondes.

Google prévoit également d’intégrer Veo 2 dans YouTube Shorts l’année prochaine, ouvrant ainsi davantage de possibilités aux créateurs. Pour les développeurs et les entreprises, Veo 2 est déployé via Vertex AI, la plateforme d’IA de Google.

Lire aussi :

Qu’en est-il de l’image 3 ?

Parallèlement à Veo 2, Google a également mis à niveau son modèle de génération d’images Imagen 3. Imagen 3 permet désormais de mieux restituer des images plus lumineuses et plus détaillées. Google affirme également pouvoir suivre les invites avec plus de précision. L’image 3 est disponible en ImageFXqui est déployé dans plus de 100 pays.

Google ne s’est pas arrêté là. Ils ont également introduit un nouvel outil expérimental appelé Whisk, qui combine Imagen 3 avec Gemini AI de Google pour un contrôle encore plus créatif. Avec Whisk, vous pouvez remixer des éléments tels que des sujets, des scènes et des styles pour créer des images uniques. Par exemple, vous pouvez télécharger une image, décrire une scène et ajouter un style artistique spécifique pour créer quelque chose de complètement nouveau. Le fouet est disponible via Laboratoires Google aux États-Unis, donc si vous êtes curieux, vous pouvez essayer.