Google Gemini AI essaie de déjouer ChatGPT avec des compétences photo et vidéo


Google a commencé à apporter une compréhension native de la vidéo, de l’audio et des photos à son chatbot Bard AI avec un nouveau modèle appelé Gemini. Les propriétaires de téléphones Google Pixel 8 seront parmi les premiers à exploiter ses nouvelles capacités d’intelligence artificielle.

Les premières incarnations de la nouvelle technologie sont arrivées mercredi dans des dizaines de pays via la mise à jour Gemini de Google Bard, mais uniquement en anglais. Il peut fournir des capacités de chat textuel qui, selon Google, améliorent les capacités de l’IA dans des tâches complexes telles que la synthèse de documents, le raisonnement et l’écriture de code de programmation. Le changement le plus important concernant les capacités multimédias – par exemple comprendre les gestes de la main dans une vidéo ou déterminer le résultat d’un puzzle de dessin point à point d’un enfant – arrivera « bientôt », a déclaré Google.

gemini-sb-v2-copy-01-00-01-19-02-still003.png

Regarde ça: Premières impressions de Gemini : la dernière mise à niveau majeure de l’IA de Google

Les Gémeaux constituent un changement radical pour l’IA. Le chat textuel est important, mais les humains doivent traiter des informations beaucoup plus riches à mesure que nous vivons dans notre monde tridimensionnel en constante évolution. Et nous réagissons avec des capacités de communication complexes, comme la parole et l’imagerie, et pas seulement avec des mots écrits. Les Gémeaux sont une tentative de se rapprocher de notre propre compréhension plus complète du monde.

Gemini est disponible en trois versions adaptées à différents niveaux de puissance de calcul, a déclaré Google :

  • Gemini Nano fonctionne sur les téléphones mobiles, avec deux variétés disponibles conçues pour différents niveaux de mémoire disponible. Il intégrera de nouvelles fonctionnalités sur les téléphones Pixel 8 de Google, comme résumer les conversations dans son application Recorder ou suggérer des réponses aux messages dans WhatsApp tapés avec le Gboard de Google.
  • Gemini Pro, conçu pour des réponses rapides, fonctionne dans les centres de données de Google et alimentera une nouvelle version de Bard à partir de mercredi.
  • Gemini Ultra, limité à un groupe de test pour l’instant, sera disponible dans un nouveau chatbot Bard Advanced prévu début 2024. Google a refusé de révéler les détails des prix, mais s’attend à payer un supplément pour cette fonctionnalité supérieure.

La nouvelle version met en lumière le rythme effréné des progrès dans le nouveau domaine de l’IA générative, où les chatbots créent leurs propres réponses aux invites que nous écrivons dans un langage simple plutôt que dans des instructions de programmation obscures. Le principal concurrent de Google, OpenAI, a volé la vedette avec le lancement de ChatGPT il y a un an, mais Google en est déjà à sa troisième révision majeure du modèle d’IA et espère fournir cette technologie à travers des produits que des milliards d’entre nous utilisent, comme la recherche, Chrome, Google Docs. et Gmail.

« Depuis longtemps, nous voulions créer une nouvelle génération de modèles d’IA inspirés par la façon dont les gens comprennent et interagissent avec le monde – une IA qui ressemble davantage à un collaborateur utile qu’à un logiciel intelligent », a déclaré Eli Collins. , vice-président produit de la division DeepMind de Google. « Les Gémeaux nous rapprochent de cette vision. »

OpenAI fournit également le cerveau derrière la technologie Copilot AI de Microsoft, y compris le nouveau modèle GPT-4 Turbo AI publié par OpenAI en novembre. Microsoft, comme Google, propose des produits majeurs comme Office et Windows auxquels il ajoute des fonctionnalités d’IA.

L’IA devient plus intelligente, mais elle n’est pas parfaite

Le multimédia constituera probablement un grand changement par rapport au texte lorsqu’il arrivera. Mais ce qui n’a pas changé, ce sont les problèmes fondamentaux des modèles d’IA entraînés par la reconnaissance de modèles dans de grandes quantités de données du monde réel. Ils peuvent transformer des invites de plus en plus complexes en réponses de plus en plus sophistiquées, mais vous ne pouvez toujours pas être sûr qu’ils n’ont pas simplement fourni une réponse plausible au lieu d’être réellement correcte. Comme le prévient le chatbot de Google lorsque vous l’utilisez, « Bard peut afficher des informations inexactes, y compris sur des personnes, alors vérifiez ses réponses ».

Gemini est la prochaine génération du grand modèle de langage de Google, une suite de PaLM et PaLM 2 qui ont jusqu’à présent constitué le fondement de Bard. Mais en entraînant Gemini simultanément sur le texte, le code de programmation, les images, l’audio et la vidéo, il est capable de gérer plus efficacement les entrées multimédias qu’avec des modèles d’IA séparés mais interconnectés pour chaque mode d’entrée.

Les exemples de capacités des Gémeaux, selon un document de recherche de Google (PDF), sont divers.

En regardant une série de formes composées d’un triangle, d’un carré et d’un pentagone, il peut deviner correctement que la forme suivante de la série est un hexagone. Présenté avec des photos de la Lune et une main tenant une balle de golf et invité à trouver le lien, il souligne à juste titre que les astronautes d’Apollo ont frappé deux balles de golf sur la Lune en 1971. Il a converti quatre graphiques à barres montrant l’élimination des déchets pays par pays. techniques dans un tableau étiqueté et repéré un point de données aberrant, à savoir que les États-Unis jettent beaucoup plus de plastique à la décharge que les autres régions.

La société a également montré à Gemini traitant un problème de physique manuscrit impliquant un simple croquis, déterminant où se trouvait l’erreur d’un élève et expliquant une correction. Une vidéo de démonstration plus complexe montrait Gemini reconnaissant un canard bleu, des marionnettes à main, des tours de passe-passe et d’autres vidéos. Cependant, aucune des démos n’était en direct et on ne sait pas exactement à quelle fréquence Gemini relève de tels défis.

Gemini Ultra attend des tests supplémentaires avant d’apparaître l’année prochaine.

Une « équipe rouge », dans laquelle un fabricant de produits recrute des personnes pour détecter des vulnérabilités de sécurité et d’autres problèmes, est en cours pour Gemini Ultra. De tels tests sont plus compliqués avec les données d’entrée multimédia. Par exemple, un message texte et une photo peuvent être inoffensifs en soi, mais lorsqu’ils sont associés, ils peuvent transmettre une signification radicalement différente.

« Nous abordons ce travail avec audace et responsabilité », a déclaré le PDG de Google, Sundar Pichai, dans un article de blog. Cela signifie une combinaison de recherches ambitieuses avec d’importants bénéfices potentiels, mais également l’ajout de garanties et une collaboration avec les gouvernements et d’autres « pour faire face aux risques à mesure que l’IA devient plus performante ».

Note de l’éditeur : CNET utilise un moteur d’IA pour créer certaines histoires. Pour en savoir plus, consultez cet article.



Laisser un commentaire

Votre adresse e-mail ne sera pas publiée. Les champs obligatoires sont indiqués avec *

*