L’IA d’Elon Musk voit, parle et comprend… mais pas encore sur tous les smartphones
Grok, l’intelligence artificielle développée par xAI, franchit un nouveau cap. L’assistant peut désormais analyser en temps réel ce que voit la caméra de votre téléphone. Et ce n’est pas tout : il devient aussi multilingue et plus interactif.
Depuis plusieurs mois, les grandes entreprises technologiques accélèrent dans le domaine de l’intelligence artificielle. OpenAI avec ChatGPT, Google avec Gemini et désormais xAI avec Grok multiplient les annonces. Ces assistants ne se contentent plus de répondre à des questions. Ils gagnent de nouvelles capacités : voir, parler, écouter, retenir. L’objectif est clair : créer des assistants capables d’interagir en temps réel avec le monde réel.
Dernière évolution en date, Grok peut désormais « voir » ce que filme la caméra de votre smartphone. Baptisée Grok Vision, cette fonctionnalité permet d’analyser un objet, un document ou une scène en direct, pour répondre instantanément à vos questions. L’option est disponible sur l’application iOS, mais pas encore sur Android. Elle fonctionne sur des éléments variés : panneau de rue, carte de visite, produit, emballage ou texte imprimé. Celle-ci peut par exemple vous expliquer la signification d’un symbole, vous aider à traduire une affiche ou identifier un objet en magasin.
Grok devient visuel, vocal et multilingue avec de nouvelles fonctions interactives
En plus de la vision, xAI déploie de nouvelles fonctions vocales. Grok comprend désormais plusieurs langues et peut répondre à l’oral, un peu à la manière de Gemini Live ou du mode vocal de ChatGPT. Cette interaction vocale permet aussi la recherche en temps réel, simplement en parlant. Ces nouveautés sont accessibles via le plan SuperGrok, facturé 45,60 euros par mois, à l’exception de Grok Vision qui reste gratuite pour tous les utilisateurs iOS.
Grok intègre aussi une mémoire, capable de retenir les échanges passés avec l’utilisateur pour proposer des réponses plus personnalisées. Une fonction “studio” permet également de générer des documents ou des applications par commande vocale ou visuelle. Avec ces ajouts, xAI cherche à se positionner comme une alternative concrète aux IA dominantes. La vision en temps réel, combinée à une interaction fluide, rapproche de ce dernier d’un véritable assistant intelligent, capable de comprendre le contexte, les objets et le langage.
Introducing Grok Vision, multilingual audio, and realtime search in Voice Mode. Available now.
Grok habla español
Grok parle français
Grok Türkçe konuşuyor
グロクは日本語を話す
ग्रोक हिंदी बोलता है pic.twitter.com/lcaSyty2n5— Ebby Amir (@ebbyamir) April 22, 2025