Google DeepMind a publié Gemini Robotics-ER 1.6, le robot Spot peut désormais lire automatiquement le tableau de bord

robot
Création du résumé en cours

ME News Actualités, le 14 avril (UTC+8), selon la surveillance de 1M AI News, Google DeepMind a publié Gemini Robotics-ER 1.6, positionné comme un modèle de raisonnement de haut niveau pour robots, avec des améliorations significatives par rapport à ses prédécesseurs ER 1.5 et Gemini 3.0 Flash en matière de raisonnement spatial et de compréhension multi-vues. Le modèle est désormais accessible aux développeurs via l’API Gemini et Google AI Studio.
Les principales améliorations comprennent trois capacités :

  1. Amélioration de la précision de la pointer (pointing) : utilisable pour la détection précise d’objets, le comptage, le raisonnement sur les relations spatiales (par exemple « indiquer tous les objets pouvant tenir dans un verre bleu ») et la planification de trajectoire de mouvement, tout en étant capable de refuser correctement de pointer vers des objets inexistants dans l’image.
  2. Détection multi-vues réussie : le robot peut maintenant juger si une tâche est accomplie en combinant plusieurs images de caméras, même en cas d’obstruction ou dans un environnement dynamique, tout en maintenant une précision élevée.
  3. Nouvelle capacité de lecture d’instruments : capable d’interpréter divers instruments industriels tels que manomètres circulaires, indicateurs de niveau vertical et écrans numériques, en utilisant la vision agentique (raisonnement visuel + exécution de code) pour une déduction progressive, en zoomant d’abord sur la zone de détail, puis en utilisant la pointer et le calcul de code pour déterminer le rapport et l’espacement, et enfin en combinant la connaissance du monde pour obtenir la lecture.
    La capacité de lecture d’instruments provient de la collaboration entre DeepMind et Boston Dynamics. Le même jour, Boston Dynamics a annoncé avoir intégré Gemini et Gemini Robotics-ER 1.6 dans son produit Orbit AIVI-Learning, déployé le 8 avril à tous ses clients AIVI-Learning.
    Après l’intégration, la prise en charge des tableaux de bord (gauges) a été ajoutée, permettant au robot quadrupède Spot d’effectuer des inspections autonomes dans des installations industrielles et de lire des données d’instruments comme les manomètres.
    Boston Dynamics affirme qu’avec la capacité de raisonnement de Gemini, la performance de base et la précision d’AIVI-Learning dans des tâches telles que l’inspection visuelle, le comptage de palettes et la détection de liquide ont également été améliorées.
    DeepMind affirme que ER 1.6 est « son modèle de robot le plus sûr ». Lors de tâches de raisonnement spatial antagoniste, la conformité aux instructions de sécurité est nettement meilleure qu’avec ER 1.5.
    Dans les tests de reconnaissance des risques de sécurité basés sur des rapports de blessures réels, les modèles de la série ER surpassent Gemini 3.0 Flash de 6 % en scène textuelle et de 10 % en scène vidéo.
    (Source : BlockBeats)
Voir l'original
Cette page peut inclure du contenu de tiers fourni à des fins d'information uniquement. Gate ne garantit ni l'exactitude ni la validité de ces contenus, n’endosse pas les opinions exprimées, et ne fournit aucun conseil financier ou professionnel à travers ces informations. Voir la section Avertissement pour plus de détails.
  • Récompense
  • Commentaire
  • Reposter
  • Partager
Commentaire
Ajouter un commentaire
Ajouter un commentaire
Aucun commentaire
  • Épingler