Google DeepMind lançou o Gemini Robotics-ER 1.6, o robô Spot já consegue ler painéis de instrumentos automaticamente

robot
Geração do resumo em andamento

Notícias ME, 14 de abril (UTC+8), de acordo com a monitorização da 1M AI News, o DeepMind do Google lançou o Gemini Robotics-ER 1.6, posicionado como um modelo de raciocínio de alto nível para robôs, apresentando melhorias significativas em raciocínio espacial e compreensão de múltiplas perspectivas em comparação com as versões anteriores ER 1.5 e Gemini 3.0 Flash. O modelo já está disponível para desenvolvedores através da Gemini API e do Google AI Studio. As principais atualizações incluem três capacidades: 1. Melhoria na precisão de apontamento: pode ser usado para detecção precisa de objetos, contagem, raciocínio de relações espaciais (como “apontar todos os objetos que cabem em um copo azul”) e planejamento de trajetórias de movimento, além de rejeitar corretamente objetos que não estão na imagem 2. Detecção bem-sucedida de múltiplas perspectivas: o robô agora consegue avaliar se a tarefa foi concluída integrando imagens de várias câmeras, mantendo precisão mesmo em ambientes com obstáculos ou dinâmicos 3. Nova capacidade de leitura de instrumentos: pode interpretar diversos instrumentos industriais, como manômetros circulares, indicadores de nível vertical e telas digitais, usando raciocínio visual (vision reasoning) + execução de código para raciocínio passo a passo, ampliando detalhes, usando apontamento e cálculos de proporção e intervalo por meio de código, e finalmente combinando com conhecimento do mundo para obter a leitura. A capacidade de leitura de instrumentos vem da colaboração entre DeepMind e Boston Dynamics. No mesmo dia, a Boston Dynamics anunciou que integrou o Gemini e o Gemini Robotics-ER 1.6 ao seu produto Orbit AIVI-Learning, lançado para todos os clientes AIVI-Learning em 8 de abril. Após a integração, foi adicionada a funcionalidade de suporte a painéis de instrumentos (gauges), permitindo que o robô quadrúpede Spot realize inspeções autônomas em instalações industriais e leia dados de instrumentos como manômetros. A Boston Dynamics afirmou que, com a capacidade de raciocínio do Gemini, o desempenho de base e a precisão em tarefas como inspeção visual, contagem de paletes e detecção de líquidos aumentaram. A DeepMind afirma que o ER 1.6 é seu “modelo de robô mais seguro”. Em tarefas de raciocínio espacial adversarial, a conformidade com comandos de segurança foi significativamente superior ao ER 1.5. Nos testes de identificação de riscos de segurança baseados em relatórios reais de ferimentos, os modelos da série ER superaram o Gemini 3.0 Flash em 6% no cenário de texto e em 10% no cenário de vídeo. (Fonte: BlockBeats)

Ver original
Esta página pode conter conteúdo de terceiros, que é fornecido apenas para fins informativos (não para representações/garantias) e não deve ser considerada como um endosso de suas opiniões pela Gate nem como aconselhamento financeiro ou profissional. Consulte a Isenção de responsabilidade para obter detalhes.
  • Recompensa
  • Comentário
  • Repostar
  • Compartilhar
Comentário
Adicionar um comentário
Adicionar um comentário
Sem comentários
  • Marcar