Google DeepMind lançou o Gemini Robotics-ER 1.6, o robô Spot já consegue ler painéis de instrumentos automaticamente

robot
Geração do resumo em andamento

Notícias do ME News, 14 de abril (UTC+8), de acordo com a monitorização da 1M AI News, o DeepMind do Google lançou o Gemini Robotics-ER 1.6, posicionado como um modelo de raciocínio de alto nível para robôs, apresentando melhorias significativas em raciocínio espacial e compreensão de múltiplas perspectivas em comparação com as versões anteriores ER 1.5 e Gemini 3.0 Flash. O modelo já está disponível para desenvolvedores através da Gemini API e do Google AI Studio. As principais atualizações incluem três capacidades: 1. Melhoria na precisão de apontamento: pode ser usado para detecção precisa de objetos, contagem, raciocínio de relações espaciais (como “apontar todos os objetos que cabem em um copo azul”) e planejamento de trajetórias de movimento, além de rejeitar corretamente objetos que não estão na imagem 2. Detecção bem-sucedida de múltiplas perspectivas: o robô agora consegue avaliar se a tarefa foi concluída combinando imagens de várias câmeras, mantendo precisão mesmo em ambientes com obstáculos ou dinâmicos 3. Nova capacidade de leitura de instrumentos: pode interpretar diversos instrumentos industriais, como manômetros circulares, indicadores de nível vertical e telas digitais, usando raciocínio visual (vision reasoning) + execução de código para raciocínio passo a passo, ampliando detalhes, usando apontamento e cálculos de proporção e intervalo por meio de código, e finalmente combinando conhecimento do mundo para obter a leitura. A capacidade de leitura de instrumentos vem da colaboração entre DeepMind e Boston Dynamics. No mesmo dia, a Boston Dynamics anunciou que integrou o Gemini e o Gemini Robotics-ER 1.6 ao seu produto Orbit AIVI-Learning, lançado para todos os clientes AIVI-Learning em 8 de abril. Após a integração, foi adicionada a suporte a painéis de instrumentos (gauges), permitindo que o robô quadrúpede Spot realize inspeções autônomas em instalações industriais e leia dados de instrumentos como manômetros. A Boston Dynamics afirmou que, com a capacidade de raciocínio do Gemini, o desempenho de base e a precisão em tarefas como inspeção visual, contagem de paletes e detecção de líquidos aumentaram. A DeepMind afirma que o ER 1.6 é seu “modelo de robô mais seguro”. Em tarefas de raciocínio espacial adversarial, a conformidade com comandos de segurança superou significativamente o ER 1.5. Nos testes de identificação de riscos de segurança baseados em relatórios reais de ferimentos, os modelos da série ER tiveram um aumento de 6% em cenários de texto e 10% em cenários de vídeo em relação ao Gemini 3.0 Flash. (Fonte: BlockBeats)

Ver original
Esta página pode conter conteúdo de terceiros, que é fornecido apenas para fins informativos (não para representações/garantias) e não deve ser considerada como um endosso de suas opiniões pela Gate nem como aconselhamento financeiro ou profissional. Consulte a Isenção de responsabilidade para obter detalhes.
  • Recompensa
  • Comentário
  • Repostar
  • Compartilhar
Comentário
Adicionar um comentário
Adicionar um comentário
Sem comentários
  • Marcar