Google's Gemini 3 Deep Think Grande Atualização: capacidade de raciocínio supera Opus 4.6, GPT-5.2, para se tornar a IA mais voltada para a pesquisa científica

動區BlockTempo
BTC2,04%

A Google lançou uma grande atualização do Gemini 3 Deep Think, superando significativamente o Claude Opus 4.6 (68,8%) e o GPT-5.2 (52,9%) no teste ARC-AGI-2 em 84,6%, alcançando o título de “Grande Mestre Lendário” no Codeforce.
(Resumo: É introduzido o modelo de aprendizagem do ChatGPT: o crepúsculo das explicações ou o alvorecer da idade dourada da educação? )
(Suplemento de contexto: A Google lançou oficialmente o “Gemini 3”!) Quais são os destaques de alcançar o topo do modelo de IA mais inteligente do mundo? )

Índice deste artigo

  • Não só exames, mas também apanhar erros humanos
  • Alterações da crosta na quota de mercado
  • Efeito dominó na indústria cripto
  • A ciência está apenas a começar

A Google lançou hoje (13) uma grande atualização para o Gemini 3 Deep Think. No teste ARC-AGI-2 (um teste de raciocínio especificamente para evitar a memorização de bancos de perguntas por IA, não testa quanto sabes nem se consegues resumir as regras a partir de vários exemplos), o Gemini 3 Deep Think obteve 84,6%.

Para referência, Claude Opus 4.6 (modo Thinking Max) obteve 68,8%, GPT-5.2 (modo Thinking xhigh) 52,9% e a pontuação média humana foi cerca de 60%.

O que é ainda mais surpreendente é que, no ARC-AGI-1 original, o Deep Think obteve 96%, basicamente levando este benchmark, que antes era considerado “um dos exames mais difíceis da IA”, ao máximo.

O Deep Think está atualmente disponível para subscritores do Google AI Ultra, e a API está aberta a empresas em acesso antecipado.

Não só exames, mas também erros humanos

Para além das pontuações em curso, a Google mencionou um detalhe no anúncio: o Deep Think identificou com sucesso uma brecha lógica que nenhum dos revisores tinha descoberto anteriormente ao rever um artigo matemático que tinha sido revisto por pares. Este artigo foi confirmado por matemáticos da Universidade Rutgers.

A importância deste caso não reside no desempenho do modelo em testes padronizados, mas na sua capacidade de demonstrar em cenários científicos reais e abertos. A revisão por pares é o principal mecanismo de controlo de qualidade na academia e, se a IA conseguir fornecer consistentemente uma assistência valiosa neste processo, o seu efeito acelerador na investigação científica será muito além do que pode ser medido por qualquer referência.

O Deep Think também alcançou o nível de medalha de ouro na secção de testes escritos da Olimpíada Internacional de Física e Olimpíada de Química de 2025, com uma pontuação Elo de 3.455 no Codeforce, que corresponde ao nível “Grande Mestre Lendário”, que é apenas um pequeno número de programadores humanos no mundo capazes de atingir este nível.

No “Último Exame da Humanidade”, um benchmark criado por especialistas em várias áreas e deliberadamente dificultado para a IA responder, o Deep Think obteve 48,4% (sem usar ferramentas), estabelecendo também um novo recorde.

Alterações da crosta na quota de mercado

A corrida tecnológica dos Três Grandes da IA está a mudar o panorama do mercado. A quota de mercado do ChatGPT caiu de 87% no seu pico para cerca de 68%, enquanto o Gemini subiu de menos de 5% para mais de 18%, e o Claude da Anthropic tem vindo a corroer de forma constante o mercado a nível empresarial.

A vantagem única da Google nesta corrida é a sua capacidade de distribuir. O Gemini está integrado no Android, navegador Chrome, Google Workspace e motores de busca, o que significa que, mesmo que esteja empatado com os concorrentes em termos de capacidades de modelo, a Google pode conquistar utilizadores através das vantagens do canal.

Mas a vantagem de distribuição é uma faca de dois gumes. Se a experiência da Gemini não for suficientemente boa, pode perder a confiança dos utilizadores mais rapidamente do que qualquer concorrente porque os utilizadores estão “passivamente envolvidos” em vez de “ativamente escolhidos”. Os utilizadores da OpenAI estão a pagar ativamente e naturalmente têm maior tolerância e aderência.

Efeito dominó na indústria cripto

Cada atualização na corrida armamentista da IA está a aumentar a procura por infraestruturas informáticas. O custo dos clusters de GPU necessários para treinar um modelo de ponta disparou de centenas de milhões de dólares em 2024 para milhares de milhões em 2026. Isto também afeta diretamente duas coisas.

**Primeiro, o caminho de transformação dos mineiros de Bitcoin.**Quando os lucros de mineração são comprimidos (a JPMorgan Chase & Co. estima que os custos de produção do BTC caíram para 7,7 milhões de dólares esta semana, enquanto o preço da moeda ronda os 6,6 milhões), os mineiros com infraestruturas de computação em grande escala estão a acelerar a sua transição para serviços de computação com IA.

As empresas de mineração de alto custo não estão a “sair”, mas sim a “mudar de carreira”, desde minerar Bitcoin até rendimentos de contratos que fornecem poder computacional de IA.

**Segundo, a narrativa dos tokens de IA.**Sempre que a Google, OpenAI ou Anthropic lançam uma grande atualização, tokens relacionados com IA on-chain, como protocolos de computação descentralizada, costumam ser alvo de hype a curto prazo.

Mas o problema fundamental destes tokens não mudou: a computação descentralizada ainda está longe da procura por treino de IA ao nível empresarial em termos de latência e rendimento. A narrativa pode correr rápido, mas a infraestrutura não consegue acompanhar a velocidade da narrativa.

O desempate científico acabou de começar

A atualização para o Deep Think coloca a Google de volta na posição de liderança na corrida à IA, pelo menos nos campos do raciocínio e da ciência. Mas se olhar atentamente para a redação do anúncio da Google, notará uma mudança subtil de posicionamento: em vez de enfatizar “a IA de uso geral mais inteligente”, menciona repetidamente “feita para a ciência”.

À medida que os benchmarks de IA de uso geral se tornam mais saturados e difíceis de diferenciar, “A minha IA pode ajudar-te a fazer investigação científica” é uma proposta de valor mais convincente do que “A minha IA tem a pontuação contínua mais alta.” Se o Deep Think conseguir realmente ajudar de forma fiável na revisão por pares, acelerar a descoberta de fármacos ou encontrar soluções que os humanos perdem em simulações de física, fará mais sentido do que qualquer lista de benchmarks.

O problema é que a diferença entre “pode obter pontuações elevadas em benchmarks” e “pode ajudar de forma fiável humanos em cenários científicos reais” pode ser maior do que o Google sugere, afinal, os benchmarks têm respostas padrão, a ciência não.

Isenção de responsabilidade: As informações contidas nesta página podem ser provenientes de terceiros e não representam os pontos de vista ou opiniões da Gate. O conteúdo apresentado nesta página é apenas para referência e não constitui qualquer aconselhamento financeiro, de investimento ou jurídico. A Gate não garante a exatidão ou o carácter exaustivo das informações e não poderá ser responsabilizada por quaisquer perdas resultantes da utilização destas informações. Os investimentos em ativos virtuais implicam riscos elevados e estão sujeitos a uma volatilidade de preços significativa. Pode perder todo o seu capital investido. Compreenda plenamente os riscos relevantes e tome decisões prudentes com base na sua própria situação financeira e tolerância ao risco. Para mais informações, consulte a Isenção de responsabilidade.

Related Articles

Alerta TradFi Queda: VIX (VIX) Cai acima de 3%

Gate News: De acordo com os dados mais recentes da Gate TradFi, VIX (VIX) registou caiu de 3% num curto espaço de tempo. A volatilidade atual está significativamente acima das médias recentes, indicando uma maior atividade no mercado.

GateNews9m atrás

A SWIFT inicia o lançamento de um livro-razão da rede Ethereum L2, com 30 bancos em conjunto para criar liquidações transfronteiriças 24/7

A SWIFT anunciou a 30 de março de 2023 que o seu livro-razão partilhado baseado em blockchain entrou no desenvolvimento de um produto mínimo viável (MVP), prevendo-se a sua entrada em funcionamento em 2026. Este livro-razão foi concebido por mais de 30 instituições financeiras e suporta transferências em tempo real de depósitos tokenizados, stablecoins e moeda digital do banco central. A documentação da blockchain da SWIFT visa resolver os problemas estruturais das transferências transfronteiriças tradicionais, melhorando a eficiência e reduzindo custos. Este livro-razão privado não utiliza criptomoeda nativa, mas depende de tecnologia Ethereum L2.

MarketWhisper26m atrás

Alerta TradFi Subida: XAUUSD (Gold) Sobe acima de 2%

Gate News: De acordo com os dados mais recentes da Gate TradFi, XAUUSD (Gold) registou aumentou de 2% num curto espaço de tempo. A volatilidade atual está significativamente acima das médias recentes, indicando uma maior atividade no mercado.

GateNews1h atrás

O ETF de Bitcoin termina quatro semanas consecutivas de subidas, com o IBIT a registar uma recompra/saída líquida aguda de 200 milhões de dólares num único dia

Os ETF de criptomoedas à vista nos EUA registaram saídas de capitais na última semana de março, com saídas agregadas de cerca de 503 milhões de dólares nos ETF de Bitcoin e Ethereum. Embora os ETF de Bitcoin tenham tido quatro semanas consecutivas de entradas líquidas, esta semana viraram para resgates, principalmente devido à deterioração do sentimento do mercado. Os ETF de Ethereum continuaram a registar saídas, mas o ETHB da BlackRock registou entradas líquidas devido à funcionalidade de staking, o que indica a atenção das instituições por produtos geradores de rendimento. Os ETF de XRP registaram, contra a tendência, uma ligeira entrada, mas ainda não é suficiente para representar uma mudança do mercado para altcoins.

MarketWhisper1h atrás

ETH subida de 1,04% em 15 minutos: a procura spot das instituições e a actividade na cadeia, em sintonia, impulsionam a subida

2026-03-31 01:15 a 2026-03-31 01:30 (UTC), o ETH registou uma rendibilidade de +1,04% no espaço de 15 minutos, com uma faixa de preços entre 2039,77 e 2062,77 USDT, com uma amplitude de 1,13%. Durante este período, a volatilidade do mercado intensificou-se, a actividade de negociação disparou e a atenção ao curto prazo aumentou. O principal factor por detrás desta variação foi a entrada contínua de fundos institucionais via ETF spot, com a procura no mercado spot de Ethereum a ser dominada por ordens de compra. Aumentaram as transferências on-chain de grande montante; em pouco tempo, as baleias aumentaram as suas posições, com fundos provenientes de várias bolsas de referência, o que impulsionou ainda mais a demanda e contribuiu para a volatilidade observada.

GateNews1h atrás

Estratégia de ações preferenciais STRC listada na plataforma do Reino Unido, podendo os investidores enfrentar dupla tributação

A STRC, uma ação preferencial da Strategy, foi cotada em 30 de março numa plataforma de negociação no Reino Unido, mas os investidores britânicos enfrentam uma carga fiscal elevada. Recomenda-se que os investidores do Reino Unido considerem o 21Shares Strategy Yield ETP, uma vez que oferece melhores benefícios fiscais e não tem encargos de imposto sobre o rendimento.

GateNews1h atrás
Comentar
0/400
Nenhum comentário