A Microsoft disponibiliza em open-source o modelo Phi-Ground 4B, com desempenho superior ao do OpenAI Operator e do Claude na precisão de cliques no ecrã

Segundo a Beating, a Microsoft lançou recentemente de forma open-source a família de modelos Phi-Ground, concebida para resolver o problema de onde a IA deve clicar num ecrã de computador. A versão com 4 mil milhões de parâmetros, emparelhada com modelos de linguagem maiores para planeamento de instruções, superou a precisão de cliques do OpenAI Operator e do Claude Computer Use no benchmark Showdown e ficou em primeiro lugar entre todos os modelos com menos de 100 mil milhões de parâmetros, em cinco avaliações, incluindo ScreenSpot-Pro.

A equipa treinou com mais de 40 milhões de amostras de dados e descobriu que três técnicas de treino comuns utilizadas em artigos académicos deixaram de ser eficazes à escala. A abordagem principal revelou-se simples: gerar coordenadas como números regulares, como “523, 417”. Pesquisas anteriores inventaram vocabulários de posições especializados para coordenadas, mas isso não escalou. A equipa também descobriu que colocar instruções de texto antes das imagens melhorou o desempenho, já que os modelos podiam identificar alvos ao processar os pixéis. Além disso, métodos de aprendizagem por reforço como DPO melhoraram a precisão mesmo após afinação (fine-tuning).

Isenção de responsabilidade: As informações contidas nesta página podem ser provenientes de terceiros e não representam os pontos de vista ou opiniões da Gate. O conteúdo apresentado nesta página é apenas para referência e não constitui qualquer aconselhamento financeiro, de investimento ou jurídico. A Gate não garante a exatidão ou o carácter exaustivo das informações e não poderá ser responsabilizada por quaisquer perdas resultantes da utilização destas informações. Os investimentos em ativos virtuais implicam riscos elevados e estão sujeitos a uma volatilidade de preços significativa. Pode perder todo o seu capital investido. Compreenda plenamente os riscos relevantes e tome decisões prudentes com base na sua própria situação financeira e tolerância ao risco. Para mais informações, consulte a Isenção de responsabilidade.

Related Articles

A Baidu lança o modelo Ernie 5.1 a 6% do custo de treino comparável

De acordo com o Chosun Daily, a Baidu lançou hoje (11 de maio) o seu modelo Ernie 5.1, oferecendo desempenho comparável ao de sistemas líderes a cerca de 6% do custo de pré-treino de modelos semelhantes. No benchmark Arena, o Ernie 5.1 ficou em primeiro lugar entre os modelos chineses e em quarto lugar no total, atrás do GPT-5.5 da OpenAI e do Claude Opus 4.6 e 4.7 da Anthropic.

GateNews3m atrás

CEO da Qualcomm: 2026 marca o início da era dos agentes pessoais de IA, smartphones perdem o papel central

De acordo com a revista Fortune, o CEO da Qualcomm, Cristiano Amon, afirmou a 11 de maio que 2026 marca o início da era dos agentes de IA pessoais, com os smartphones a perderem a sua posição central como dispositivo informático pessoal principal. Amon prevê que os óculos de IA vão surgir como o próximo formato dominante, citando o seu encaixe natural para a perceção visual e a interação por voz, permitindo experiências pessoais de IA perfeitamente integradas. Amon revelou que a primeira geração

GateNews14m atrás

Funcionários da OpenAI venderam 6,6 mil milhões de dólares em ações em outubro de 2025, em venda secundária

De acordo com o Wall Street Journal, os funcionários da OpenAI venderam mais de 6,6 mil milhões de dólares em ações numa venda secundária em outubro de 2025, com participantes individuais capazes de levantar até 30 milhões de dólares cada. Mais de 600 funcionários atuais e anteriores participaram, e cerca de 75 deles venderam o montante máximo. A transação avaliou a OpenAI em aproximadamente 400 mil milhões de dólares.

GateNews23m atrás

A Gemini ultrapassa o ChatGPT na quota de mercado das aplicações, chegando a 25% desde o início de 2026, impulsionada pela Nano Banana e pela Gemini 3

De acordo com o investigador Yu Shunyu, da Google DeepMind, a quota de mercado da aplicação da Gemini atingiu cerca de 25% desde o início de 2026, ultrapassando a queda do ChatGPT, de 69% para 45%. A inversão foi impulsionada pelo produto viral de geração de imagens Nano Banana, que gerou grandes transferências da aplicação, seguido do lançamento da Gemini 3, que manteve os utilizadores. Internamente, a Google reorganizou a sua estrutura de investigação em IA. O pré-treino tornou-se um projeto d

GateNews51m atrás

A Alphabet planeia a primeira emissão de obrigações em ienes para financiar despesas com IA, olhando para até US$190B em despesas de capital

De acordo com a Bloomberg, a Alphabet planeia vender obrigações em ienes pela primeira vez para ajudar a financiar o aumento da sua infraestrutura de IA e a despesa com centros de dados. A medida segue-se a recentes vendas de obrigações em euros e em dólares canadenses que arrecadaram quase 17 mil milhões de dólares. A dívida da Alphabet subiu acima de 100 mil milhões de dólares, e a empresa aumentou a sua previsão de despesas de capital para até 190 mil milhões de dólares, face aos 185 mil milh

GateNews1h atrás

O primeiro lote de financiamento de 50 mil milhões de renminbis está quase concluído, com a participação de várias rondas, e a Alibaba e a Tencent vão investir cada uma 10 mil milhões.

De acordo com um artigo publicado em 11 de maio pela PanDaily, que cita fontes conhecedoras do assunto, a primeira ronda de financiamento da empresa chinesa de IA DeepSeek está perto de ser concluída. O montante deverá rondar os 50 mil milhões de renminbi (cerca de 7,35 mil milhões de dólares). Se for concluída com sucesso, poderá quebrar o recorde de financiamento em uma única ronda das empresas chinesas de IA. Segundo várias notícias que citam fontes conhecedoras, a estrutura do financiamento

MarketWhisper3h atrás
Comentar
0/400
Nenhum comentário