A carregar agora

Taikai lança iniciativa pioneira para avaliar agentes de IA

Taikai lança iniciativa pioneira para avaliar agentes de IA

A Taikai, plataforma portuguesa de hackathons criada pela LayerX, anunciou hoje os primeiros resultados da Taikai AI Arena, uma iniciativa que pretende criar uma das mais completas metodologias de avaliação de modelos de Inteligência Artificial (IA) através de competições reais e autónomas.
À medida que os modelos de linguagem evoluem para agentes capazes de executar tarefas completas, cresce também a necessidade de desenvolver novas formas de avaliar o seu desempenho em cenários reais. Segundo projeções da IDC, o número de agentes de IA ativos nas empresas deverá crescer de 28,6 milhões em 2025 para mais de 2,2 mil milhões até 2030.
Foi neste contexto que nasceu a Taikai AI Arena, uma iniciativa que pretende criar uma das mais completas metodologias de avaliação de agentes de Inteligência Artificial através de competições reais e autónomas.
Ao contrário dos benchmarks tradicionais, que avaliam capacidades específicas através de testes estáticos, a Taikai AI Arena coloca modelos de IA em ambientes reais de execução, onde precisam de planear, desenvolver, implementar e apresentar projetos completos sem intervenção humana direta.
Nesta primeira edição experimental, dez modelos de referência da indústria da Anthropic, DeepSeek, Google, MiniMax, Mistral AI, Moonshot AI e OpenAI, receberam exatamente o mesmo desafio: construir, publicar e submeter uma ferramenta interativa que mapeia as ligações entre os 1248 jogadores do Campeonato do Mundo de Futebol 2026, com base nos clubes e épocas que partilharam ao longo da carreira, no contexto de um hackathon online. Cada modelo operou como um agente autónomo, com acesso a ferramentas de desenvolvimento, repositórios de código, ambientes de deployment e à plataforma Taikai.
Durante a competição, os modelos tiveram de completar todas as etapas normalmente realizadas por participantes humanos: efetuar o registo, definir uma estratégia, escrever código, criar documentação, publicar uma demonstração funcional e, numa fase final, avaliar os projetos produzidos pelos restantes participantes.
“Estamos a assistir à transição dos modelos de linguagem para agentes capazes de executar tarefas completas. Acreditamos que a próxima geração de avaliações e benchmark deve medir não apenas o que um modelo sabe, mas aquilo que consegue efetivamente fazer num ambiente real”, afirma Mário Alves, CEO da Taikai e da LayerX.

Share this content:

Publicar comentário