A Google DeepMind está abrindo o acesso ao Project Genie, sua ferramenta de inteligência artificial para criar mundos de jogos interativos a partir de prompts de texto ou imagens. A partir desta quinta-feira, assinantes do Google AI Ultra nos Estados Unidos podem experimentar o protótipo de pesquisa experimental.
O sistema é alimentado por uma combinação do mais recente modelo de mundo da empresa, o Genie 3, seu modelo de geração de imagens Nano Banana Pro e o Gemini. A liberação ocorre cinco meses após a prévia de pesquisa do Genie 3 e faz parte de um esforço maior para coletar feedback dos usuários e dados de treinamento.
A corrida pelos modelos de mundo
Modelos de mundo são sistemas de IA que geram uma representação interna de um ambiente e podem ser usados para prever resultados futuros e planejar ações. Muitos líderes em IA, incluindo os da DeepMind, acreditam que eles são um passo crucial para alcançar a inteligência artificial geral (IAG). A curto prazo, laboratórios como o DeepMind visam um plano de comercialização que começa com videogames e outras formas de entretenimento e se expande para o treinamento de agentes corporificados (robôs) em simulação.
“Acho emocionante estar em um lugar onde podemos ter mais pessoas acessando e nos dando feedback”, disse Shlomi Fruchter, diretor de pesquisa da DeepMind, em entrevista por vídeo ao TechCrunch. O lançamento do Project Genie ocorre enquanto a corrida pelos modelos de mundo começa a esquentar, com concorrentes como o World Labs, da cientista Fei-Fei Li, e a startup Runway também lançando produtos semelhantes.
Como funciona e suas limitações
O usuário começa com um "esboço de mundo" fornecendo prompts de texto para o ambiente e um personagem principal. O Nano Banana Pro cria uma imagem baseada nas instruções, que pode ser modificada antes que o Genie a use como ponto de partida para um mundo interativo. Também é possível usar fotos da vida real como base, embora os resultados sejam inconsistentes.
Atualmente, a DeepMind está concedendo apenas 60 segundos de geração e navegação de mundo, em parte devido a restrições orçamentárias e de capacidade computacional. “A razão pela qual limitamos a 60 segundos é porque queríamos trazê-lo para mais usuários”, explicou Fruchter. Extensões além desse tempo diminuiriam o valor incremental dos testes, dado o nível atual de interação e dinamismo dos ambientes.
Restrições e desempenho variável
Durante os testes, os pesquisadores foram transparentes sobre a natureza experimental da ferramenta. Ela pode ser inconsistente, às vezes gerando mundos jogáveis de forma impressionante, outras vezes produzindo resultados confusos. Os modelos se saíram bem na criação de mundos baseados em prompts artísticos, como aquarelas, estilo anime ou estética de desenho clássico, mas tendem a falhar em mundos fotorrealistas ou cinematográficos.
Além disso, a navegação no espaço usando as teclas de seta e W-A-S-D pode ser não responsiva ou enviar o personagem na direção errada. A interatividade também é um ponto a ser aprimorado, com personagens ocasionalmente atravessando paredes ou outros objetos sólidos.
Próximos passos e visão futura
Shlomi Fruchter afirmou que sua equipe está ciente dessas deficiências e que o Project Genie é um protótipo experimental. No futuro, a equipe espera melhorar o realismo e as capacidades de interação, incluindo dar aos usuários mais controle sobre ações e ambientes. “Não pensamos no [Project Genie] como um produto pronto para as pessoas voltarem todos os dias, mas achamos que já há um vislumbre de algo interessante e único que não pode ser feito de outra forma”, concluiu o diretor de pesquisa.