A gigante da tecnologia, Google, acaba de disponibilizar para o público em geral a sua mais recente criação: o Imagen 3. Anunciado em maio durante a conferência Google I/O, o modelo de geração de imagem por texto promete rivalizar com outros grandes nomes do setor, como Midjourney, DALL-E 3 e o polêmico Grok-2 da X.
Ao contrário do modelo da X, conhecido por gerar imagens com direitos autorais e deepfakes de personalidades públicas, o Google afirma ter adotado uma abordagem mais cautelosa. A empresa diz ter utilizado “filtragem extensiva e rotulagem de dados para minimizar conteúdo prejudicial nos conjuntos de dados e reduzir a probabilidade de saídas nocivas”. Além disso, as imagens geradas pelo Imagen 3 possuem a marca d’água digital SynthID, que permite identificar a origem da imagem.
Em termos de capacidade, o Google destaca uma maior versatilidade e compreensão de prompts, imagens de qualidade superior e melhor renderização de texto – um desafio persistente para todos os modelos de geração de imagem por IA.
Primeiros testes realizados por usuários já indicam resultados impressionantes. No entanto, alguns usuários no Reddit têm criticado o modelo por ser excessivamente restritivo quanto ao tipo de imagem que pode gerar. Diversos exemplos foram compartilhados de prompts simples que foram rejeitados pelo sistema.
Para aqueles interessados em experimentar o Imagen 3 e testar pessoalmente os limites do que o Google considera ofensivo ou inapropriado, o modelo está disponível atualmente através do ImageFX e VertexAI. Em breve, o Imagen 3 estará integrado a outros recursos de IA do Google, como o Workspace e Gemini, tanto para web quanto para dispositivos móveis.