Seja você um entusiasta ou um crítico das ferramentas de IA generativa, como o ChatGPT e o Stable Diffusion, é indiscutível que elas vieram para ficar e estão evoluindo rapidamente. Pesquisadores têm trabalhado em novas implementações que estão gradualmente se tornando mais visíveis, como uma nova ferramenta chamada DragGAN, que se assemelha à ferramenta Warp do Photoshop em esteroides.
Até mesmo os seguidores mais casuais das notícias de tecnologia já estão familiarizados com as ferramentas de IA generativa, como ChatGPT, Stable Diffusion, Midjourney e DALL-E. As grandes empresas de tecnologia estão correndo para desenvolver os melhores modelos de linguagem e incorporá-los em todos os softwares e serviços da web que usamos, e uma série de startups está trabalhando em ferramentas de IA especializadas para uma ampla variedade de casos de uso específicos.
O futuro da edição de imagens: DragGAN e a democratização da criatividade
Muitas dessas ferramentas podem gerar imagens ou textos úteis usando instruções simples que descrevem o que o usuário deseja descobrir ou o tipo de trabalho que ele está tentando realizar. Quando funciona, isso faz com que serviços como ChatGPT e DALL-E pareçam mágicos. Quando não funciona, somos lembrados de quão distantes estamos de substituir a criatividade humana por IA, se é que isso um dia será possível. Na verdade, muitas dessas ferramentas são “treinadas” com obras criadas por pessoas e exigem supervisão humana para melhorar sua saída para um nível significativo.
Dito isso, novas pesquisas em IA mostram que o progresso ainda está sendo feito em um ritmo acelerado, especialmente na área de manipulação de imagens. Um grupo de cientistas do Google, MIT, University of Pennsylvania e Max Planck Institute for Informatics na Alemanha publicou um artigo detalhando uma ferramenta experimental que pode tornar a edição de imagens mais fácil e acessível para pessoas comuns.
Para ter uma ideia do que é possível com a nova ferramenta, é possível alterar significativamente a aparência de uma pessoa ou objeto apenas clicando e arrastando em um recurso específico. Também é possível fazer coisas como alterar a expressão do rosto de alguém, modificar a roupa de um modelo de moda ou girar o objeto em uma foto como se fosse um modelo 3D. As demonstrações em vídeo são impressionantes, embora a ferramenta ainda não esteja disponível ao público no momento desta escrita.
Pode parecer apenas o Photoshop em esteroides, mas gerou interesse suficiente para derrubar o site da equipe de pesquisa. Afinal, as instruções de texto podem parecer simples na teoria, mas exigem muitos ajustes quando se precisa de algo muito específico ou quando são necessárias várias etapas para gerar a saída desejada.
Esse problema deu origem a uma nova profissão: a do “engenheiro de instruções de IA”. Dependendo da empresa e dos detalhes do projeto em questão, esse tipo de trabalho pode pagar até US$ 335.000 por ano e não requer um diploma.
Em contraste, a interface do usuário apresentada nos vídeos de demonstração sugere que em breve será possível para a pessoa comum realizar algumas das tarefas de um engenheiro de instruções de IA apenas clicando e arrastando na primeira saída de qualquer ferramenta de geração de imagens. Os pesquisadores explicam que o DragGAN irá “alucinar” conteúdo oculto, deformar um objeto ou modificar uma paisagem.
Os pesquisadores observam que o DragGAN pode transformar o conteúdo de uma imagem em apenas alguns segundos ao usar a placa de vídeo GeForce RTX 3090 da Nvidia, pois sua implementação não precisa usar várias redes neurais para obter os resultados desejados. O próximo passo será desenvolver um modelo semelhante para a edição baseada em pontos de modelos 3D. Aqueles que desejam saber mais sobre o DragGAN podem ler o artigo aqui. A pesquisa também será apresentada na SIGGRAPH em agosto.
Leia também: Worldcoin do chefe da OpenAI, arrecada quase US$ 100 milhões