Princípios de UX para ferramentas de arte de Inteligência Artificial como DALL·E
Definindo uma direção para melhores ferramentas de geração de imagens.

Esse artigo faz parte da série de artigos UX Translations. Foi escrito originalmente por Hannah Johnston via UX Collective e traduzido para português com intenção de ajudar mais designers e alcançar um público ainda maior. Você pode conferir o artigo original no link abaixo:

No ano passado, eu experimentei vários sistemas de geração de imagens artísticas com Inteligência Artificial: VQGAN + CLIP e Diffusion no Google Colab, Midjourney, um sistema de geração de imagem baseado em texto construído no Discord, e DALL·E, uma ferramenta online de criação de imagens baseada em OpenAI. Como Designer de Experiência do Usuário por profissão, estou interessada não apenas nas imagens resultantes, mas também em como essas novas tecnologias moldam o processo criativo.
Juntei algumas orientações abaixo em um esforço para estimular a discussão de como podemos definir um guia para melhores interações de arte com o uso de Inteligência Artificial. Em primeiro lugar, este artigo destina-se àqueles que implementam sistemas de geração de imagens. Espero que os princípios abaixo levem ao desenvolvimento de ferramentas ainda melhores e mais amigáveis ao humanos. Para aqueles artistas novatos em geração de imagens, vocês podem também usar algumas técnicas úteis para desenvolver ainda mais seu ofício.
É incrível que uma imagem possa ser gerada a partir de uma única frase e, embora muitos estejam satisfeitos em parar por aí, outros criadores querem mais controle sobre as imagens. Mesmo no primórdio, já existem várias maneiras de moldar os resultados da IA:
Engenharia de pedidos
Embora não seja um recurso separado nem uma parte integrada às interfaces, existem muitos guias independentes e testes de imagem que visam fornecer nomes de estilos e outras palavras-chave que produzem os resultados desejados. O Midjourney também publicou algumas dicas úteis de pedidos.
Tamanho e qualidade
Ao lidar com imagens, há inevitáveis compensações entre tamanho, qualidade e velocidade. Construído em sistemas com base na nuvem, podemos usar hardwares que normalmente não teríamos acesso, permitindo uma geração de imagem significativamente mais rápida. Ambos Midjourney e DALL·E são incrivelmente rápidos. O DALL·E de alguma forma consegue gerar 6 imagens de alta qualidade em segundos. Mas dados os recursos finitos (e eles são sempre finitos), eu realmente prefiro a abordagem do Midjourney de gerar miniaturas iniciais com a opção de serem “aumentadas” mais tarde.
Proporção
Os limites da tecnologia significaram que vários dos VQGAN+CLIP iniciais e todas as difusões do Colabs se restringiram a proporção para 1:1 (quadrado). O Midjourney permite especificar proporções personalizadas e o DALL·E está preso em quadrados. Embora eu entenda haver obstáculos técnicos a serem superados, pouquíssimas imagens ficam melhores em um formato quadrado. A flexibilidade total é melhor, mas, no mínimo, as opções para retrato e paisagem tem um valor extremo para a criação de arte.
Imagens iniciais
VQGAN+CLIP e Midjourney permitem que você comece sua criação de arte a partir de uma imagem, carregada ou linkada, respectivamente. Embora um tanto tedioso, geralmente achei o carregamento para o Colabs mais fácil do que a abordagem do Midjourney, que requer um link para a imagem. DALL·E permite que você carregue uma imagem para geração futura de variantes ou edição. Isso é bastante fácil, mas o processo de armazenamento de imagens não é claro.
Variantes
Ambos Midjourney e DALL·E permitem que você trabalhe em cima de uma imagem, injetando uma quantidade desconhecida de aleatoriedades que definem a imagem em uma determinada direção. Embora falte precisão, é permitido um tipo de iteração automática. A facilidade da interação é bastante atraente, mas na minha experiência, muitas vezes leva várias gerações de ramificações de variantes para obter algo útil e, muitas vezes, desisto antes que chegue a esse ponto.



Edição e Retoque
A natureza baseada em código e texto do Google Colabs e do Midjourney, respectivamente, não se dão à intervenção direta da imagem.
Com DALL·E, é possível desenhar uma área diretamente na imagem e refazer um pedido para modificar (ou adicionar) essa parte da imagem. Esta funcionalidade pode ser o meu recurso DALL·E favorito. É útil, especialmente para levar uma imagem até um estado final, eliminando algo que você não queria lá. Também é útil para criar grandes composições de imagens, preservar um canto de uma imagem e estender à extremidade oposta. Atualmente, isso envolve o processamento de imagem fora do DALL·E, mas seria sensato considerar a integração desse recurso diretamente na interface.

Algumas pessoas criativas também começaram a gerar variantes de autorretratos (selfies) apagando o plano de fundo de uma imagem carregada e a regenerando.
Por mais que eu aprecie o recurso, seria ainda melhor com um indicador mais forte dentro do “modo de edição”. Não ficou imediatamente claro para mim por que um pedido totalmente diferente estava renderizando uma imagem muito semelhante à anterior. O chip na barra de pesquisa é um bom padrão, mas eu não o vi quando voltei para executar novamente um novo pedido.

Acelere ou faça valer o tempo em andamento
Embora não sejam inerentes ao sistema, muitos dos primeiros VQGAN+CLIP Colabs exibiam imagens em andamento em vários momentos, tornando também possível exportar esses quadros unidos em sequência como um vídeo. Há algo um tanto mágico em ver imagens surgirem do nada.

A exibição progressiva também era útil para determinar quando encerrar o processo generativo. Eu normalmente definia o número de iterações artificialmente alto e, em seguida, cortaria manualmente o processo quando ele alcançasse o que estivesse satisfeita ou quando parecesse que os retornos estivessem diminuindo.
Depois que uma solicitação é emitida para o bot, o Midjourney exibe o progresso de maneira semelhante, refinando e adicionando detalhes progressivamente para as 4 miniaturas de imagem iniciais ou 1 imagem aprimorada. Isso acontece velozmente no modo “rápido”. Em geral, à medida que esses sistemas se tornam mais eficientes — ou mais recursos são dedicados ao processamento — menos tempo é necessário para a geração. Há um sinal que você pode definir para parar a geração de imagem em uma porcentagem anterior, mas você deve especificar isso ao fazer a solicitação. Da mesma forma, você pode optar por ter um vídeo de progresso salvo, se você fizer a escolha com antecedência.
O DALL·E não fornece imagens em andamento. É muito rápido e, como você não pode parar a geração de imagens no meio do caminho, não é um impedimento sério. No entanto, parece um pouco mais chato.
Oferece facilidade em salvar e evita a perda de imagem
Criar imagens é apenas uma parte da experiência. Se elas são um tanto boas (ou divertidamente ruins), as pessoas querem salvá-las, baixá-las ou compartilhá-las. Esse processo deve ser fácil e corresponder às expectativas para evitar perdas acidentais.
O sistema Google Colab em si, é realmente apenas uma casca, e assim não fará absolutamente nada para salvar quaisquer imagens (ou progresso da imagem) que não tiver sido implementado por você mesmo. Alguns desenvolvedores prestativos adicionaram funcionalidades para se conectar diretamente ao Google Drive, permitindo o salvamento automático ou o fornecimento de downloads de tempos em tempos.
Midjourney é por padrão uma comunidade aberta de compartilhamento, a menos que você pague a mais pelo modo privado. Normalmente, as imagens são criadas em um canal cheio no Discord, geralmente com muitas pessoas as gerando simultaneamente. Isso pode dar às imagens uma espécie de sensação efêmera — elas rolam à medida que novas solicitações chegam e mais imagens são geradas. Existem soluções alternativas: você pode trabalhar em um canal privado ou mandar mensagem privada para o bot, mas o Discord ainda pode ser uma interface frustrante, especialmente para recuperação posterior. Para contornar isso (e provavelmente por outros motivos inteligentes), a equipe do Midjourney criou uma galeria baseada na rede para suas imagens, tanto variações em miniatura (thumbnails) quanto ampliações de imagem. Embora ainda não haja uma opção de download em massa, ainda é mais simples salvar imagens da rede.

Minha única pergunta notável frente a Midjourney é sobre a retenção de imagens. Presumo que não poderei voltar no tempo indefinidamente, mas espero que esses limites (se ou quando existirem) sejam esclarecidos
Com o DALL·E, eu inicialmente fiquei muito animada ao ver um painel no lado direito com as coleções de imagens executadas anteriormente, mas depois percebi que elas eram um tanto efêmeras e apenas as mais recentes permaneciam visíveis. Isso foi lamentável porque eu teria feito um trabalho melhor de salvar ou baixar se soubesse serem temporárias.

A distinção das opções entre Salvar, Baixar e Compartilhar são claras o suficiente após pensar um pouco, mas as primeiras vezes eu esperava que o botão Salvar iniciasse um download — talvez como acontece com o Midjourney. Gostaria de entender melhor quaisquer limites de Salvar.
Craiyon (anteriormente DALL·E mini) oferece um botão para pegar uma captura de tela. Dada a frequência com que eu queria capturar todos os resultados simultaneamente usando DALL·E , uma opção para pegar o conjunto — mesmo como miniaturas — parece um recurso potencialmente valioso a ser adicionado.
Defina expectativas claras em torno dos limites de geração de imagens
Embora opções ilimitadas fosse uma boa, a criação de arte de IA consome muitos recursos, por isso é totalmente razoável que as plataformas imponham limites. Fornecer informações antecipadamente ajuda os usuários a planejar seu uso e evitar a surpresa desagradável e a decepção de serem interrompidos abruptamente assim que forem fisgados.
O mais opaco de todos os sistemas que usei até agora, os primórdios da geração de imagens estavam consumidos por lentidão silenciosa e mensagens de erro enigmáticas do Google Colab. O Google tem vários níveis pagos que oferecem processadores progressivamente mais poderosos, mas com linguagem um tanto cautelosa, de maneira que você nunca tem certeza do que está acontecendo ou onde estão os limites.
Embora evoluindo rapidamente, a Midjourney conseguiu fazer um trabalho razoavelmente bom de articular os limites, com exceção de seu rótulo “ilimitado”. Meu uso tem sido excepcionalmente pesado, o que significa que, bem no início do mês 1 do Plano Padrão, atingi o limite na geração “rápida” de imagens e fui relegada ao modo “relax”. Isso é totalmente justo, mas eu (e a maioria dos usuários) não leio as letras miúdas, então eu gostaria que os limites tivessem estado mais na minha cara. Outra opção seria dar aos usuários um aviso sobre a porcentagem de seu uso — especialmente para aqueles usuários descontrolados que, sem saber, estouram sua cota na primeira semana. 😅
Quando tive acesso ao DALL·E, rapidamente acabei com minhas 50 imagens. Eu teria sido mais cuidadosa sobre isso se tivesse alguma indicação de que se esgotaria. Minha preferência seria que os limites fossem óbvios desde o início, mas, novamente, eu me contentaria com avisos periódicos ou, pelo menos, um aviso com cerca de 10 gerações de imagens restantes.

Outra pequena questão sobre o sistema de alerta de DALL·E: o uso de aviso que desaparece é um pouco irritante. Não prestei muita atenção à janela de tempo e fiquei imaginando quando poderia obter minha próxima dose — quer dizer… retomar meus experimentos de geração de imagens. Isso poderia ser evitado se houvesse ao invés disso mais transparência em relação às políticas e limites em primeiro lugar.
Entenda seu lugar no processo criativo
Em contraste com Midjourney e os primeiros Colabs, DALL·E parece mais ancorado ao realismo, muitas vezes ignorando partes do pedido, favorecendo a coerência da imagem. Para pedidos que não especificam um estilo, o padrão parece mais fortemente inclinado para a precisão fotográfica.



Essa abordagem pode ser mais adequada para aplicações mais práticas, mas não parece gerar tantas interpretações novas, o que, por sua vez, parece um pouco menos interessante e, francamente, menos mágico. Ele coloca mais do trabalho criativo de volta nas mãos usuário, o que acho que pode vir a ser uma coisa boa… para alguns usuários, pois fornece mais controle.
Em um continuum da exploração criativa da menos para a mais desenvolvida, eu podia usar algo como Midjourney no início, em seguida, mover em direção a uma ferramenta como DALL·E uma vez que eu chegasse a um conceito com o qual eu estivesse contente.






Equilibre moderação com expressão criativa
Os desenvolvedores de software definem políticas sobre como suas ferramentas e serviços podem ser usados. Os primeiros Colabs do Google não tinham restrições declaradas. Quando a Midjourney começou a ganhar força, eles postaram diretrizes da comunidade e restringiram algumas inserção de texto automaticamente para evitar pedidos que fossem “inerentemente desrespeitosos, agressivos ou abusivos”. As regras parecem vir de boas intenções, colocadas em prática para apoiar um lugar acolhedor para todas as idades. Mas elas não são isentas de compensações. No contexto da arte, quaisquer limitações (particularmente o bloqueio de termos gerais) podem parecer censura.
A política de conteúdo do DALL·E é ainda mais restritiva. Tentei executar ‘Linoleogravura de destruição de floresta em preto e branco’, que violava a política de conteúdo, que estava vinculada convenientemente. Eu deduzi que “destruição” era a palavra ofensiva — ‘Linoleogravura de incêndio de floresta em preto e branco’ funcionou bem. DALL·E também proíbe gerar algo na semelhança de quaisquer figuras públicas, incluindo celebridades ou centauros Keanu Reeves fotorrealistas. 😒 Pelo que consta, DALL·E não faz um bom trabalho com centauros em geral, de qualquer maneira.



Posso entender as motivações e não me oponho às regras que impedem violações, mas tenho que me perguntar se elas podem ser motivadas mais pelo desejo de controlar o marketing, mensagens de Relações Públicas e limitar a responsabilidade legal, do que pela preocupação genuína com os outros. De qualquer forma, dado um contexto criativo, gostaria que houvesse um pouco mais de flexibilidade, talvez com moderação mais ativa do que restrições amplas e gerais. Com o Midjourney e DALL·E, eu adoraria uma opção para solicitar um prompt específico. Em muitos casos, o contexto é importante. Tenho que acreditar que Keanu ficaria ok com isso.
Forneça orientação clara (e justa) sobre a titularidade
Eu não gero imagens com fins lucrativos, então tive o privilégio de ignorar em grande parte os problemas relacionados aos direitos de uso de imagens, mas é interessante ver como isso afeta diferentes sistemas.
Os primeiros Colabs não mencionaram a titularidade, deixando a posse para a interpretação dos usuários. À medida que os NFTs e outros usos comerciais decolaram, alguns desenvolvedores adicionaram avisos ou restrições para imagens geradas em seus sistemas. A Midjourney assumiu uma postura mais clara desde o início, construindo regras de uso, com planos em diferentes faixas de preço, cobrando mais para uso comercial. OpenAI mantém todos os direitos sobre imagens criadas por usuários com o DALL·E — triste, mas não surpreendente. Com novas tecnologias, as regras de direitos autorais e as interpretações legais são menos claras, então eles também devem ser ao menos cautelosos.
Embora minha opinião (totalmente não jurídica: não sou advogada, isso não é aconselhamento jurídico) seja de que as imagens resultantes deveriam atender a qualquer definição razoável de ‘transformadora’ necessária para serem classificadas como infratoras de direitos autorais, os modelos a partir dos quais as imagens são geradas parecem, se não legalmente borradas, pelo menos eticamente complexas. No mínimo, as decisões sobre o uso justo de imagens usadas em um modelo devem ser tomadas consultando os artistas cujo trabalho é usado inicialmente nesses sistemas. Para ser honesta, porém, não tenho certeza de como isso pode ser feito em um sentido prático, pelo menos não na escala necessária para ser significativo neste momento. Pode ser tarde demais.
É possivelmente ainda mais preocupante que qualquer empresa individualmente consiga manter a posse sobre esses modelos gigantescos. Certamente os artistas de ambos os lados merecem mais do que os sistemas que pegam todo o conteúdo e dão o mínimo em troca.
Para onde vamos a partir daqui
As primeiras ferramentas de geração de imagens parecem estar se dando bem pela novidade. Apesar das minhas tendências luditas, continuo a me surpreender com a evolução dessa tecnologia. Embora eu não ache que todos ficarão obcecados com a geração de imagens na mesma medida que eu, eu acho que uma ampla gama de pessoas poderia encontrar prazer — ou possivelmente utilidade — nisso.
Mas, para chegar a esse alcance, precisaremos pensar muito mais sobre a acessibilidade real desses sistemas. Eles podem ser usados por usuários com baixa visão? E por aqueles com deficiências cognitivas ou motoras? Artistas não orientados para a tecnologia querem experimentar essas ferramentas? Que outras barreiras a adentrar nem sequer estamos cientes.



Uma imagem composta feita com DALL·E, usando o pedido: ‘pintura famosa representativa do estilo popular de 2030’

Neste ponto, seria ingênuo supor que temos alguma ideia de como esses sistemas serão usados no futuro, mas minha esperança é que os direcionemos na direção da inclusão.