Como proteger sua arte da IA: Um guia atualizado

Quer você esteja aberto a ver como a IA pode ser usada para auxiliar seu processo criativo ou esteja mais alinhado com a visão de Hayao Miyazaki, que “sente fortemente que isso é um insulto à própria vida”, a maioria de nós na indústria criativa concorda que, quando se trata de como nosso trabalho é utilizado, consentimento, controle e compensação são fundamentais.

Infelizmente, quando se trata de treinar modelos de IA generativa com base em obras de arte já existentes, muitos adotaram a abordagem do “é melhor pedir perdão do que permissão”. As leis de direitos autorais que temos para proteger os artistas não lidam de forma eficaz com conceitos como IA generativa, mineração de dados ou aprendizado de máquina. Além disso, as regulamentações nessa área estão muito atrás do ritmo em que a tecnologia se desenvolveu.

No entanto, existem algumas dicas e ferramentas que você pode usar para dificultar que as empresas de IA utilizem seu trabalho para fins de treinamento. Contudo, antes de mergulharmos no que é possível (e o que não é) em termos de proteção, vamos começar com um pouco mais de contexto.

Como funciona o treinamento de IA?

As empresas de IA começam extraindo grandes quantidades de dados da internet. Basicamente, qualquer obra de arte, imagem, foto ou outro tipo de mídia que tenha sido carregada online e seja visualmente acessível ao público pode ser coletada, ou “raspada”, por rastreadores da web controlados por IA.

Depois de coletados, cada pedaço de dados é rotulado ou categorizado. Por exemplo, uma imagem de uma árvore é marcada como “árvore”, para que o modelo de IA possa aprender a identificá-la.

O modelo de IA processa todas as informações recebidas. Após isso, com alguns ajustes, aprende a reconhecer padrões, fazer previsões e, eventualmente, gerar imagens ou outros conteúdos.

O desempenho de um modelo de IA e sua capacidade de aprender de forma eficaz dependem muito da qualidade, quantidade e diversidade dos dados no treinamento. Como referência, um dos maiores conjuntos de dados gratuitos, conhecido como LAION-5B, atualmente contém quase 6 bilhões de imagens.

Protegendo seu Trabalho: Opções de Exclusão e Solicitações “Do-not-train”

Aqui está um resumo das dicas e ferramentas atualmente disponíveis para proteger seu trabalho da IA. Essa não é uma lista completa, mas são os principais métodos e plataformas. Um aviso: a não ser que você delete tudo e fique completamente offline, não existe método que ofereça 100% de proteção.

Dessa forma, o objetivo é fornecer um ponto de partida para que você implemente ao menos alguma proteção. Sendo assim, você não fica desprotegido enquanto espera o estabelecimento de soluções de longo prazo, como leis e regulamentos específicos para IA.

Have I Been Trained / Do Not Train Registry

Have I Been Trained é uma ferramenta de busca gratuita criada pela Spawning.ai. Dessa forma, qualquer pessoa pode verificar a inclusão do seu trabalho no dataset LAION-5B. A partir dos resultados da busca, você pode selecionar imagens relevantes e adicioná-las ao Do Not Train Registry.

Esse registro é essencialmente uma lista onde artistas podem adicionar suas obras ou outras propriedades intelectuais. Desse modo, ela informa às empresas de IA que você não consente com a utilização delas para treinamento.

Adicionar seu trabalho ao Do Not Train Registry não remove seus dados de modelos que já foram treinados. Além disso, ela não impede a coleta de dados por plataformas de IA que decidam ignorar o registro.

No entanto, grandes empresas, como HuggingFace (o maior repositório de modelos e datasets) e Stability AI (criadores do Stable Diffusion), concordaram em respeitar essa solicitação.

Robots.txt e Meta-tags.html

1. Robots.txt

O robots.txt é um arquivo de texto que instrui bots e crawlers sobre a permissão do acesso a quais páginas do seu site. Atualmente, existem regras e tags que você pode adicionar ao arquivo robots.txt do seu site para bloquear certos crawlers de IA, como os da OpenAI (responsável pelo Dall-E e ChatGPT) e Google Bard.

2. Meta-tags.html

O arquivo Meta-tags.html fornece metadados, ou informações sobre os dados do seu site. Você pode adicionar as meta-tags “noai” e “noimageai”, que sinalizam para os crawlers que você está optando por não permitir a utlização do seu conteúdo para o treinamento de IA.

O GitHub tem uma lista completa das tags e configurações atualmente disponíveis. Vale notar que essas regras e tags são apenas solicitações, e enquanto podem ser suficientes para parar alguns crawlers, outros podem optar por ignorá-las.

Kudurru (em fase beta)

Kudurru é outra ferramenta da Spawning.ai que bloqueia ativamente scrapers de IA do seu site, redirecionando ou rejeitando-os. Notavelmente, essa ferramenta funciona mesmo com crawlers que ignoram solicitações de exclusão ou de não-coleta.

Atualmente, existe um plugin disponível para sites WordPress, com suporte para outras plataformas em desenvolvimento. Quem hospeda o próprio site também pode enviar um e-mail para [email protected] para participar da versão beta.

Opções de exclusão específicas para plataformas

Meta (Incluindo Instagram eFacebook)

Meta recentemente anunciou que está treinando seus modelos de IA usando postagens no Instagram e Facebook. No momento, a opção de exclusão está disponível apenas para usuários na UE/Reino Unido, devido às rigorosas leis de privacidade em vigor nessas regiões. Não há opção de exclusão para outros países.

Adobe (Incluindo Photoshop, Illustrator, Lightroom)

Recentemente, a Adobe enfrentou uma reação negativa após uma atualização mal explicada de seus Termos de Uso. Muitos de seus usuários acreditaram na utilização indevida de seus arquivos e conteúdos para treinar o sistema de IA Firefly da Adobe.

A Adobe respondeu esclarecendo que “não treinamos IA generativa com o conteúdo dos clientes” e que não usa conteúdo de clientes para treinar modelos de IA, a menos que o conteúdo tenha sido submetido ao Adobe Stock.

Portanto, não parece haver necessidade de uma opção de exclusão, mas dado o recente alvoroço e o grande número de artistas que dependem dos programas da Adobe, é importante abordar o tema.

Ferramentas de Camuflagem de Obras de Arte

Glaze e Nightshade

Glaze e Nightshade são ferramentas anti-IA da Universidade de Chicago como parte do The Glaze Project. Esses aplicativos fazem alterações calculadas nos pixels de uma imagem, criando essencialmente uma “camuflagem” que distorce a maneira como a IA vê e processa a obra de arte.

As mudanças são difíceis de detectar a olho nu e não podem ser facilmente removidas por ações como recorte, redimensionamento, captura de tela ou aplicação de outro filtro na arte.
O Glaze distorce o estilo da arte vista pela IA. Por exemplo, um desenho em estilo de cartoon que foi camuflado com Glaze pode parecer estar no estilo de uma gravura quando processado pela IA. O software Glaze pode ser baixado e instalado no seu computador, ou o acesso limitado ao aplicativo web pode ser feito por convite para aqueles sem os requisitos de hardware necessários. O Glaze também está atualmente integrado à plataforma de compartilhamento de arte anti-IA, Cara.
O Nightshade altera o tema da imagem. Por exemplo, uma imagem de uma vaca pode ser vista como uma bolsa pela IA. Assim, embora a imagem ainda possa ser raspada por um rastreador de IA, seu valor como ferramenta de treinamento é muito reduzido. Você pode baixar o Nightshade aqui.

Ambos, Glaze e Nightshade, podem ser aplicados a uma única obra de arte para obter proteção dupla. No entanto, as alterações feitas por essas ferramentas são mais visíveis em artes com cores planas e fundos suaves, por isso podem não ser adequadas para artistas ou ilustradores que trabalhem com esse estilo.

Este artigo oferece um recurso interativo que mostra a comparação entre as artes camufladas e as originais. O Glaze Project advertiu que essas não são soluções permanentes contra a imitação de IA.

Mist

Mist é outra ferramenta de camuflagem de obras de arte da Psyker Team, que “envenena” sistemas de IA para que eles não consigam imitar efetivamente o estilo característico de um artista.

Sistemas de IA treinados com imagens “Mistadas” geralmente produzem imagens com uma feia marca d’água de preenchimento total, tornando a imagem inútil para usuários mal-intencionados.
Os desenvolvedores afirmam que o Mist oferece proteção aprimorada contra IA por meio de ruído imperceptível, que leva apenas de 3 a 5 minutos de processamento e é resistente a métodos de remoção de ruído.
As imagens Mistadas tendem a exibir uma sobreposição de redemoinhos visível, mas, assim como o Glaze e o Nightshade, a intensidade varia dependendo do nível de detalhe e textura da imagem.

Você pode obter o Mist aqui.

Overlai App

Overlai é um aplicativo promissor para iPhone que permite aos usuários processar facilmente imagens diretamente de seus dispositivos antes de carregá-las em seus sites ou plataformas sociais de escolha. Além disso, uma versão para Android e um plugin para Adobe Photoshop estão planejados para lançamento em 2024.

O Overlai incorpora uma marca d’água invisível e metadados na sua imagem para sinalizar a modelos de IA compatíveis que a imagem não permite a utilização para fins de treinamento.
Utiliza tecnologia blockchain para criar um registro permanente de suas imagens.
Para modelos que ignoram o protocolo da marca d’água, o app adiciona o envenenamento de dados aleatório no conjunto de dados para proteger o trabalho dos criadores e desencorajar o uso não autorizado.

Nossos experimentos mostraram que o Overlai é uma maneira conveniente e rápida de processar imagens, com pouco ou nenhum efeito perceptível nas imagens, mesmo em gráficos vetoriais planos.

Você pode obter o Overlai aqui.

Avisos de Direitos Autorais “Não ao treinamento de IA”

Vale a pena adicionar um aviso ou cláusula de “Não ao Treinamento de IA” em seu site e contratos, que declare que qualquer uso de seu trabalho para treinar modelos de IA generativa é proibido. A Author’s Guild recentemente divulgou uma cláusula de amostra com esse efeito (redigidacom escritores em mente, mas algo semelhante pode ser adaptado para uso por artistas).

Avisos Legais: Embora esses avisos possam ser ignorados, tê-los em vigor oferece um ponto de partida mais forte caso você deseje buscar uma ação legal formal o u no caso de leis serem eventualmente promulgadas que exigem que empresas de IA removam de seus sistemas qualquer conteúdo que tenha sido coletado sem permissão ou em desacordo com os termos de um artista.

Apoie Grupos da Indústria e Organizações de Direitos dos Artistas

Embora às vezes possa parecer que estamos sozinhos nessa luta, há pessoas incrivelmente inteligentes defendendo nossos interesses nos bastidores, educando o público, fazendo lobby junto a legisladores e até mesmo movendo ações coletivas contra empresas de IA desonestas.

Uma das melhores coisas que você pode fazer para proteger o futuro da criatividade humana é se juntar ou apoiar um grupo da indústria que defenda ativamente os direitos dos artistas. A maioria está baseada na Europa e nos EUA, mas artistas de todo o mundo podem se filiar e traz enormes benefícios.

Brasil

UNIDAD (caso queira saber mais tem esse artigo aqui explicando a PL 2338/2023 para regulamentação de IA no Brasil).

Europa

América do Norte

Com tudo isso dito, a intenção não é espalhar medo ou fazer as pessoas sentirem que precisam colocar todo seu tempo e energia em proteger suas obras ou se tornar especialistas em codificação web para evitar todo tipo de coleta de IA.

A arte não está morta e sempre haverá demanda por grandes trabalhos feitos por humanos reais.

Boa semana!

Daniel desligando.

Fonte: True Grit

Comentários

comments