Riscos das IAs generativas

Há poucos dias, ao utilizar uma rede social, me deparei aleatoriamente com um pequeno vídeo em que uma mãe estava arrumando o cabelo de sua filha, conversando sobre algo que a pré-adolescente não sabia o significado. Prontamente a mãe disse: “Não sabe? Procura no Google o que é...”. E assim foi instaurado um diálogo interessantíssimo onde a filha afirmou que “ninguém mais usa o Google, só gente velha igual a você, mãe”. E, quando questionada sobre como fazia as suas pesquisas, respondeu prontamente “o que eu quero saber, busco no TikTok e o ChatGPT faz toda a pesquisa para mim. Tem também a LuzIA no WhatsApp”.

Para a minha felicidade, sorte ou algum algoritmo de recomendação - quem sabe? -, o mesmo tema foi aprofundado em um vídeo que conta o mesmo fenômeno sob uma perspectiva histórica, explorando como o modelo de negócios do Google mudou e mudará ainda mais, movimentado principalmente pela popularização de ferramentas generativas de linguagem.

Pretende-se neste artigo a retomada desses diálogos, deixando claros alguns riscos ao não entender como as ferramentas de Inteligência Artificial funcionam e mostrar que problemas já existem, como uma situação ocorrida recentemente com uma companhia aérea.

Contextualizando o leitor, o buscador do Google foi uma ferramenta revolucionária e se destacou de seus concorrentes, restando hegemônica frente aos seus concorrentes atuais (as pessoas com mais tempo de internet aqui vão se lembrar dos buscadores “Cadê”, “Yahoo”, entre outros.). A diferenciação ocorreu pela implementação superior de um sistema de ranqueamento e referenciamento entre as melhores correspondências às palavras-chaves buscadas pelo usuário.

Simplificando, páginas que são mais referenciadas (“linkadas”) em outros sites tendem a aparecer como os primeiros resultados da busca, o que facilita aos usuários encontrar resultados relevantes para as suas pesquisas.

Contudo, chegamos a um momento em que os profissionais decifraram o SEO (Search Engine Optimization - otimização de mecanismos de busca) do Google, aprendendo como destacar determinado conteúdo frente a outros similares e ranqueamentos patrocinados.

Parece, porém, que estamos em um limite. Afinal, se todos sabem a mesma técnica de melhoria, acabam utilizando a mesma fórmula: textos que repetem parcialmente conteúdos de outros textos já publicados como forma de ancorar algumas palavras-chave. Como resultado, encontramos sites e mais sites com versões do mesmo texto, copiado e colado com os termos buscados, mas que simplesmente não informam ou respondem satisfatoriamente.

Chegamos a um impasse e a pergunta certa não é como resolver isso, mas se esse problema realmente importa para os usuários. Afinal, conforme pesquisa estadunidense, os mais jovens (geração Z, nascidos entre 1996-2010) estão abandonando buscadores de texto como o Google e migrando para outras soluções, como as redes sociais e as ferramentas generativas abertas, as LLM conhecidas popularmente como “inteligências artificiais”.

As discussões e descobertas a partir do que popularmente se entende como inteligências artificiais (em sentido coloquial) dominaram o ano de 2023. Promessas de novas funcionalidades e discussões regulatórias geraram um “boom” de usuários curiosos e de empresas abrindo os seus serviços para testes com público. Entre alguns nomes de modelos de empresas disponíveis, citemos ChatGPT, Llama, Gemini, Bard, entre outros.

A IA é o futuro. Mas a grande maioria destes players não se perguntou sobre que tipo de inteligência artificial estamos falando? A IA generativa (modelo generativo LLM) é apenas uma espécie (que mesmos os especialistas divergem quanto ao fato de tratar-se efetivamente de uma inteligência artificial).

Uma breve explicação: Large Language Model (LLM) é um modelo de aprendizado de máquina (machine learning ou ML) treinado para aprender a partir de enormes bases de dados públicos. De forma simplificada, trata-se de um sistema que recebe um enorme banco de dados de textos como parâmetro (exemplificativamente, artigos acadêmicos públicos, artigos da Wikipedia, materiais disponíveis para uso público em geral), analisa estatisticamente quais são os padrões de linguagem que podem ser usados (“n-gram’s” – fragmentos de frases e mesmo de palavras que aparecem mais vezes juntas nos bancos utilizados para treinamento). Desta forma, com bilhões ou mesmo trilhões de probabilidades mapeadas, essas ferramentas são excelentes em criar textos e respostas muito coerentes, sem qualquer compromisso com a verdade das afirmações feitas. Obviamente, cada empresa faz ajustes e calibra as probabilidades em diversos contextos para evitar textos absurdos (embora coesos), outras integram a geração de texto aos buscadores clássicos como forma de melhorar a precisão da escolha de palavras-chave. O modelo de negócio está aberto a qualquer companhia que se disponha a investir recursos em desenvolvimento desta modalidade de “inteligência” artificial.

Voltando ao nosso ponto, esses modelos generativos de linguagem ficaram mais acessíveis e espalhados na web, o que facilitou o trabalho de muita gente e mesmo revolucionou (no sentido de alterar drasticamente) a forma de uso da internet. Como vimos relatado, os mais jovens utilizam estes chatbots como fonte de pesquisa. Empresas estão descobrindo formas escaláveis de utilizar tais modelos, considerando a preferência de seu consumidor e o grande potencial de gerar textos e respostas ágeis de forma automatizada. Mas será que todos estes atores compreendem os riscos deste uso?

No mês de fevereiro deste ano, a Air Canada sofreu uma condenação judicial decorrente de um problema causado por um chatbot com “AI” integrada. Um passageiro queria remarcar um voo emergencial e, ao acessar o site, iniciou uma conversa típica de suporte ao consumidor com um chatbot assistido por um modelo LLM (que, segundo declarações do CIO da empresa, serviria como um “teste” no atendimento). O chatbot orientou o consumidor a comprar um novo voo imediatamente e solicitar o reembolso do que seria cancelado. Ocorre que esta orientação contraria a política da empresa sobre remarcação de voos de emergência, que não concedem reembolso (ou seja, de alguma forma o modelo de linguagem conhecia parte da política).

O cliente seguiu a orientação do chatbot e teve o reembolso negado. A discussão foi parar na justiça canadense e deu razão ao consumidor. O argumento da empresa de que o chatbot teria uma forma própria e não-auditável (“inexplicável”) de argumentar não prosperou na justiça. O importante é compreender que os LLM’s não “entendem” textos de fato; trata-se de um artifício muito bom quanto às probabilidades de gerar textos a partir da forma como foram treinados, que para o usuário, cria o efeito de estar compreendendo o seu input (o que não significa que seja possível explicar integralmente o “caminho” lógico para criar aquela informação – mas isto é tema para outro texto).

Ainda no último ano, as pessoas se depararam com situações parecidas como esta, quando uma IA generativa devolveu respostas não-críveis (situação coloquialmente chamada de alucinação da IA), ou até mesmo conteúdos protegidos por direitos autorais (o que gera diversos questionamentos sobre quais materiais foram usados para treinar tais linguagens). E se os usuários não compreendem que isto não é um erro, mas um verdadeiro limite técnico da ferramenta, podem acabar tendo problemas devido a outputs problemáticos – por exemplo, o caso do consumidor da Air Canada.

Outro problema que surgiu dessa ampla disponibilização do dispositivo é a multiplicação de conteúdo gerada pelas mesmas ferramentas. Lembram da fórmula de gerar páginas mais comerciais para o ranking do Google? Com o auxílio destas ferramentas é muito mais fácil reproduzir textos para sites e redes sociais, seguindo os parâmetros de ancoragem SEO do Google. E, ironicamente, estes mesmos textos voltam a treinar algumas destas ferramentas generativas. É um ciclo vicioso de padronização de conteúdo, o que dificulta ainda mais ao usuário encontrar informações precisas e assertivas em um mar de “lero-leros”.

Será que a pré-adolescente que gerou o relato do início deste texto, como representante de uma parcela enorme da população, tem dimensão que estes chatbots não são fontes de informação confiável? Acredito que não. E como resolvemos esses problemas? Essa pergunta está tirando o sono dos órgãos reguladores nos diversos países do mundo; é a pergunta que está abrindo um mar de possibilidades para que empreendedores invistam tempo em pesquisa e desenvolvimento tecnológico.

Independentemente das respostas, que ainda não existem, uma coisa é fato: saber como funciona a ferramenta, investir em adaptação ao seu negócio e evitar caminhos ruins reforça aquela velha máxima de que “conhecimento é poder”.

Revolução silenciosa:

mudanças e riscos na adoção de IA generativa na internet

Resumo:

Leia seus artigos favoritos sem distrações, em qualquer lugar e como quiser