4. As máquinas: da alta confiabilidade para ferramentas que podem errar
Um estudo de Pinker (2023) sugere que as pessoas prestam menos atenção aos detalhes quando acreditam que uma máquina as está auxiliando. O fenômeno, conhecido como “vadiagem social”, ocorre quando indivíduos em equipe reduzem seu esforço, confiando nos outros para realizar o trabalho. A pesquisa demonstrou que essa dinâmica se aplica também à relação entre humanos e robôs. Participantes que acreditavam estar sendo auxiliados por um robô na inspeção de componentes eletrônicos tiveram um desempenho 20% pior do que aqueles que trabalharam sozinhos, mesmo que o robô não estivesse realmente presente. Pinker afirma que essa descoberta levanta preocupações sobre a colaboração entre humanos e IA em áreas críticas como medicina e aviação, onde a falta de atenção pode ter consequências graves e que a superconfiança nos sistemas automatizados pode levar as pessoas a “olharem, mas não verem”, comprometendo a segurança e a eficiência.
Gerrit De Vynck afirma que se popularizou, na área de IA, o termo alucinações para identificar os resultados imprecisos dos novos algoritmos generativos. Os técnicos, pesquisadores e céticos da IA estão focados em resolver esse problema, embora não se tenha certeza de quando isso acontecerá e se acontecerá. Agora que essa tecnologia é acessada por milhões de pessoas e integrada em campos críticos e sensíveis como na medicina e no direito, tornando-se crucial entender esse processo alucinógeno e encontrar maneiras de mitigá-lo (2023).
Grande parte do trabalho com Machine Learning (ML) ocorre nos bastidores. Utiliza-se algoritmos para prever a demanda, organizar resultados de busca, recomendar produtos, detectar fraudes, realizar traduções e diversas outras tarefas. Embora menos evidente, o impacto futuro do ML será desse tipo - discreto, mas com aprimoramentos substanciais em nossas operações essenciais (BALAKRISHNAN apud Mussa, 2020, p. 161).
A transformação de máquinas precisas em imprecisas se deu aos poucos e de maneira imperceptível com o advento da IA. Os modelos generativos, mais recentes, demonstram que selecionar e mesclar dados para compor uma informação rica e útil, sobre qualquer tema, com certa criatividade, também abre portas para resultados questionáveis e muitas vezes equivocados.
5. Poder computacional, algoritmos, dados e modelos de inteligência artificial
Existem alguns componentes essenciais na estruturação do que se denomina inteligência artificial, sem os quais a IA como a conhecemos hoje, com seus mais recentes avanços, os modelos generativos, não seria possível. A delimitação deste estudo concentra-se nos componentes técnicos, desconsiderando-se o componente humano, embora seja este o mais importante, pois é ele que cria os algoritmos básicos; gera dados brutos ou trabalha preparando e rotulando dados que serão utilizados pelas máquinas; utiliza os resultados da IA e justifica sua existência.
5.1. Componentes essenciais na estruturação da inteligência artificial
Do ponto de vista técnico, destacam-se alguns componentes, sem uma sequência hierárquica, considerando a interdependência entre eles.
Para este artigo, faz-se uma distinção importante: a arquitetura necessária para a existência de modelos generativos de inteligência artificial com seus componentes básicos (algoritmos base, hiperparâmetros, dados, hardware, camadas neurais), explicados e manipulados por agentes humanos, versus esses mesmos componentes da arquitetura quando em operação (dinâmica obtida a partir da interação dos componentes), resultando no surgimento de um sistema semelhante a uma máquina. Neste artigo, ao utilizar apenas o termo modelo generativo, referimo-nos à operação dinâmica que envolve os vários componentes da arquitetura para gerar uma base de conhecimento final, sem interferência humana nas operações internas (clausura operacional).
Primeiro deve-se considerar o computador do ponto de vista do hardware e a grande capacidade computacional. Em segundo lugar, enfatiza-se o computador do ponto de vista do algoritmo (software) criado por humanos e configurado por eles. Em terceiro lugar os milhões de dados disponíveis em formato digital. Em quarto lugar o modelo, resultado da interação entre o algoritmo criado por agente humano, o hardware e os dados. O algoritmo base é inicialmente bruto, com hiperparâmetros aplicados por humanos e arbitrariamente selecionados a partir de testes com massas iniciais de dados. Porém durante sua execução vai gerando bilhões de parâmetros internos que permitem a criação de uma base conhecimento estruturada. Base essa que pode ser utilizada por outros algoritmos, agentes automatizados, que se comunicam com os agentes humanos.
5.1.1. Capacidade computacional
É notável a necessidade de tanto poder de computação, ancorado em computadores que consomem muita energia e que precisam estar em ambientes refrigerados, para simular um pedaço de tecido humano que pesa um quilo e meio, cabe dentro de um crânio, aumenta a temperatura corporal em apenas alguns graus, utiliza somente vinte watts de potência e precisa de apenas alguns hambúrgueres para se manter (KAKU, 2023, p. 255).
As ferramentas de inteligência artificial generativa exigem servidores extremamente potentes com chips diferenciados e caros que consomem muita energia (DOTAN; SEETHARAMAN, 2023).
Alguns especialistas projetam que o consumo de eletricidade para as potentes máquinas necessárias para a IA podem, em breve, exigir a adição equivalente à geração de energia de um pequeno país. Desde 2010, o consumo de energia para datacenters permaneceu quase estável, em cerca de 1% da proporção da produção global de eletricidade, de acordo com a Agência Internacional de Energia. Entretanto, a rápida adoção da IA pode representar um aumento significativo no consumo de eletricidade (MIMS, 2023). Os algoritmos de IA, baseados em deep learning, se valem de procedimentos matemáticos complexos e necessitam de hardwares em quantidade e muito rápidos para processarem os dados (MUSSA, 2020, p. 90-92).
5.1.2. Algoritmos desenvolvidos por humanos
De acordo com Knuth, a noção de algoritmo é básica para toda a programação de computador e refere-se a “um conjunto finito de regras que fornece uma sequência de operações para resolver um tipo específico de problema”. Knuth exemplifica com os termos receita, processo, método, técnica, procedimento e rotina (DONALD E. KNUTH apud TAVARES-PEREIRA, 2021, pp. 261-264). Algoritmos, são, portanto, conjuntos de instruções passo-a-passo que definem como um computador deve processar os dados para alcançar um objetivo específico. Isso pressupõe uma estrutura bastante rígida.
As analogias de Knuth, dentre elas uma receita, podem não expressar exatamente as dificuldades que se apresentam para a escrita de algoritmos por agentes humanos.
Uma das coisas mais difíceis para um leigo entender, quando se fala em programar um computador, é que não se pode dizer para ele: “três ovos médios”, ou “sal a gosto”; não há interpretação. Um computador exige uma disciplina que estressa o uso da lógica matemática. As sentenças devem ter solidez sintática, semântica e não podem ser ambíguas (PEREIRA, 2022).
Em um computador, a parte física, o hardware (tecnologia dura), é útil sem programas? Um programa, o software (tecnologia branda), é útil sem o hardware? Não se precisa pensar muito a respeito para se afirmar que há uma interdependência entre hardware e software. O computador é a unidade da diferença entre esses dois tipos de tecnologia. Em outras palavras, o computador não é somente hardware ou somente software, ele não é uma coisa e nem outra. É algo diferente. Quando um programa está sendo executado, existe uma simbiose entre as tecnologias brandas e duras; essas tecnologias exigem cientistas especializados em cada uma das áreas e o progresso delas se dá separadamente, mas há uma coevolução entre elas. Quanto mais hardware, mais softwares complexos puderam ser desenvolvidos e softwares complexos exigiram o desenvolvimento de hardwares mais potentes em termos de velocidade e capacidade de armazenamento; percebe-se isso claramente com o progresso na área de inteligência artificial. Alguns algoritmos conhecidos há algum tempo, somente se tornaram efetivos com novos hardwares muito mais rápidos. Mas, o que torna o computador tão especial é justamente essa junção, ou seja, um mesmo hardware pode dar vida a muitos algoritmos diferentes.
Pedro Domingos afirma que se voltássemos no tempo, no início do século 20, e disséssemos às pessoas que uma máquina seria inventada em breve e que resolveria problemas de todas as áreas do conhecimento, a mesma máquina para todos os problemas, ninguém acreditaria. O senso comum da época dirá que cada máquina só poderia fazer uma única coisa: máquinas de costura não datilografam e máquinas de escrever não costuram (pp. 57-58).
Os algoritmos desenvolvidos por humanos têm suas estruturas muito bem conhecidas e dominadas por aqueles que os desenvolvem. Muitos testes ao longo do tempo garantem uma certa confiabilidade quanto se introduzem dados estruturados e com significados esperados, em geral oriundos de uma área específica. As regras de transformações sobre os dados são explicitadas no código e todos que tem acesso ao código podem conhecer estas regras. Nos algoritmos tradicionais entram os dados, que passam por regras de transformações atribuídas par e passo por programadores para se obter as saídas desejadas e iguais, caso os dados sejam sempre os mesmos.
Essa visão algorítmica se mantém parcialmente no caso dos desenvolvimentos dos modelos de inteligência artificial generativa, haja vista a estruturação dos modelos não serem mais atribuição exclusiva dos programadores e sim de processos de auto-organização propiciados por algoritmos que tratam dados e os padrões ali existentes, criando seus parâmetros internos, com a finalidade de criação de uma base de conhecimento.
5.1.3. Dados
O sucesso dos algoritmos de IA depende também de grandes volumes de dados. Na fase de implementação, a quantidade e a qualidade dos dados se tornam o fator determinante. No contexto do aprendizado profundo se aplica a máxima “quanto mais dados, melhor”. A disponibilidade de dados abundantes permite que algoritmos projetados por equipes medianas superem aqueles desenvolvidos por especialistas de elite. Embora os pesquisadores de ponta ainda desempenhem um papel crucial na evolução do campo da inteligência artificial, a crescente disponibilidade de dados é o principal impulsionador da transformação industrial em curso, liderada pelo aprendizado profundo (LEE, 2019, pp. 27-28).
5.1.4. O modelo gerando uma base estruturada de conhecimento
A IA libertou os humanos da impossível especificação e criação de algoritmos altamente complexos para resolução de determinados problemas ligados a uma determinada área do conhecimento. Em muitos casos era impossível aos programadores estabelecer em algoritmos as milhares de regras e suas relações para tratamento de dados e obtenção de informações.
Um modelo resultado da interação de componentes, cria uma base de conhecimento baseada em dados. A base de conhecimento não é uma expressão do algoritmo base, bem como não é exatamente um espelho dos dados brutos. A base de conhecimento é o resultado da aplicação de regras genéricas de transformação presentes no algoritmo, que também cria parâmetros internos desconhecidos e complexos em tempo de execução, dependendo dos dados de entrada. Esse processo funciona como uma caixa preta, haja vista o agente humano não ter especificado exatamente qual deve ser a estrutura da base de conhecimentos. A estruturação da base de conhecimentos é estabelecida pela operação do algoritmo com utilização dos dados.
Para a cibernética, e de um ponto de vista mais mecanicista, caixa preta e caixa branca são termos convenientes e figurativos de utilização bem determinada, que se referem a processos internos de um sistema. O termo caixa preta indica que um observador não precisa necessariamente dispor de qualquer informação da estrutura pela qual a operação é realizada, seja por desconhecimento, seja porque o fenômeno não possa ser diretamente observável. Por outro lado, a caixa branca é algo com um plano estrutural definido para assegurar uma relação entrada-saída previamente determinada. (WIENER, 1970, p. 13). Os algoritmos tradicionais podem ser considerados caixas brancas e os algoritmos de IA, quando em execução, são caixas pretas, ao criarem seus próprios parâmetros internos. Cada modelo está ligado ao algoritmo e aos dados e, suas estruturas se alteram caso agentes humanos modifiquem o algoritmo e seus hiperparâmetros ou a base de dados de entrada.
As empresas de tecnologia gastam quantias testando seus produtos. Mas, devido à maneira como os sistemas de IA são projetados, construindo modelos a partir de características de milhões de dados que podem gerar bilhões e até trilhões de parâmetros e relações, eles não podem ser desmontados e analisados em busca de bugs como o software tradicional (MCMILLAN, 2023). Dada a complexidade das estruturas dos modelos generativos, Sven Cattell prefere o termo “caos”, em vez de caixa preta (apud MCMILLAN, 2023). Mas nesse caso, caos significa apenas uma complexidade estruturada que não pode ser entendida adequadamente pelos agentes humanos.
Bases de conhecimento, são representações matemáticas e computacionais estabelecidas a partir dos dados, por meio de algoritmos idealizados por humanos. Ao final são máquinas se automodificando, aprendendo. Os modelos encapsulam o conhecimento adquirido durante o treinamento e permitem que a IA faça previsões, classificações ou gere novos dados.
As saídas dos algoritmos tradicionais espelham claramente o que foi determinado pelo agente humano responsável por sua programação e o tratamento dos dados está explícito no código. Se vier um dato não previsto, em geral o algoritmo não sabe como aplicar as regras de transformação e pode gerar uma exceção apontando um erro.
Entretanto, nos algoritmos de IA, a saída, a base de conhecimento gerada, espelha a unidade da diferença entre o algoritmo base e seus hiperparâmetros e os dados; em outras palavras, o modelo gerado não está explicitado por nenhum agente humano no algoritmo base, nem sua estrutura e nem seus elementos, tampouco os elementos e a estrutura estão presentes nos dados. Não se encontra similaridade no algoritmo base e nem nos dados. De um ponto de vista da Teoria de Sistemas de Niklas Luhmann, o algoritmo base com seus hiperparâmetros, bem como o hardware são máquinas no entorno dos modelos e o mundo está representado pelos dados. O que não está nos dados não está no mundo.
A base de conhecimento é gerada durante o processo dinâmico de operação de formação sistêmica; um sistema é dinâmico e não estático. O algoritmo trata diferentes tipos de dados buscando padrões não previstos explicitamente pelos agentes humanos, criando sua própria informação. Em outras palavras, a informação criada pelo algoritmo não está presente nos dados, não está estruturada como seleção pronta a ser importada, ela é criada no processo dinâmico de formação sistêmica.
Diferentes algoritmos de IA podem encontrar informação diferenciada no mesmo dado, pois a informação é criada no processo de operação, implicando em diferenças estruturais e de elementos na base de conhecimentos gerada. Salienta-se que o processo que se forma entre dados e algoritmo base está encerrado operacionalmente e nem o algoritmo e nem os dados, tampouco qualquer agente externo, pode determinar por sua “vontade” como as estruturas e os elementos desse modelo devem ser criados ou aportar conhecimento diretamente.
Afirma-se que há uma relação importante entre dados e algoritmo base para geração da base de conhecimento, sem interferência externa. O modelo se utiliza da complexidade dos componentes em interação para construir suas próprias estruturas e seus próprios elementos. Esse acoplamento entre os componentes de um modelo em execução não é contraditório à estruturação dos dados e a estruturação do algoritmo, que permanecem intactos. Os dados e algoritmo base ganham assim, valor estrutural para a construção do sistema emergente que permite a geração da base de conhecimentos, e com isso, para a construção de um tipo próprio de realidade. Esse irritar constante do algoritmo base e dos dados é o que estimula a criação da base de conhecimento como uma complexidade estruturada.
Ao final, a base de conhecimento gerada é o que se poderia denominar de aprendizado, neste trabalho um aprendizado de máquina, não igual, mas similar ao que acontece com os sistemas psíquicos humanos e de animais. Aprendizado, nesse contexto maquínico, assim como no contexto de um sistema psíquico, é a designação para o que não se pode observar, ou seja, como as informações extraídas dos dados, desencadeiam mudanças estruturais parciais num sistema, sem que, com isso, o sistema perca sua característica. Afinal, alterar estruturas significa também manter estruturas, de acordo com Luhmann. Porém, continua-se tendo máquinas. Inteligência é justamente a designação para o que não se pode observar, ou seja, como ocorre nesse sistema autorreferencial, no contato consigo mesmo, a escolha que faz para a solução do problema.
Isso é justamente o que Luhmann afirma, que a busca por uma base para conceitos como memória e inteligência é infrutífera. Esses conceitos são, na verdade, construções que usamos para interpretar o comportamento de sistemas complexos. Importante salientar que isso não tira a existência do algoritmo base e dos dados e da necessidade deles para a existência de uma base de conhecimentos, pois, ao final, características desse entorno estão presentes no modelo, nesse sistema emergente, ou seja, eles pertencem a essa realidade que se forma, porém não se pode mais buscar um substrato, nem no algoritmo e nem nos dados, que corresponda exatamente à base de dados emergente. Essa falta de um substrato dessa nova estrutura adquirida, emergente, a base de dados, é justamente compensada pela liberdade de escolha de criação dessa estrutura e dos seus elementos, que indica que poderia ser de outro modo, remetendo ao conceito de contingência. A escolha e formação da estrutura e dos elementos são fixadas durante a operação do algoritmo e sua relação com os dados, não podendo existir de outra forma.
O progresso da IA se deu aos poucos e houve disrupção com os modelos denominados generativos. O que esses modelos têm de diferente em relação aos difundidos até então denominados discriminativos?
5.1.4.1. Modelos discriminativos
Os modelos, comumente utilizados até agora — que dominaram o mundo da IA nesses últimos tempos —, estão sendo empurrados para uma categoria denominada de “discriminativos”. Categoria essa que está sendo ofuscada pela categoria dos “generativos”. Há muitas formas de criar bases de conhecimento, mas em geral são utilizadas três técnicas básicas: aprendizado sem supervisão, aprendizado com supervisão e aprendizado por reforço. Todas se baseiam em dados históricos. Para os modelos discriminativos, o mais comum é a utilização do aprendizado com supervisão, no qual são fornecidos dois conjuntos de dados para o computador, como por exemplo: textos e as classificações deles feitas por agentes humanos. A grande característica de um computador que se baseia em um “modelo discriminativo” é a capacidade de comparar dados e encontrar os semelhantes. No caso de imagens, um modelo discriminativo consegue diferenciar um cachorro de um gato, pois assim foi ensinado com base em milhares de imagens disponibilizadas (PEREIRA, 2023).
5.1.4.2. Modelos generativos
Utilizando-se o exemplo de imagens dado anteriormente, um modelo generativo pode gerar novas fotos de animais que se pareçam com animais reais.
Enquanto um modelo discriminativo depende de rótulos associados aos dados: isso é um gato, isso é um cachorro, isso é um tigre, ou seja, depende de um aprendizado supervisionado, um modelo generativo pode ou não se utilizar desse recurso.
O modelo generativo pode, neste caso, aprender com bilhões de dados sem supervisão. Em outras palavras, sem que os humanos tenham que rotular os dados explicitamente. Em termos de exemplificação pode-se descrever que existem modelos simples generativos que sugerem uma próxima palavra em uma sequência de palavras para formação de uma frase e, neste caso não há a necessidade de supervisão de agentes humanos.
Os algoritmos aprendem “percebendo” como a linguagem é utilizada. O “conhecimento”, portanto, foi extraído da observação de bilhões de textos que estão disponíveis na internet, sendo essa a maneira que a linguagem foi dominada por esses novos algoritmos generativos que não têm a mínima ideia do que “bom dia” significa, mas sugerem “dia” após o “bom”, pois estatisticamente é o que mais ocorre. É o que se experimenta todos os dias em nossos celulares ao se digitar um texto em um dos aplicativos. Os modelos generativos podem realizar diversas correlações com os dados que manipulam. Por exemplo, olhos não podem aparecer no queixo das pessoas, normalmente estão entre a testa e o nariz. Para a geração de uma nova imagem, essa regra é seguida. Se alguém pede para a IA gerar uma imagem de um gato andando de skate, o skate deve estar sob os pés do gato. As imagens não são simples cópias, mas gerações de novas imagens. A distribuição dos dados em um contexto faz parte da abordagem da inteligência artificial que se utiliza dos modelos generativos (PEREIRA, 2023).