Durante meses ouvimos a mesma garantia reconfortante: os grandes modelos de linguagem não “memorizam”, não “guardam”, não “aprendem consigo”. Apenas calculam probabilidades. Apenas preveem a próxima palavra.

Soava técnico. Soava tranquilizador. Soava conveniente. Mas começa a soar insuficiente.

Investigadores das Universidades de Stanford e Yale têm demonstrado que modelos de linguagem conseguem, sob certas condições, reproduzir excertos quase literais de dados de treino — incluindo texto identificável. Não apenas “padrões estatísticos”. Sequências concretas. Conteúdo específico. A distinção entre “aprender” e “copiar” torna-se menos filosófica quando o resultado é materialmente idêntico. E isso muda o debate.

Estamos a assistir à maior transferência voluntária de informação sensível da história recente. As empresas carregam bases de dados para gerar relatórios. Gestores inserem planos estratégicos para obter sínteses rápidas. Juristas colam contratos confidenciais para revisão automática. Profissionais de saúde descrevem casos clínicos complexos para apoio ao diagnóstico. Tudo isto numa interface simpática, que responde com eficiência e empatia sintética. Mas a interface não é a infraestrutura.

Por trás da caixa de texto, há uma arquitetura tecnológica centralizada, operada por um número reduzido de empresas globais, sujeita a políticas próprias de retenção, monitorização e melhoria contínua. Não é uma conversa. É uma externalização de dados.

Estas empresas afirmam: “Não aprendemos consigo.” Eu digo: “A sério?”

A defesa padrão é conhecida: o modelo não tem memória individual, não cria um ficheiro com o seu nome, não integra automaticamente cada interação no treino. Tecnicamente, isso pode ser verdade em muitos casos. Mas é também uma meia-verdade.

Primeiro, porque os modelos são treinados com volumes massivos de dados cuja proveniência continua a ser contestada judicialmente em vários países. Segundo, porque já há evidência académica de que conseguem reproduzir trechos específicos do material de treino quando pressionados da forma certa. Terceiro, porque mesmo as interações que não alimentem diretamente o treino passam por sistemas de registo, monitorização e análise de qualidade.

A questão não é apenas se o modelo “memoriza” como um ser humano.
A questão é simples: a informação sai do seu controlo no momento em que a insere.

E isso, para qualquer gestor prudente, deveria bastar para acionar alarmes.

Há ainda uma questão estrutural inquietante. Quando milhões de utilizadores — empresas, governos, hospitais — interagem diariamente com um pequeno conjunto de modelos globais, estamos a concentrar padrões de comportamento, linguagem estratégica e contextos profissionais numa escala inédita. Mesmo que não haja intenção maliciosa, a centralização cria assimetria. E a assimetria cria poder.

“Confie em nós” não é um mecanismo de governação. É um ato de fé.

A regra que devia estar colada em todos os ecrãs: se não diria algo numa conferência, deve pensar duas vezes antes de o dizer a um chatbot.

Se não apresentaria aquele plano estratégico num auditório aberto, se não projetaria aqueles dados clínicos num ecrã numa sala cheia, se não publicaria aquela base de dados no seu website, então não os trate como texto descartável numa caixa de diálogo.

A linguagem pode parecer privada. A infraestrutura não é. Os LLM são extraordinários. Vão transformar a produtividade, a investigação, a criatividade e a eficiência administrativa. Recusá-los seria irracional. Mas adotá-los sem disciplina é irresponsável.

Durante anos, acreditámos que as redes sociais eram apenas plataformas neutras. Só mais tarde compreendemos o custo estrutural da concentração de dados e da opacidade algorítmica. Estamos a repetir o padrão — agora com informação ainda mais sensível?

A inovação exige coragem. Mas a coragem sem prudência chama-se imprudência. Na economia da inteligência artificial, cada frase pode ser um ativo estratégico. E os ativos estratégicos não se oferecem. Protegem-se.