De acordo com as estatísticas apresentadas recentemente pelo regulador setorial das telecomunicações, os portugueses falam hoje pouco mais de uma hora por mês através do telefone fixo, menos 16% do que há um ano. Este dado ilustra a descida generalizada na utilização das comunicações de voz fixa durante a última década, parcialmente transferidas para os telemóveis, mas substancialmente substituídas por comunicações textuais, particularmente entre as gerações mais jovens.
Paradoxalmente, assistimos em simultâneo a uma reinserção digital da voz, não como ferramenta de conversação entre pessoas, mas como instrumento de interação entre pessoas e máquinas. A conjugação dos avanços na área da inteligência artificial com as tecnologias de conversão de texto em palavras produz resultados surpreendentes, como demostra o sucesso da aplicação a estes programas do Teste de Turing, que mede a capacidade de uma máquina para exibir comportamentos equivalentes aos de um ser humano.
A evolução das técnicas de aprendizagem automática das máquinas e os sistemas de reconhecimento de imagem e de voz permitem que, nos EUA, 50% das buscas sobre sistemas Android, presentes na maioria dos telemóveis, sejam hoje feitas através da voz; e que cerca de uma em cada cinco famílias disponha em casa de assistentes vocais (“chatbots”) como o Alexa da Amazon. Na indústria, embora ainda com menor penetração, dispomos também cada vez mais de mecanismos de interação com as máquinas, particularmente nas áreas logística e produtiva.
E no comércio, após a crescente implantação destes programas informáticos nos serviços de ajuda e de assessoria automatizada, cada vez com experiências mais contextualizadas e personalizadas, os novos desenvolvimentos concentram-se agora na área das vendas, em que os sistemas são dotados de rostos para ganhar realismo e gerar confiança. Falar deixou de ser antigo e a voz recuperou protagonismo perante os “clicks” dos teclados, num processo crescente de “audificação” da sociedade.
Um dos motivos que explica o crescimento destas novas interfaces inteligentes baseadas na voz é a necessidade de mitigar a desconfiança digital. A capacidade das novas tecnologias de distorcer a realidade, suplantar identidades e propagar a falsidade fomenta o recurso a atributos naturalmente humanos, como a capacidade de falar, para aproximar as máquinas das pessoas.
A humanidade erigiu-se com base na palavra, que é sinónimo de garantia e confiança. Mas esse papel foi conquistado ao longo da história porque a palavra não é só um meio de transmitir informação, mas sobretudo transmite emoção e sentimentos quando pronunciada pelas pessoas. A voz distingue-nos como humanos e não será fácil às máquinas evoluir para incorporar estas dimensões.
No que respeita a Portugal, este renovado poder da palavra deverá servir para potenciar o património linguístico, que é um enormíssimo ativo cuja intangibilidade tem tradicionalmente dificultado a sua gestão mas que, agora conjugado com as novas tecnologias, poderá tangibilizar mais facilmente a sua utilidade e o seu valor.