A maior perda causada pela inteligência artificial será a completa destruição da confiança em tudo que você ouve ou vê
Em 2018, o medo das notícias falsas será ínfimo comparado ao das novas tecnologias capazes de imitar a voz humana. Isso poderia criar pesadelos de segurança. Pior ainda, poderia tirar de nós parte de nossa singularidade. Mas empresas, universidades e governos já estão trabalhando furiosamente para decodificar a voz humana para muitas aplicações. Estas vão desde maior integração aos dispositivos da internet-das-coisas até a viabilização do diálogo natural entre humanos e máquinas. Países mais adeptos da tecnologia (os EUA, China e Estônia) entraram nesse espaço, e gigantes do tech como o Google, Amazon, Apple e o Facebook também têm projetos especiais relacionados à voz.
Não é tão difícil desenvolver uma voz artificial, depois modelar e reproduzir palavras e frases faladas. Era admirável ouvir um Apple Macintosh informando a data e a hora em um tom seco e digital. Criar uma voz que soa natural envolve algoritmos muito mais complexos e caros. Mas essa tecnologia está disponível agora.
Como qualquer patologista de voz atestará, a voz humana é muito mais do que vibrações das cordas vocais. Essas vibrações são causadas pelo ar que escapa de nossos pulmões, forçando a abertura de nossas membranas vocais, um processo que produz tons tão únicos quanto impressões digitais, por conta das milhares de comprimentos de onda que são criados simultaneamente e em coro. Mas a singularidade de uma voz também está ligada a características que raramente consideramos, como a entonação, a inflexão e o ritmo. Esses aspectos de nossa fala dependem da situação, são frequentemente inconscientes e fazem toda a diferença para o ouvinte. Eles nos contam quando uma frase como, “Uau, essa roupa é demais!” deve ser interpretada como maldosa, sarcástica, amável ou indiferente. Esse desafio explica o uso desde o começo de emojis em mensagens de texto. Eram necessários para clarificar a intenção por trás da mensagem escrita porque é extremamente difícil interpretar o significado real do escrito comparado ao que é dito.
Detalhes como intonação, inflexão e ritmo são particularmente difíceis de modelar, mas estamos chegando lá. O projeto Voco da Adobe está desenvolvendo o que seria, essencialmente, um Photoshop das ondas sonoras. Funciona com a substituição de ondas por pixels, para produzir algo que soa natural. A companhia está apostando que, se o suficiente da fala de uma pessoa puder ser gravado (ou adquirido), precisará de um pouco mais do que uma ação de copia-e-cola para alterar a gravação daquela voz. Os resultaods iniciais do Voco são assustadores, assim como impressionantes. O poder do protótipo indica o quão cedo cidadãos comuns serão incapazes de distinguir entre vozes reais e adulteradas. Se você tiver trechos o suficiente armazenados, poderá fazer qualquer um falar praticamente qualquer coisa.
As empresas de tecnologia e seus investidores estão apostando na ideia de que esses sistemas terão tremendo valor comercial com o tempo. Mesmo antes dessa situação surgir, no entanto, esse tipo de tecnologia já apresentará grandes riscos. Em 2018, um indivíduo nefasto poderá ser capaz de criar uma imitação vocal boa o suficiente para enganar, confundir, irritar ou mobilizar o público. A maior parte dos cidadãos no mundo serão incapazes de discernir entre um Trump ou Putin falsos e suas figuras reais.
Quando considera-se a desconfiança ampla na mídia tradicional, instituições e especialistas em suas áreas, a falsidade dos áudios poderá causar um grande estrago. Poderia começar guerras. Imagine as consequências do áudio manufaturado de um líder mundial fazendo discursos bélicos, apoiados por um vídeo fabricado. Em 2018, os cidadãos – ou generais militares – poderão determinar o que é falso?
Traduzido do site Wired.