Enquanto nos preocupamos com as Fake News, chegaram os deepfakes

feliperibbe
27 de jun. de 2018
7 min de leitura

Atualizado: 25 de set. de 2018

A expressão “Fake News” se tornou parte do vocabulário em todo o mundo nos últimos anos. A disseminação de notícias falsas é uma das mazelas contemporâneas e diversas instituições discutem um jeito de, se não acabar, pelo menos minimizar os efeitos nocivos desta prática. Porém, conforme as tecnologias vão se tornando mais avançadas, novas ameaças, mais elaboradas, surgem em consequência, elevando o desafio daqueles que combatem a manipulação de informação. A nova forma de se criar e espalhar falso conteúdo mostra potencial assustador. São os deepfakes.

Deepfakes são vídeos manipulados, produzidos por algoritmos de inteligência artificial, que têm como objetivo simular uma situação que não ocorreu para se tirar algum proveito dela. Existem alguns tipos de deepfakes:

Troca de faces, na qual imagens do rosto de uma pessoa são sobrepostas no corpo de outra pessoa em uma outra imagem;
Troca de expressões faciais, na qual as expressões faciais de uma pessoa são mapeadas e alteradas de acordo com expressões de outra;
Troca de movimentos labiais, na qual um áudio de uma determinada pessoa é transformado em movimentos labiais, que por sua vez são sobrepostos sobre outras imagens;
Simulação de áudios, na qual se pode imitar a voz de uma pessoa de forma idêntica, podendo fazer com que ela “fale” o que nunca falou.

A manipulação de vídeo não é algo novo, pelo contrário, há décadas estúdios de cinema e televisão usam equipamentos e técnicas capazes de reproduzir qualquer coisa com verossimilhança. No entanto, em função da dificuldade e dos custos, tal prática se limitou sempre a pessoas e empresas com recursos suficientes para fazê-la.

O problema dos deepfakes é justamente a facilidade com que podem ser produzidos. Com um pouco de conhecimento sobre algoritmos de deep learning – uma das formas de aprendizado de máquina em inteligência artificial – é possível fazer vídeos mesmo sem ter o poder computacional adequado para tal. Lógico que ainda não são muitas as pessoas com este conhecimento no mundo, mas o número delas é cada vez maior. E a tendência das tecnologias é se tornarem mais e mais simples para que sejam adotadas pelas massas (pense, por exemplo, que há alguns anos, para se montar um site, era preciso saber alguma linguagem de computação ou contratar alguém que soubesse; hoje existem modelos de sites pré-prontos, que qualquer um pode usar gratuitamente). Do mesmo jeito que existem apps para se gerar memes, não seria difícil imaginar que em breve teríamos aplicações para facilitar a produção de deepfakes. E isso já aconteceu.

O rosto da atriz Gal Gadot em um vídeo pornô manipulado

O início

O termo deepfake ganhou notoriedade no final do ano passado, quando o site Motherboard escreveu um artigo sobre a viralização de vídeos pornográficos simulados de celebridades, cujos rostos foram sobrepostos aos corpos do conteúdo original. Estes vídeos eram produzidos por um usuário do Reddit, um site de compartilhamento de links muito famoso nos EUA. Após a publicação, o interesse pelo assunto explodiu, a ponto de um usuário do Reddit desenvolver um aplicativo só para criação de deepfakes, o FakeApp. Para usá-lo é bem simples: é preciso ter um arquivo de fotos e vídeos do rosto de uma pessoa e um outro vídeo no qual se quer inserir o rosto da pessoa escolhida. Depois, é necessário ter conhecimento para treinar os algoritmos a identificar as faces e efetuar a troca. A ideia do criador, porém, é fazer com que, no futuro, qualquer pessoa consiga usa-lo com apenas um botão, sem precisar ter noções de programação em IA. A popularidade dos vídeos pornôs fake com celebridades despertou a curiosidade de gente querendo criar tais vídeos com pessoas comuns, como amigos, conhecidos e até ex-namoradas, o que aumenta ainda mais a periculosidade dessa tecnologia. A ferramenta também tem sido usada para fins de diversão, como por exemplo na inserção do rosto do ator Nicolas Cage em várias cenas famosas de filmes (a primeira foto deste artigo é Cage como Indiana Jones).

Um campo que o uso de deepfakes será intenso certamente é a política. A possibilidade de se criar imagens falsas de políticos fazendo comentários impróprios ou realizando ações ilegais já é uma realidade. No próprio Reddit usuários, por exemplo, pegaram um discurso do presidente argentino Mauricio Macri e trocaram seu rosto pelo de Adolf Hitler, usando o FakeApp, como pode ser visto no vídeo abaixo.

O vídeo de Macri é facilmente percebido como falso, porém lembre-se que ele foi feito por um usuário comum do Reddit, provavelmente sem os equipamentos e o conhecimento ideais para isso. E mesmo assim o resultado mostra o potencial que esta tecnologia terá ao evoluir. Alguns especialistas afirmam que em um ou dois anos será muito difícil de se distinguir entre uma imagem real e uma alterada.

Outros exemplos de aplicações em deepfakes são ainda mais impressionantes. Um modelo criado por pesquisadores da Universidade de Washington pegou um áudio do ex-presidente americano Barack Obama e “rastreou” os movimentos labiais de acordo com o que foi falado. Este modelo dos movimentos labiais foi então aperfeiçoado até ser inserido em um outro vídeo de Obama, em uma maneira quase imperceptível.

A aplicação de uma mudança nos movimentos labiais seria bastante útil na área de dublagem, por exemplo, deixando-a bem mais realista. Porém, também é bem fácil imaginar o mau uso desta tecnologia. Hoje já existem aplicativos que conseguem imitar vozes humanas de maneira bastante similar, como o VoCo, da Adobe, e o Lyrebird. Bastam alguns minutos de aúdio de uma pessoa e esses apps conseguem fazer com que essa pessoa “fale” qualquer coisa, mesmo que isso nunca tenha acontecido na realidade. No áudio abaixo, um fake produzido pela canadense Lyrebird, Barack Obama, Donald Trump e Hillary Clinton conversam entre si sobre a aplicação.

Claro que o áudio acima não conseguiria enganar alguém, mas, considerando o já comentado avanço tecnológico, é natural que a qualidade da reprodução seja cada vez mais fidedigna. Agora imagine um áudio forjado, com qualidade superior, formatando movimentos labiais que podem ser inseridos em outro vídeo, colocando literalmente palavras na boca de alguém que nada falou. Bem assustador, não é?

Outro exemplo marcante de manipulação de imagem é o Face2Face, uma aplicação desenvolvida em 2016 por pesquisadores da Universidade de Nuremberg (Alemanha), de Stanford (EUA) e do Instituto de Informática Max Plank. Ele consegue mapear as expressões de rostos em vídeos em tempo real e trocar por expressões de uma outra pessoa de forma incrivelmente natural, usando uma simples webcam, como se pode ver no vídeo abaixo:

Na imagem de cima, temos o ator cujas expressões serão mapeadas pela webcam. Na imagem de baixo, o vídeo do ex-presidente americano George W. Bush, que terá suas expressões modificadas. Na imagem do lado direito, o resultado da aplicação do Face2Face, com George W. Bush tendo suas expressões alteradas de acordo com o movimento do ator. Este ano, a equipe de Stanford foi além. Em uma publicação entitulada “Deep Video Portraits”, eles aprimoraram o modelo do Face2Face e agora conseguem não só manipular as expressões, como também todo formato da cabeça, rotações da cabeça e piscar de olhos, deixando as alterações ainda mais realistas. Isso foi possível graças a uma técnica de aprendizado de máquina chamada GAN, generative adversarial network.

O GAN, resumidamente, funciona da seguinte forma: duas redes neurais são colocadas em uma disputa entre si. Uma delas, denominada geradora, tenta aprender padrões usando uma base de dados de imagens e vídeos, por exemplo, e depois tenta criar novas imagens a partir dessa base de dados; a outra, denominada discriminadora, pega essas imagens criadas e as compara com as originais do banco de dados, tentando apontar qual é real e qual é fake. Com base nesse feedback, a geradora ajusta seus parâmetros e passa a produzir imagens cada vez mais realistas, até que diferencia-las torna-se impossível. A abordagem é tão inovadora que algumas pessoas comparam o GAN a uma forma de imaginação das máquinas, uma vez que ela tem o poder de criar imagens totalmente novas.

A fabricante de chips de inteligência artificial, NVidia, usou a técnica para criar dezenas de fotos de celebridades fake, tendo como base um banco de dados com fotos de famosos reais. Essa aplicação seria ótima, por exemplo, para criar personagens em videogames. A própria NVidia mostrou recentemente outra aplicação incrível, na qual pegou um vídeo de uma estrada durante o dia e criou uma representação desta mesma estrada durante a noite – veja abaixo. Fez o mesmo com uma estrada em dia de neve, colocando-a em um dia de sol. Essa aplicação pode ajudar carros autônomos a treinar em diversos tipos de ambientes criados artificialmente, ao invés de usar ambientes reais.

Implicações e iniciativas para detecção

As consequências da adoção dos deepfakes são claras e com alto potencial de gerar estragos. Vídeos pornôs falsos podem destruir carreiras e vidas pessoais de famosos e pessoas comuns rapidamente. Mas não só a pornografia tem este poder. Imagine criar um vídeo com alguém fazendo um comentário racista, por exemplo. Uma vez que ele seja postado e viralizado, é complicado reverter a situação.

Outro problema que pode acontecer é o descrédito do uso de vídeos como provas em julgamento de crimes ou em denúncias de abusos. Com os deepfakes se tornando populares, cada vez mais conteúdos manipulados irão circular, tornando difícil a identificação da veracidade desses. Além disso, acusados poderão questionar basicamente qualquer evidência em vídeo e aúdio apresentada contra eles, sob alegação que foram criados com inteligência artificial.

Essas pessoas não existem; são falsas celebridades criadas pela NVidia

No campo político, como já citado, as implicações são ainda mais preocupantes, podendo chegar a assuntos de segurança nacional. É possível imaginar um vídeo do presidente da Coreia do Norte, Kim Jong Un, anunciando um ataque nuclear aos EUA; quem sabe, soldados israelenses torturando cidadãos palestinos; ou, para trazer a situação para nossa realidade no Brasil, um Ministro do STF aceitando propina para julgar determinado caso. Que tipo de consequências a divulgação desses vídeos teria? Certamente devastadoras, caso não haja uma forma rápida de detectar sua validade.

Pensando nisso, a DARPA, agência de inovação e novas tecnologias do Departamento de Defesa dos EUA, está financiando um projeto para determinar em que nível os deepfakes estão. Os maiores especialistas em computação forense do mundo irão se reunir para tentar criar os vídeos falsos mais perfeitos possíveis e, ao mesmo tempo, desenvolver ferramentas capazes de identificá-los.

Outras instituições estão buscando formas de se identificar os deepfakes e a maioria delas também envolve deep learning. Pesquisadores das Universidades de Munique, Nuremberg e Nápoles desenvolveram um algoritmo que foi alimentado com vídeos originais e suas versões manipuladas, depois treinado para conseguir discernir um do outro. Quando testado, apresentou resultados bastante promissores. Na Universidade de Albany (EUA), a ideia é verificar sinais físicos na imagem dos indivíduos, como números de piscadas de olho e pequenas variações no tom de pele. O governo também pode interferir, criando leis mais rígidas contra este tipo de prática.

Seja qual for o método, é inevitável que os avanços da tecnologia irão aumentar o poder de identificação da veracidade dos vídeos ao mesmo tempo que teremos a criação de conteúdos manipulados cada vez mais próximos da realidade. Por isso é importante estarmos cientes de tudo que está acontecendo e de que maneira podemos ser enganados.

Para finalizar, coloco um vídeo produzido pelo cineasta Jordan Peele e pelo site Buzzfeed, no qual Peele manipula um discurso de Barack Obama (sempre ele!) alertando justamente sobre os perigos atuais de se acreditar em tudo que se vê.

Enquanto nos preocupamos com as Fake News, chegaram os deepfakes

O início

Implicações e iniciativas para detecção

Posts recentes

Comments