Raspagem de dados em redes sociais: entenda técnica e por que hackers utilizam

Raspagem de dados em redes sociais: entenda técnica e por que hackers utilizam
Cruzamento de informa√ß√Ķes permite que hackers construam perfis unificados de usu√°rios e fortale√ßam arsenal para criar golpes e fraudes. Hackers programam 'robôs' para fazer varredura em dados públicos e reuni-los. Técnica é conhecida como 'raspagem'

Alfred Muller/Pixabay

Seja uma clonagem de perfil WhatsApp ou um e-mail com uma história convincente, uma fraude se torna mais eficaz quando o golpista conhece detalhes pessoais da vítima.

O que muita gente n√£o percebe é que cada intera√ß√£o pública na web deixa "migalhas" que podem ser reunidas para construir essas informa√ß√Ķes.

A técnica de aglutinar essas migalhas para criar bancos de dados é chamada de "raspagem" ou "garimpo" de dados. É uma pr√°tica bastante comum.

Em abril, o Facebook explicou que um pacote com dados de 530 milh√Ķes de usu√°rios foi obtido por meio de raspagem e, dias depois, o LinkedIn deu a mesma explica√ß√£o para um arquivo com informa√ß√Ķes de 500 milh√Ķes de perfis.

Mas por que as redes sociais – que raramente s√£o um modelo de transparência – n√£o veem problema em apontar a técnica como a origem desses pacotes?

O motivo é que essa coleta de informa√ß√Ķes raramente alcan√ßa informa√ß√Ķes consideradas particulares, como mensagens ou senhas.

Sendo assim, é apenas uma colet√Ęnea daquilo que os usu√°rios deixaram em seus perfis ou transmitiram por meio de intera√ß√Ķes (uma curtida ou participa√ß√£o em um grupo).

Quando um pacote de dados pode ser explicado por meio da raspagem, isso significa que n√£o houve qualquer invas√£o ou acesso indevido ao sistema. Mas a atividade ainda pode gerar situa√ß√Ķes inesperadas e alguns riscos.

Embora "raspagem de dados" seja a tradu√ß√£o de "data scraping", talvez seja mais f√°cil entender a pr√°tica como uma "garimpagem de dados": a busca por elementos valiosos existentes na montanha de dados públicos da web.

Infogr√°fico mostra como hackers usam raspagem de dados

Elcio Horiuchi/Arte G1

Por que extrair os dados?

Se esse "garimpo" de dados apenas recolhe informa√ß√Ķes que j√° est√£o disponíveis publicamente, por que um hacker se daria ao trabalho de fazer isso?

Um dos motivos é a conveniência. Consultar dados na internet é sempre mais lento e, se você precisa repetir a mesma consulta, o trabalho é dobrado.

Sendo assim, ter uma "rede social off-line" para consultas sob demanda pode agilizar o trabalho de um criminoso que constantemente precisa de dados pessoais.

Por exemplo: um golpista pode usar as informa√ß√Ķes coletadas publicamente para enviar e-mails em massa para milhares ou milh√Ķes de pessoas. Se ele tivesse que fazer uma consulta a cada mensagem enviada, esse processo demoraria muito e teria que ser refeito a cada remessa.

ENTENDA: Disparos de mensagens em massa se aproveitam de bancos de dados e informa√ß√Ķes públicas em redes sociais

WhatsApp baniu mais de mil contas por disparo em massa durante 1¬ļ e 2¬ļ turno das elei√ß√Ķes

Com os dados copiados em um pacote "off-line", ele pode reutilizar a informação sem ter de buscá-la novamente.

Do ponto de vista do hacker, é mais ou menos como construir a sua "agenda" de contatos. A diferen√ßa, claro, é a quantidade de pessoas e informa√ß√Ķes nesta agenda.

Nesse sentido, a principal vantagem est√° na possiblidade do cruzamento de informa√ß√Ķes. Com muitos dados em m√£os – inclusive de origens diferentes, como Facebook, LinkedIn, WhatsApp e assim por diante – é possível juntar tudo isso e estabelecer novas rela√ß√Ķes.

Outra vantagem est√° na obten√ß√£o de dados indiretos, que, normalmente, n√£o est√£o disponíveis para visualiza√ß√£o.

Com essa combina√ß√£o de dados, hackers podem buscar novas formas de fraudar usu√°rios e vítimas especialmente vulner√°veis à extra√ß√£o.

Quanto mais o golpista sabe sobre uma pessoa, mais f√°cil é inventar uma história convincente para engan√°-la.

Em alguns casos, os dados podem ser vendidos diretamente para marketing.

Como é realizada a extra√ß√£o de dados?

O método mais simples para "garimpar" dados é o "crawler", um "robô" que simula uma navega√ß√£o na rede social. Ele "abre" os perfis e, como n√£o é um ser humano, procura apenas dados específicos e os extrai.

Para entender esse processo, imagine um software capaz de apontar para um perfil de Facebook e, como resultado, produzisse uma planilha preenchida com dados como nome, emprego, foto, curtidas e assim por diante.

Depois, adicione a esse software a capacidade de seguir links para puxar os mesmos dados dos amigos, amigos de amigos, grupos e assim por diante.

Contudo, existem métodos de extra√ß√£o indiretos.

O WhatsApp, por exemplo, n√£o tem "link de perfil". Por outro lado, o WhatsApp utiliza números de telefone, que s√£o consecutivos (9991, 9992...), o que permite a cria√ß√£o de um robô que simule um usu√°rio de WhatsApp adicionando todos esses contatos à sua agenda. Se a foto do contato estiver pública, o robô poder√° copi√°-la.

Golpes no Whatsapp: saiba como se proteger

E, nisso, temos uma possibilidade de cruzamento de dados: se a mesma foto do WhatsApp for encontrada em redes sociais, existe a possibilidade de vincular esses perfis.

A mesma técnica pode ser usada em outros canais e redes sociais. O Facebook possui um mecanismo que permite localizar perfis pelo endere√ßo de e-mail.

'Clonagem' de perfil: como golpistas pedem dinheiro sem roubar a conta do WhatsApp

É possível saber se o seu celular est√° sendo espionado?

Portanto, se você j√° tem um endere√ßo de e-mail em m√£os – talvez porque o hacker o obteve de outro lugar – pode ser possível vincular o e-mail a um perfil.

O que as redes sociais fazem para coibir a extração?

Garimpar dados por meio de softwares automatizados é uma atividade vedada pelos termos de uso das redes sociais. Sendo assim, as redes sociais costumam se defender legalmente afirmando que a pr√°tica é proibida e que o "garimpeiro" violou suas regras.

Contudo, a discuss√£o na esfera jurídica segue aberta. A extra√ß√£o de dados pode ter finalidades benéficas – como em sites de compara√ß√£o de pre√ßos e na conferência de dados do governo que n√£o têm boas op√ß√Ķes de consulta. N√£o é possível afirmar que a proibi√ß√£o, por si só, teria resultados bons em todos os casos.

Do lado técnico, s√£o adotadas pr√°ticas de limita√ß√£o de acesso. Se um robô tentar acessar muitos perfis em um ritmo acelerado, que n√£o condiz com os h√°bitos de navega√ß√£o de um ser humano, isso ser√° detectado e bloqueado.

Também é comum o uso do chamado "Captcha", o "teste" que deve ser realizado para diferenciar humanos de robôs. S√£o aqueles mecanismos que dizem para você digitar os caracteres em um texto distorcido ou marcar imagens com determinados elementos.

Poucos recursos s√£o mais protegidos por "Captcha" do que o diretório do Facebook.

A rede social tem uma lista com os nomes dos usu√°rios e perfis na plataforma, mas é praticamente impossível acessar mais que duas p√°ginas sem que um "Captcha" seja solicitado. Isso, claro, se deve ao fato de que varrer esse diretório seria uma mina de ouro para o "garimpo" de dados, permitindo encontrar todos os perfis na rede.

Infelizmente, nem sempre foi assim – e o diretório j√° foi varrido no passado, como fica evidente pelos pacotes de dados que circulam pela web, como o do vazamento revelado em abril.

Raspagem e o 'perfil único'

Mesmo adotando medidas para barrar a pr√°tica de extra√ß√£o, n√£o é possível impedir a pr√°tica. Quanto mais rígido for o controle para evitar esse abuso, mais difícil ser√° a utiliza√ß√£o regular do servi√ßo.

Se o WhatsApp bloquear a adi√ß√£o de muitos contatos em r√°pida sequência, quem tiver uma agenda muito grande no celular teria problemas para come√ßar a usar o aplicativo, por exemplo. E o LinkedIn nem teria raz√£o de existir se as pessoas n√£o compartilhassem seus currículos.

VÍDEO: Como acontece um vazamento de dados?

H√° situa√ß√Ķes ainda mais complexas. O Facebook e o Google notoriamente utilizam a rede de origem do usu√°rio como "fator de confian√ßa".

Se você abrir uma janela anônima do seu navegador e colocar seu e-mail no login do Facebook - sem preencher a senha -, você j√° ver√° a foto do seu perfil.

Ou seja, a rede social associou seu e-mail ao seu perfil no login, mesmo que você tenha optado por n√£o exibir o seu e-mail no Facebook.

Mas, se você fizer a mesma coisa a partir de outro computador ou celular, que use uma rede Wi-Fi ou provedor diferente, você n√£o ver√° essa informa√ß√£o. Assim, o que você vê depende do computador usado no acesso.

Esse tipo de medida tenta reduzir as informa√ß√Ķes disponíveis para a extra√ß√£o de dados sem causar uma inconveniência ao usu√°rio. Se a foto de perfil só for exibida quando o acesso vier de uma rede j√° vinculada àquele perfil, a ideia é que o hacker – que est√° usando outra rede – n√£o poder√° ver a foto.

Só que hackers têm à disposi√ß√£o computadores infectados, as "redes zumbi", para intermediar acessos a partir de sistemas de qualquer provedor no mundo, coletando dados que normalmente n√£o estariam disponíveis.

É por isso que, do ponto de vista dos prestadores de servi√ßos, a extra√ß√£o de dados faz parte da paisagem natural da internet.

Se os dados est√£o públicos e acessíveis, eles podem ser obtidos de alguma forma. E n√£o h√° problema em admitir que dados foram obtidos assim, porque isso os livra da responsabilidade por uma suposta falha de seguran√ßa.

Para os usu√°rios, talvez o maior problema esteja nos vínculos entre os perfis, estabelecidos por fotos ou outras informa√ß√Ķes, violando a expectativa que os usu√°rios têm a respeito da privacidade. Afinal, se o usu√°rio nunca deixou duas informa√ß√Ķes no mesmo perfil, nem sempre ele imagina que aqueles dados apareceriam juntos.

É por isso que é normal se assustar quando ficamos sabendo que nosso e-mail ou número de telefone foi associado ao nosso nome, dados pessoais e perfis.

O cruzamento dos dados extraídos permite exatamente esse tipo de viola√ß√£o indireta de privacidade, reunindo e vinculando dados que deveriam estar separados.

Para as redes sociais, esse n√£o é um problema delas, porque elas nunca armazenaram esses dados juntos. É apenas uma atividade irregular de um terceiro.

Quem utiliza qualquer rede social deve lembrar do "perfil único": n√£o pense em suas redes sociais como perfis separados. Tudo que est√° na web é público, e alguém sempre poder√° juntar seus perfis, desde que seja capaz de criar um robô que fa√ßa algumas milh√Ķes de consultas.

Dúvidas sobre seguran√ßa, hackers e vírus? Envie para [email protected]

Veja dicas para se manter seguro on-line

: