10% das contas ativas do Twitter poderão estar a criar conteúdo de spam

Rui Parreira

17 jun 2022 19:12

Este artigo tem mais de 3 anos

Segundo um cálculo feito com um modelo matemático da Global Data, estima-se que a percentagem de spam é maior que aquela que foi divulgada pelo Twitter.

O Twitter vive tempos de incerteza no que diz respeito à compra pelo magnata Elon Musk, depois deste acusar a direção da rede social de esconder informação sobre contas falsas, o que poderá ditar o fim da aquisição. Segundo o presidente executivo do Twitter, Parag Agrawal, as contas falsas representam menos de 5%, mas Musk parece colocar isso em dúvida, o que alguns analistas explicam como sendo uma tentativa de baixar o preço final da empresa.

Surgem agora os dados da GlobalData, empresa especialista em análise dados e analítica, que estima que 10% das contas ativas do Twitter estão a partilhar spam. Os cálculos foram feitos com um modelo matemático desenhado pela empresa. “O que é ou não spam é repentinamente uma discussão importante para a rede social, uma vez que a oferta de Elon Musk sobre o Twitter está agora em suspenso devido ao desacordo na proporção de contas de spam na plataforma”, referiu o cientista de dados da GlobalData, Sidharth Kumar.

O analista acrescenta que a proporção precisa de contas de spam é difícil de calcular, uma vez que é quase impossível de confirmar a identidade da entidade por trás das respetivas contas. “Da mesma forma que a definição de conta de spam poderá ser diferente para cada um. Fazer tweets sucessivos de conteúdos não originais pode ser considerado spam, mas outros podem considerar que são utilizadores muito ativos a partilhar os seus artigos/opiniões”.

O modelo matemático da GlobalData utiliza múltiplos parâmetros para avaliar se os conteúdos e respetivas contas são ou não spam. A empresa decidiu estes parâmetros ao focar-se nas diferenças da atividade entre as típicas contas de spam e um utilizador normal do Twitter. Os resultados foram depois tratados pelos analistas da GlobalData, que observaram de forma independente os diferentes níveis de pontuação, definindo se era ou não spam.

Alguns dos parâmetros passaram pela análise se a conta era ou não verificada, uma vez que aquelas que têm o símbolo de verificação eram improváveis de fazer spam. Se o tweet vier de aplicações de terceiros é possível que produzam spam, através do uso da API da rede social. Também foi verificado o histórico de tweets dividido pelo número de dias desde a criação da conta. Se esta tiver um grande número diário desde a sua criação, poderá ser spam, assim como diversos tweets num curto período de tempo.

A análise de tempo aos últimos 200 tweets e quantos não contêm hashtags. A empresa diz que as contas de spam praticamente não têm textos limpos, estas são usadas tipicamente para promover links, tweets ou hashtags. Também é analisado o conteúdo, se é sempre similar ou tem variações de assuntos. A distância de tempo entre os tweets e a descrição da biografia da conta são outros parâmetros usados nos cálculos da GlobalData.

Apesar da estimativa da empresa, Sidharth Kumar acrescenta que os valores são conservadores, uma vez que quer ter a certeza que estão a identificar corretamente as contas como spam. O analista realça que se trata de uma estimativa e não um cálculo conclusivo, uma vez que é difícil saber se a conta é um bot ou spam.