Investigação revela que funcionários introduzem inconscientemente dados sensíveis nos modelos de IA generativa

Rui Parreira

20 jan 2025 13:07

Investigadores da Harmonic analisaram milhares de prompts introduzidas em modelos como o ChatGPT ou Copilot, referindo que os funcionários utilizam estas ferramentas para fazer sumários de textos e outras utilizações, mas por vezes partilham informações sensíveis que são absorvidas pelos modelos.

Apesar das ferramentas de IA generativa serem úteis para as tarefas profissionais do dia-a-dia, estas também podem colocar em risco as empresas e organizações, de acordo com os investigadores da Harmonic, empresa especialista na proteção de dados e adoção segura de IA.

Os investigadores analisaram milhares de prompts introduzidas nas plataformas de IA generativa como o Copilot, ChatGPT ou Gemini, entre outras. Descobriram que muitos funcionários utilizam as ferramentas de forma direta, tal como para fazer sumários de texto, editar um blog ou verificar um pedaço de código, com materiais que podem conter dados sensíveis que comprometem as empresas.

“Muitas organizações não têm visibilidade dos dados que os empregados estão a submeter nas ferramentas de IA generativa”, lê-se no relatório. Gigantes tecnológicas como a Amazon e a Samsung já se manifestaram, referindo fuga de dados sensíveis através de prompts utilizadas nas ferramentas de IA generativa.

Veja na galeria mais dados sobre o estudo:

Os investigadores esclarecem que quando se pensa em fuga de dados, as nossas mentes pensam em números de cartão de crédito ou informações pessoais. Mas para muitas empresas, as suas preocupações estão mais focadas na questão da propriedade intelectual e código-fonte que muitas vezes são submetidos nos modelos, de forma inconsciente.

A utilização das versões gratuitas dos modelos eleva o risco, refere o estudo. As organizações aprovam por norma um modelo de ferramenta de IA generativa, que ofereça garantia de que os dados utilizados não sejam usados no seu treino. Mas os investigadores dizem que esta proteção só funciona se os empregados utilizarem contas empresariais pagas.

As versões gratuitas não têm as funcionalidades de segurança, além de que muitas delas avisam que os dados são utilizados nos treinos. Isso significa que a informação que os funcionários submetem nos modelos gratuitos, muitas vezes dados sensíveis, podem ser usados para melhorar a IA.

Nos dados da Harmonic, em 2024, 63,8% dos utilizadores do ChatGPT utilizaram versões gratuitas, registando 53,5% de prompts sensíveis neste modelo. No geral, nas tarefas banais do dia-a-dia, 8,5% das prompts inseridas continham informações sensíveis.

A empresa diz que a combinação entre os dados sensíveis e a grande dependência em modelos gratuitos de IA é alarmante. Mas que bloquear o acesso às ferramentas de IA generativo não é uma solução viável. Isso porque o apelo é enorme que os empregados vão arranjar forma de contornar as restrições, como por exemplo, a usar equipamentos e redes pessoais. A solução passa por manter o uso da IA seguro, ao mesmo tempo que educa os seus funcionários sobre os riscos de submeterem dados sensíveis ou utilizarem versões gratuitas das ferramentas. O estudo completo pode ser consultado no website da empresa.