Segurança da Informação em Projetos de Ciência de Dados

A segurança da informação é um aspecto crítico em projetos de ciência de dados. Isso influencia diretamente o trabalho do cientista de dados e como os dados são tratados durante o projeto.

Vamos aprender em detalhes os conceitos de segurança da informação relevantes para projetos de ciência de dados, como:

  • O que é anonimização e pseudoanonimização de dados;
  • Desafios de anonimização em projetos de ciência de dados;
  • O caso do Netflix e os riscos de dados públicos;
  • Exemplo prático de anonimização e pseudoanonimização;
  • Boas práticas para proteger dados confidenciais.

Quer saber mais sobre LGPD?

Torne-se um cientista de dados aprendendo tudo na prática!

Pra começar, o que é LGPD?

A LGPD, ou Lei Geral de Proteção de Dados, é a legislação que estabelece regras sobre a coleta, armazenamento, tratamento e compartilhamento de dados pessoais, impondo uma série de obrigações e responsabilidades às empresas e instituições que lidam com informações pessoais de cidadãos brasileiros.

Ela tem como objetivo principal proteger a privacidade e a liberdade dos indivíduos, garantindo que seus dados sejam utilizados de forma ética e segura.

E qual a sua importância?

A LGPD é de extrema importância no contexto atual, em que a coleta e o uso de dados pessoais se tornaram práticas comuns de diversas formas.

Ao estabelecer regras claras e rígidas para o tratamento de informações pessoais, a lei busca proteger os direitos fundamentais dos cidadãos, como a privacidade, a autodeterminação informativa e a segurança dos dados. Além disso, a LGPD também visa fomentar a confiança nas relações comerciais e institucionais, estimulando a inovação e o desenvolvimento de tecnologias mais seguras e responsáveis.

O que é anonimização e pseudoanonimização de dados?

A anonimização de dados refere-se ao processo de remover informações que podem identificar indivíduos em um conjunto de dados. Isso inclui informações como nome, endereço, CPF, etc.

O objetivo é garantir que não seja possível reidentificar uma pessoa específica nos dados anonimizados. Eles se tornam completamente desassociados de qualquer indivíduo.

Já a pseudoanonimização consiste em ocultar parcialmente os dados que identificam uma pessoa. Ao invés de remover essas informações completamente, elas são substituídas por um identificador, como um código ou ID.

Dessa forma, embora o dado esteja anonimizado temporariamente, ainda existe uma “chave” que permite reassociar os dados originais se necessário posteriormente.

Desafios de anonimização em projetos de ciência de dados

A anonimização em projetos de ciência de dados apresenta desafios únicos em comparação com outros contextos. Isso ocorre porque precisamos analisar os dados de forma holística, levando em conta toda a população representada.

Por exemplo, considere um conjunto de dados com informações como nome, gênero, nacionalidade, profissão e número de registro profissional. Ao remover nome e número de registro, podemos pensar que os dados estão anonimizados.

No entanto, se nossa população for um grupo específico, como os alunos de um curso com 200 pessoas, pode ser possível identificar indivíduos pelas outras características. Se há apenas uma pessoa brasileira do gênero feminino que é médica, por exemplo, ainda seria possível reidentificá-la.

Portanto, em projetos de ciência de dados, a anonimização vai além de simplesmente remover identificadores óbvios. É preciso considerar o conjunto de dados como um todo e se há a possibilidade de cruzamento com outras informações que levem à reidentificação.

O caso do Netflix e os riscos de dados públicos

Um exemplo famoso que ilustra bem os riscos de uma anonimização falha é o caso envolvendo a Netflix em 2006.

Na época, a Netflix disponibilizou publicamente um conjunto de dados anonimizados sobre as avaliações de filmes de seus usuários. Foram removidos nomes, mantendo apenas o primeiro nome de cada usuário.

No entanto, uma equipe de pesquisadores conseguiu cruzar esses dados com informações públicas de outro site, o IMDb. Eles descobriram que era possível identificar indivíduos específicos com base nos padrões de avaliação em diferentes períodos de tempo.

Esse caso mostra como a anonimização pode falhar mesmo depois de remover identificadores óbvios, especialmente quando os dados se tornam públicos. Portanto, é preciso considerar cuidadosamente se há informações externas que possam levar à reidentificação dos indivíduos representados nos dados.

Exemplo prático de anonimização e pseudoanonimização

Vamos explorar um exemplo prático para entender melhor como a anonimização e pseudoanonimização funcionam em projetos de ciência de dados.

Digamos que queremos criar um modelo de machine learning para prever a probabilidade dos usuários comprarem um carro ou um SUV nos próximos 3 meses. O objetivo é direcionar campanhas de marketing personalizadas com base nas previsões.

Nosso conjunto de dados original contém informações como nome, endereço, gênero, nacionalidade, profissão e idade. Um exemplo é o registro da Adriane Santos.

O primeiro passo é anonimizar esses dados, removendo nome e endereço, por exemplo, antes de utilizá-los para treinar o modelo de machine learning. Assim, garantimos que não há informação identificável durante o treinamento.

Em seguida, depois que o modelo já está treinado, podemos fazer previsões para novos indivíduos. Nesse caso, precisamos saber quem é a pessoa no resultado para direcionar o marketing.

Portanto, fazemos uma pseudoanonimização no registro de entrada, mantendo um ID único. Esse ID permite reidentificar o indivíduo depois que passamos os dados pelo modelo treinado e obtemos a previsão de compra de carro/SUV.

Dessa forma, conseguimos os benefícios tanto da anonimização quanto da pseudoanonimização: protegemos dados confidenciais durante o treinamento do modelo e também viabilizamos a utilização prática das previsões para casos de uso como personalização e marketing direcionado.

Boas práticas para proteger dados confidenciais

Aplicar apenas a anonimização ou pseudoanonimização não é suficiente para garantir a privacidade dos dados em projetos de ciência de dados. É preciso considerar o contexto e adotar boas práticas complementares de segurança da informação.

Algumas recomendações importantes incluem:

  • Minimizar a coleta de dados: colete apenas os dados necessários para a análise. Quantos menos dados confidenciais estiverem envolvidos no projeto, melhor.
  • Controle de acesso: estabeleça níveis diferenciados de permissão para dados anonimizados x dados originais com informações confidenciais.
  • Armazenamento seguro: dados que contêm identificadores devem ser armazenados em ambiente seguro e controlado.
  • Protocolos criptográficos: utilize criptografia e tokens durante a pseudoanonimização para aumentar a segurança.
  • Supervisão humana: em projetos complexos, tenha supervisão de especialistas em privacidade e conformidade para avaliar riscos.
  • Documentação: documente todas as transformações aplicadas aos dados para fins de rastreabilidade e auditoria.

A anonimização e a pseudoanonimização por si só não garantirão a privacidade dos dados. Elas precisam fazer parte de uma abordagem mais ampla de segurança da informação para projetos de ciência de dados.

Ao adotar boas práticas, é possível utilizar técnicas avançadas de análise de dados ao mesmo tempo que protegemos informações confidenciais dos indivíduos representados nos dados.

Conclusão

Vimos os desafios únicos de anonimização para dados de ciência de dados e o caso que revela os riscos de uma abordagem ingênua focada apenas na remoção de identificadores óbvios.

Também compreendemos como a pseudoanonimização pode ser utilizada durante o processo de desenvolvimento e utilização de modelos preditivos para viabilizar casos de uso como personalização e marketing direcionado.

Por fim, destacamos algumas recomendações complementares importantes além da anonimização e pseudoanonimização que ajudam a proteger efetivamente a privacidade dos indivíduos representados nos dados.

Aplicando essas boas práticas de segurança da informação, é possível desenvolver projetos de ciência de dados éticos e responsáveis, que equilibram as necessidades de análise de dados com a privacidade dos titulares das informações.

Quer saber mais sobre LGPD?

Torne-se um cientista de dados aprendendo tudo na prática!

Elabore modelos estatísticos, criar algoritmos, solucionar problemas e ampliar estratégia de negócios, desenvolvendo habilidades como:

  • Python Fundamentals
  • Machine Learning
  • SQL for Data Science
  • Visualização de dados
  • Metodologias Ágeis
  • Big Data
  • Estatística
  • Manipulação e limpeza de dados