Melhore a comunicação da política de privacidade com extração automatizada de informações

Resumo do Problema

A complexidade das políticas de privacidade muitas vezes dificulta que os usuários entendam as práticas de dados e suas implicações. As políticas tradicionais são geralmente longas, densas e repletas de jargões legais, levando à falta de engajamento e compreensão pelos usuários.

Racional

A justificativa é que melhorar a clareza e a compreensão das políticas de privacidade para os usuários, simplificando e estruturando essas políticas, pode ajudar os usuários a entenderem a informação mais facilmente, a tomar decisões informadas e a reduzir o fardo cognitivo associado a políticas longas e complexas.

Solução

A automação ou o desenvolvimento de ferramentas que melhorem a consulta e a legibilidade das políticas de privacidade, aprimorando a compreensão, clareza e conscientização dos usuários. Essas ferramentas focam principalmente na anotação das políticas de privacidade para facilitar o processamento subsequente. Dada a complexidade de automatizar esse processo de anotação, elas empregam técnicas de processamento de linguagem natural (NLP) e aprendizado de máquina (ML) para a automação. O conjunto de dados OPP-115 é predominantemente utilizado para treinar os modelos propostos nas pesquisas de apoio apresentada abaixo.

Harkous et al. [1] propuseram o Polisis, uma ferramenta escalável para análise de políticas de privacidade que divide as políticas de privacidade em segmentos e anota cada um deles para práticas detalhadas de dados. Isso permite consultas em nível alto e granular. O Polisis consiste em três camadas: (a) Camada de Aplicação - fornece informações consultadas pelos usuários; (b) Camada de Dados - responsável por extrair a página da política, extrair e segmentar a política de privacidade; e (c) Camada de Aprendizado de Máquina - utiliza embeddings de palavras e redes neurais para classificação de texto, treinada no conjunto de dados OPP-115 para detectar rótulos detalhados dos segmentos da política de privacidade. As extensões de navegador protótipo para Chrome e Firefox e a página web protótipo (https://pribot.org/) não estão mais operacionais.

Brunotte et al. [2] propuseram o Online Privacy Policy eXplainer (PriX), uma extensão de navegador projetada para ajudar os usuários a entenderem as políticas de privacidade através de explicações visuais. O PriX realiza três funções principais: verificar se um site possui uma política de privacidade, analisar a política de privacidade e fornecer explicações visuais para melhorar a compreensão do usuário. A ferramenta utiliza classificadores treinados (Naive Bayes e Random Forest) para identificar categorias de dados e apresentá-las com ícones de privacidade correspondentes, facilitando a melhor compreensão. Os classificadores foram treinados no OPP-115.

Shayegh e Ghanavati [3] propuseram um método para extrair declarações de notificação e escolha das políticas de privacidade. As políticas de privacidade são anotadas com cinco rótulos principais: #D (definição), #A (ação), #F (fato), #NR (não relevante) e #CR (referências cruzadas). As ações são detalhadas com subanotações como #Collect, #Purpose, #Shared, #Permit e #Information. Essas anotações são usadas para criar gráficos a partir das seções de ação anotadas, estabelecendo conexões entre diferentes rótulos. Os gráficos são então transformados em avisos e escolhas concisos sobre práticas de dados. Este método visa gerar avisos e escolhas curtos e compreensíveis, melhorando a legibilidade e a usabilidade das políticas de privacidade para os usuários, especialmente em dispositivos IoT.

Alabduljabbar et al. [4] desenvolveram o TLDR, uma ferramenta de destaque de segmentos que condensa segmentos essenciais das políticas de privacidade relacionadas a práticas específicas. O TLDR emprega modelos de aprendizado de máquina e aprendizado profundo para extrair práticas de privacidade e coleta de dados. O processo envolve pré-processamento de segmentos, extração de características profundas de técnicas de representação de texto e uso de um conjunto de classificadores para classificação de múltiplos rótulos. Os classificadores foram treinados usando o conjunto de dados OPP-115 para detectar rótulos detalhados dos segmentos das políticas de privacidade. Embora o trabalho não inclua capturas de tela da apresentação dos segmentos, ele fornece métricas detalhadas de desempenho para os classificadores e algoritmos de aprendizado de máquina utilizados na construção do TLDR.

Windl et al. [5] desenvolveram o PrivacyInjector, uma extensão de navegador para Google Chrome e Firefox, projetada para aumentar a conscientização sobre privacidade dos usuários, fornecendo informações contextuais sobre a política de privacidade. O PrivacyInjector opera em cinco etapas: identificar a URL da política de privacidade do site, segmentar e anotar a política, reconhecer contextos relevantes e exibir segmentos anotados como bolhas de ícones na página web. A ferramenta utiliza embeddings de palavras específicos de domínio criados a partir de dados não rotulados e treina classificadores de texto usando redes neurais convolucionais (CNNs). O processo de classificação de segmentos envolve pré-processamento, extração de características profundas de técnicas de representação de texto e utilização de um conjunto de classificadores para classificação de múltiplos rótulos. O PrivacyInjector aproveita o MAPS Policies Dataset para formar um corpus de palavras relacionadas à privacidade e utiliza o fastText para treinar embeddings de palavras. O design de política de privacidade contextual (CPP) inclui colaboração com especialistas em design, resultando em informações concisas exibidas em barras laterais com bolhas arrastáveis que aparecem em áreas relevantes do site. Os componentes do lado do cliente e do servidor da extensão estão disponíveis no GitHub, permitindo mais pesquisas e desenvolvimento. Os autores do PrivacyInjector também disponibilizaram os classificadores treinados no repositório https://github.com/Maxikilliane/polisis-classifiers, o qual utiliza resultados do trabalho de Harkous et al. [1].

Chang et al. [6] propõem um sistema que constrói um perfil de preocupações de privacidade do usuário usando dados coletados por meio de crowdsourcing e entrevistas. Esses perfis são agrupados usando clustering hierárquico para criar um sistema que corresponda novos usuários a um grupo de perfis. O sistema emprega redes neurais convolucionais (CNN) e modelos de Random Forest para analisar políticas de privacidade, considerando o perfil de preocupações de privacidade do usuário e itens relacionados a GDPR. O conjunto de dados OPP-115 é utilizado para treinamento e categorias de privacidade, alcançando uma precisão de 0.94 para a classificação de categorias de privacidade e uma precisão de 0.81 para a extração de segmentos de políticas. Embora o artigo não forneça um link para o novo conjunto de dados de perfis de preocupações de privacidade ou capturas de tela do aplicativo Android implementado, ele demonstra a eficácia do sistema em melhorar a conscientização sobre privacidade dos usuários.

Pontes, Zorzo e Mello [7] desenvolveram o PPMark, uma ferramenta protótipo projetada para processar políticas de privacidade escritas em linguagem natural e extrair informações sobre coleta e uso de dados, apresentando essas informações em um formato de etiqueta semelhante aos fatos nutricionais. O PPMark visa tornar as políticas de privacidade mais compreensíveis, exibindo práticas-chave de coleta de dados de maneira amigável ao usuário.

Plataformas: computadores pessoais, dispositivos móveis

Diretrizes relacionadas: Implemente estratégias visuais para a comunicação eficaz de políticas de privacidade, Incorpore ícones para melhorar a comunicação da política de privacidade

Exemplo

Interface de usuário do <em>Privacy Policy eXplainer</em> (PriX)  <a href="#section2">[2]</a>

Interface de usuário do Privacy Policy eXplainer (PriX) [2] retirada da Wayback Machine. (Ver em tamanho maior)

Exemplo de notificação gerada <a href="#section4">[4]</a>.

Exemplo de notificação gerada [4]. (Ver em tamanho maior)

Visão geral do PrivacyInjector conforme em Windl et al. <a href="#section5">[5]</a>.

Visão geral do PrivacyInjector conforme em Windl et al. [5]. No exemplo, um usuário navegou até a página inicial do Webex. O PrivacyInjector identificou segmentos relacionados a cookies e elementos de rastreamento no extenso documento de política (c). Um ícone de informação (a) aparece no banner de cookie e, quando selecionado, uma barra lateral (b) revela os trechos de informação extraídos. (Ver em tamanho maior)

Casos de uso
  • Simplificar linguagem jurídica complexa e estruturar políticas de privacidade para melhorar a legibilidade e compreensão do usuário.
  • Geração (automática) de avisos de privacidade e controle curtos a partir de políticas de privacidade longas, para ajudar os usuários a compreender mais rapidamente as principais práticas de dados e tomar decisões informadas.
  • Auxiliar os usuários na consulta de políticas de privacidade para abordar questões específicas de privacidade, fornecendo informações claras e relevantes sobre as práticas de tratamento de dados.
  • Ajudar sites e organizações a cumprir os regulamentos de proteção de dados (por exemplo, GDPR), tornando as políticas de privacidade mais transparentes, claras e compreensíveis para os usuários.
Vantagens

  • Um estudo de usuários mostrou que explicações visuais são uma maneira apropriada de promover a conscientização sobre privacidade e podem ajudar os usuários a entender as políticas de privacidade [2].
  • O TLDR agiliza a leitura, reduzindo o tempo médio em 39,14% por meio da condensação de informações. Ele simplifica o processo pela redução de parágrafos e palavras, diminuindo o esforço necessário para compreender as práticas do provedor do serviço [4].
  • O PrivacyInjector reconheceu efetivamente as políticas de privacidade em vários sites, obtendo altas classificações de funcionalidade dos participantes e encorajando comportamentos de privacidade mais ponderados. Os usuários acharam a ferramenta cada vez mais útil ao longo do tempo, observando que ela não interrompeu sua experiência de navegação, mas forneceu informações valiosas além da fase inicial de exploração, particularmente durante o registro/login ou quando informações inesperadas eram compartilhadas.
  • Um estudo de campo da solução proposta demonstrou sua eficácia, fornecendo aos usuários preocupados com conteúdo uma taxa de precisão de 0,81 [6].
  • A extração de declarações de aviso e escolha melhora a clareza e a precisão dos resumos de políticas de privacidade [3]. Além disso, a apresentação em formato de rótulo do PPMark das informações de política de privacidade é amigável ao usuário, tornando os termos de privacidade complexos mais compreensíveis. Os usuários sentiram que isso reduziu o tempo necessário para ler as políticas de privacidade [7].
  • O Polisis permite consultas detalhadas sobre práticas de dados, melhorando significativamente a capacidade dos usuários de entender políticas de privacidade complexas por meio de análises baseadas em aprendizado de máquina [1].

Desvantagens

  • Necessita estudo de longo prazo, para testar a habituação do usuário [2][5].
  • Os provedores de serviço precisam melhorar a legibilidade por máquina das políticas de privacidade [6].
  • Atualmente, apenas identifica e analisa políticas de privacidade em inglês, mesmo em sites multilíngues, exibindo a versão em inglês no contexto de qualquer versão de idioma [5]. Somente o inglês também é o caso citado em [2] e [3].
  • Interações incomuns em sites, URLs de políticas pouco claras, interações obrigatórias de usuários e links de políticas ausentes tornam desafiador analisar e comunicar segmentos de políticas sistematicamente [5]. Além disso, a falta de um formato padrão em políticas de privacidade leva à ambiguidade [4]. A ferramenta PPMark, por exemplo, depende de formatos de entrada estruturados e pode ter dificuldades com políticas de privacidade não estruturadas ou mal formatadas, limitando sua eficácia [7].
  • A dificuldade tecnológica em relação às explicações sobre privacidade, em geral, é garantir que os textos permaneçam em conformidade com a legislação [2].
  • O método proposto para anotação de políticas de privacidade é manual, necessitando construir uma ferramenta para automatizar as etapas [3]. Além disso, o desempenho dos modelos de aprendizado de máquina na classificação e anotação precisas de segmentos de políticas de privacidade pode variar dependendo da qualidade e representatividade dos dados de treinamento [1].

Avisos de Privacidade

Tais soluções visam comunicar práticas de tratamento de dados pessoais através de avisos de privacidade [8]. Também podem ser integradas com escolhas de privacidade [9], permitindo aos usuários tomarem decisões imediatas, o que os pesquisadores consideram mais eficaz. Considerando o espaço de design para avisos de privacidade, esta recomendação pode ser aplicada às seguintes dimensões:

  • Sob demanda
    A diretriz proposta, além de navegar pela política de privacidade em si, também pode ser utilizada para apresentar um aviso de privacidade aos usuários quando eles buscam ativamente informações de privacidade, como em painéis de privacidade e interfaces de configurações.
  • Na configuração
    A diretriz proposta pode ser usada para apresentar um aviso de privacidade aos usuários quando eles estiverem usando o sistema pela primeira vez, para que eles possam estar cientes das práticas de tratamento de dados. Ela pode ser integrada com escolhas de privacidade, exigindo que os usuários tomem decisões ou deem consentimento com base nas informações do aviso de privacidade.

  • Bloqueante
    Esta diretriz pode ser combinada com controles (opções de privacidade) bloqueantes, exigindo que os usuários tomem decisões ou deem consentimento com base nas informações do aviso.
  • Desacoplado
    Esta diretriz pode ser aplicada a avisos de privacidade desacoplados de opções de privacidade.
  • Não-bloqueante
    Esta recomendação pode ser utilizada com controles (opções de privacidade) não bloqueantes, fornecendo opções de controle sem forçar a interação do usuário.

  • Visual
    Esta recomendação se aplica a um aviso visual, utilizando recursos visuais como cores, texto e ícones.
  • Legível por máquina
    as soluções sugeridas poderiam ser aplicadas a um formato legível por máquina, mas atualmente, a falta de um formato padrão para políticas de privacidade limita esse potencial.

  • Primário
    Esta diretriz pode ser aplicada à mesma plataforma ou dispositivo com o qual o usuário está interagindo.
  • Secundário
    Esta recomendação pode ser aplicada a canais secundários se o canal primário não tiver interface ou tiver uma interface limitada.
  • Público
    Esta diretriz poderia ser aplicada a avisos públicos. No entanto, os canais públicos podem ser limitados em quanta informação eles podem transmitir, e se escolhas de privacidade forem necessárias, outros canais de suporte serão necessários.

Transparência

Transparência [10] é o principal atributo de privacidade, uma vez que este mecanismo envolve a distribuição proativa de informações aos usuários, promovendo a comunicação visualmente acessível das práticas de tratamento de dados e ajudando os usuários a tomar decisões informadas sobre privacidade. Outros atributos de privacidade relacionados: Outros atributos de privacidade relacionados:

Fornecer aos usuários ideias abrangentes e compreensíveis sobre as práticas de tratamento de dados potencializa o controle, pois permitem que os usuários tomem decisões autodeterminadas sobre o compartilhamento de seus dados pessoais.

Esta diretriz também pode melhorar a compreensão do propósito das práticas de tratamento de dados, aprimorando a consulta e legibilidade das políticas de privacidade.

Esta diretriz também pode melhorar a compreensão das práticas de coleta de dados pessoais, ao aprimorar a consulta e a legibilidade das políticas de privacidade.


Referências

[1] Hamza Harkous, Kassem Fawaz, Rémi Lebret, Florian Schaub, Kang G. Shin, and Karl Aberer. Polisis: Automated analysis and presentation of privacy policies using deep learning. In 27th USENIX Security Symposium (USENIX Security 18), 2018, pp. 531-548 https://www.usenix.org/system/files/conference/usenixsecurity18/sec18-harkous.pdf

[2] Wasja Brunotte, Larissa Chazette, Lukas Kohler, Jil Klunder, and Kurt Schneider. What About My Privacy?Helping Users Understand Online Privacy Policies. In Proceedings of the International Conference on Software and System Processes and International Conference on Global Software Engineering (ICSSP'22). Association for Computing Machinery, New York, NY, USA, 2022, 56–65. https://doi.org/10.1145/3529320.3529327

[3] Parvaneh Shayegh and Sepideh Ghanavati. Toward an Approach to Privacy Notices in IoT. 2017 IEEE 25th International Requirements Engineering Conference Workshops (REW), Lisbon, Portugal, 2017, pp. 104-110. https://doi.org/10.1109/REW.2017.77

[4] Abdulrahman Alabduljabbar, Ahmed Abusnaina, Ülkü Meteriz-Yildiran, and David Mohaisen. TLDR: Deep Learning-Based Automated Privacy Policy Annotation with Key Policy Highlights. In Proceedings of the 20th Workshop on Workshop on Privacy in the Electronic Society (WPES '21). Association for Computing Machinery, New York, NY, USA, 2021, 103–118. https://doi.org/10.1145/3463676.3485608

[5] Maximiliane Windl, Niels Henze, Albrecht Schmidt, and Sebastian S. Feger. Automating Contextual Privacy Policies: Design and Evaluation of a Production Tool for Digital Consumer Privacy Awareness. In Proceedings of the 2022 CHI Conference on Human Factors in Computing Systems (CHI '22). Association for Computing Machinery, New York, NY, USA, 2022, Article 34, 1–18 https://doi.org/10.1145/3491102.3517688

[6] Cheng Chang, Huaxin Li, Yichi Zhang, Suguo Du, Hui Cao, and Zhu Haogin. Automated and Personalized Privacy Policy Extraction Under GDPR Consideration. In: Biagioni, E., Zheng, Y., Cheng, S. (eds) Wireless Algorithms, Systems, and Applications. WASA 2019. Lecture Notes in Computer Science(), vol 11604. Springer, Cham https://doi.org/10.1007/978-3-030-23597-0_4

[7] Diego Roberto Gonçalves Pontes, Sergio Donizetti Zorzo, and Jose Santiago Moreira de Mello (2017). Evaluation of the reliability of using the prototype PPMark - a tool to support the computer human interaction in readings the privacy policies - using the GQM and TAM models. AMCIS 2017 Proceedings. 22. https://aisel.aisnet.org/amcis2017/InformationSystems/Presentations/22

[8] Florian Schaub, Rebecca Balebako, Adam L Durity, and Lorrie Faith Cranor (2015). A Design Space for Effective Privacy Notices. In: Symposium on Usable Privacy and Security (SOUPS 2015). [S.l.: s.n.], p. 1–17. https://www.usenix.org/system/files/conference/soups2015/soups15-paper-schaub.pdf

[9] Yuanyuan Feng, Yaxing Yao, and Norman Sadeh (2021). A Design Space for Privacy Choices: Towards Meaningful Privacy Control in the Internet of Things. In CHI Conference on Human Factors in Computing Systems (CHI ’21), May 8–13, 2021, Yokohama, Japan. ACM, New York, NY, USA, 16 pages. https://doi.org/10.1145/3411764.3445148

[10] Susanne Barth, Dan Ionita, and Pieter Hartel (2022). Understanding Online Privacy — A Systematic Review of Privacy Visualizations and Privacy by Design Guidelines. ACM Comput. Surv. 55, 3, Article 63 (February 2022), 37 pages. https://doi.org/10.1145/3502288