Utilize este identificador para referenciar este registo: https://hdl.handle.net/1822/84574

TítuloComparação de métodos perturbativos: utilidade e perda de informação em bases de microdados
Outro(s) título(s)Comparison of perturbation methods: utility and information loss in microdata
Autor(es)Morais, Jorge
Orientador(es)Faria, Susana
Sousa, Rita
Palavras-chaveControlo de divulgação estatística (CDE)
Perturbação dos dados
Package sdcMicro
Risco de identificação
Utilidade dos dados
Statistical disclosure control (SDC)
Data perturbation
Disclosure risk
Data utility
Package sdcMicro
Data2022
Resumo(s)A procura por informação de alta qualidade por parte dos investigadores e do público em geral vem crescendo rapidamente nos últimos anos. Nesse sentido, é importante estabelecer um compromisso entre a disponibilização de informação estatística de qualidade e o cumprimento da legislação de proteção de dados. Técnicas de Controlo de Divulgação Estatística (CDE) sugerem métodos capazes de modificar dados sem revelar informação confidencial que possa ser vinculada a indivíduos específicos. Este projeto pretende descrever e aplicar os vários métodos perturbativos de CDE, demonstrando os passos a efetuar de forma a que seja possível a perturbação dos dados e ainda comparar os diferentes métodos de CDE avaliando a sua utilidade face à perda de informação e face ao risco de identificação. Numa fase inicial descrevem-se os diversos métodos de CDE apresentando-se as vantagens e desvantagens para cada um dos métodos, concluindo-se que a nível teórico o modelo Exact General Additive Data Perturbation (EGADP) e o modelo Data Shuffling produzem o menor risco de identificação e a maior utilidade nos dados. Para além da descrição dos métodos apresentam-se diversas medidas para o cálculo do risco de identificação e para a perda de informação. Utilizando a linguagem de programação R aplicam-se os métodos numa base de microdados fornecida pelo Laboratório de Investigação em Microdados do Banco de Portugal (BPLIM). Para além da aplicação dos métodos descreve-se o package sdcMicro em R, que é essencial na aplicação dos métodos de CDE. Com a aplicação a uma base de microdados real os resultados obtidos permitem concluir que a escolha do método pode variar consoante o objetivo do responsável da base de microdados. Neste caso, os métodos que apresentaram resultados mais favoráveis foram os modelos Aditivos de Ruído. Assim, na aplicação da base de microdados PT2020 fornecida pelo BPLIM conclui-se que: • Caso o objetivo do responsável seja obter o melhor compromisso entre a perda de informação e o risco de identificação, então a escolhe deve ser o modelo Aditivo de Ruído Correlacionado; • Caso o objetivo do responsável seja obter a menor perda de informação e um risco de identificação não muito elevado, então a escolha deve ser o modelo Aditivo de Ruído Independente; • Caso o objetivo do responsável seja obter o menor risco de identificação, independentemente da perda de informação, então a escolha deve ser o modelo Exact General Additive Data Perturbation (EGADP). Conclusões que contrariam em parte a literatura, no entanto, ao longo da dissertação é referido por várias vezes que a escolha do melhor método dependerá muito do objetivo do responsável da base de microdados e que não é possível referir apenas um método capaz de satisfazer os diversos objetivos dos diferentes responsáveis. Nesta dissertação faz-se também uma abordagem aos métodos perturbativos com dados longitudinais, no entanto esta ainda é uma área muito primitiva que precisa de ser mais desenvolvida, tanto a nível teórico como prático.
The demand for high-quality information from researchers and the public, in general, has been growing rapidly in recent years. In that sense, it is essential to establish a compromise between the availability of quality statistical information and compliance with data protection legislation. Statistical Disclosure Control (SDC) techniques suggest methods to modify data so that they can be published without revealing confidential information that can be linked to specific respondents. This project aims to describe and apply the various perturbation methods of SDC, showing the steps to be taken to make it possible to perturb the data and also comparing the different methods of SDC, evaluating their data utility and disclosure risk. Initially, the different SDC methods are described, presenting the advantages and disadvantages for each one of the methods, concluding that at a theoretical level the Exact General Additive Data Perturbation (EGADP) model and the Data Shuffling present the lowest disclosure risk and the highest data utility. In addition to the description of the methods, several measures are presented for calculating the disclosure risk and information loss. Using the R programming language, the methods are applied in a microdata base provided by BPLIM. In addition to the application of the methods, the package sdcMicro in R is described, which is essential in the application of CDE methods. With the results obtained in the application to a real data set, it is clear that the method choice depends on the goals of the person responsible for the microdata base. In this case, the methods that presented the most desirable results were the noise additive models. Thus, in the application to a real dataset provided by BPLIM, it is concluded that: • If the responsible person’s objective is to obtain the best compromise between the information lost and the disclosure risk, then the choice should be the Additive Correlated Noise model; • If the responsible person’s objective is to obtain the least loss of information and a not very high disclosure risk, then the choice should be the Independent Noise Additive model; • If the responsible person’s objective is to obtain the lowest disclosure risk, regardless of the information lost, then the choice should be the Exact General Additive Data Perturbation (EGADP) model. Conclusions that partially contradict the literature, however, throughout this paper it is mentioned several times that the choice of the best method depend a lot on the objective of the person responsible for the microdata base and that it is not possible to mention only one method capable of satisfying the various objectives of the differents responsibles. In this dissertation, an approach is also made to perturbative methods with longitudinal data, however, this is still a very primitive area that needs to be further developed, both theoretically and practically.
TipoDissertação de mestrado
DescriçãoDissertação de mestrado em Estatística para Ciência de Dados
URIhttps://hdl.handle.net/1822/84574
AcessoAcesso aberto
Aparece nas coleções:BUM - Dissertações de Mestrado
DMAT - Dissertações de Mestrado

Ficheiros deste registo:
Ficheiro Descrição TamanhoFormato 
Jorge Morais.pdfDissertação de mestrado1,99 MBAdobe PDFVer/Abrir

Este trabalho está licenciado sob uma Licença Creative Commons Creative Commons

Partilhe no FacebookPartilhe no TwitterPartilhe no DeliciousPartilhe no LinkedInPartilhe no DiggAdicionar ao Google BookmarksPartilhe no MySpacePartilhe no Orkut
Exporte no formato BibTex mendeley Exporte no formato Endnote Adicione ao seu ORCID