Utilize este identificador para referenciar este registo: https://hdl.handle.net/1822/92720

TítuloGeração de imagens de faces com alta resolução utilizando variational autoencoders
Autor(es)Gonçalves, Tiago Rico
Orientador(es)Esteves, António
Palavras-chaveModelo gerador de imagens
Variational autoencoder
Image generation model
Resumo(s)Atualmente, a Inteligência Artificial, e em especial a subárea da aprendizagem automática e profunda, é alvo de enorme interesse por parte das comunidades académica e empresarial. Das áreas aplicacionais da aprendizagem automática, a par com o processamento de língua natural, a visão por computador é aquela que tem suscitado mais interesse e gerado mais resultados científicos. A geração de imagens é um dos problemas que se enquadra na visão por computador. Com esta dissertação pretende-se estudar os modelos geradores de imagens, e de entre as alternativas para atacar este problema, o foco do trabalho são os modelos Variational Autoencoders. Na fase inicial da dissertação é feito um levantamento bibliográfico do estado da arte do tema do trabalho, visando adquirir os conhecimentos necessários para concretizar a parte experimental. Os conhecimentos adquiridos na fase de levantamento bibliográfico foram aplicados na fase seguinte, onde se desenvolveu, treinou e avaliou modelos capazes de gerar imagens novas com faces humanas. O foco foi a arquitetura Vector Quantized Variational Autoencoder (VQ-VAE), auxiliada por um modelo autorregressivo PixelCNN. No entanto, foram também explorados outros modelos geradores, tendo em mente complementar o estudo em causa, e consequentemente, poder tirar conclusões mais abrangentes. Após a implementação dos modelos, foi possível concluir que dentro de todos os modelos testados o VQ-VAE apresentou o melhor desempenho, quer seja a nível qualitativo através da inspeção visual das faces geradas, quer seja a nível quantitativo com a aplicação da métrica Frechet Inception Distance. Além do VQ-VAE, o outro modelo que se destacou foi o Vector Quantized Generative Adversarial Network, comprovando assim o potencial da aplicação da quantização de vetores nos modelos geradores.
Nowadays, the artificial intelligence, particularly the subarea of machine and deep learning, is the subject of enormous interest from the academy and the companies. Among the application areas of machine learning, along with natural language processing, computer vision is the one that has aroused the most interest and generated the most scientific results. Image generation is one of the problems that fall within computer vision. With this dissertation, it is intended to study image generation models, and among the alternatives to address this problem, the main focus of the present work are the Variational Autoencoders models. In the initial phase of the dissertation, a bibliographic review of the state of the art of the subject of the work was carried out, aiming to acquire the necessary knowledge to carry out the experimental phase. The knowledge acquired with the bibliographic review was applied in the next phase, where models capable of generating new images of human faces were developed, trained and evaluated. The main focus was the Vector Quantized Variational Autoencoder (VQ-VAE) architecture, aided by an autoregressive PixelCNN model. However, other types of generative models were also explored, in order to complement the study at hand and consequently reach more comprehensive conclusions. After implementing the models, it was possible to conclude that among all the evaluated models, VQ-VAE was the one that presented the best performance, both qualitatively, visually inspecting the generated faces, and quantitatively, applying the Frechet Inception Distance metric. In addition to VQ-VAE, the other model to stand out was VQ-GAN, thus justifying the potential of applying the concept of vector quantization to generative models. Keywords: image generation model, variational autoencoder, VQ-VAE, PixelCNN, VQ-GAN
TipoDissertação de mestrado
DescriçãoDissertação de mestrado em Engenharia Informática
AcessoAcesso aberto
Aparece nas coleções:BUM - Dissertações de Mestrado
DI - Dissertações de Mestrado

Ficheiros deste registo:
Ficheiro Descrição TamanhoFormato 
Tiago Rico Goncalves.pdfDissertação de mestrado8,46 MBAdobe PDFVer/Abrir

Este trabalho está licenciado sob uma Licença Creative Commons Creative Commons

Partilhe no FacebookPartilhe no TwitterPartilhe no DeliciousPartilhe no LinkedInPartilhe no DiggAdicionar ao Google BookmarksPartilhe no MySpacePartilhe no Orkut
Exporte no formato BibTex mendeley Exporte no formato Endnote Adicione ao seu ORCID