Utilize este identificador para referenciar este registo:
https://hdl.handle.net/1822/92720
Título: | Geração de imagens de faces com alta resolução utilizando variational autoencoders |
Autor(es): | Gonçalves, Tiago Rico |
Orientador(es): | Esteves, António |
Palavras-chave: | Modelo gerador de imagens Variational autoencoder VQ-VAE PixelCNN VQ-GAN Image generation model |
Data: | 15-Jan-2024 |
Resumo(s): | Atualmente, a Inteligência Artificial, e em especial a subárea da aprendizagem automática e
profunda, é alvo de enorme interesse por parte das comunidades académica e empresarial.
Das áreas aplicacionais da aprendizagem automática, a par com o processamento de língua
natural, a visão por computador é aquela que tem suscitado mais interesse e gerado mais
resultados científicos. A geração de imagens é um dos problemas que se enquadra na visão
por computador.
Com esta dissertação pretende-se estudar os modelos geradores de imagens, e de entre
as alternativas para atacar este problema, o foco do trabalho são os modelos Variational
Autoencoders. Na fase inicial da dissertação é feito um levantamento bibliográfico do estado
da arte do tema do trabalho, visando adquirir os conhecimentos necessários para concretizar
a parte experimental.
Os conhecimentos adquiridos na fase de levantamento bibliográfico foram aplicados na
fase seguinte, onde se desenvolveu, treinou e avaliou modelos capazes de gerar imagens
novas com faces humanas. O foco foi a arquitetura Vector Quantized Variational Autoencoder
(VQ-VAE), auxiliada por um modelo autorregressivo PixelCNN. No entanto, foram também
explorados outros modelos geradores, tendo em mente complementar o estudo em causa, e
consequentemente, poder tirar conclusões mais abrangentes.
Após a implementação dos modelos, foi possível concluir que dentro de todos os modelos
testados o VQ-VAE apresentou o melhor desempenho, quer seja a nível qualitativo através
da inspeção visual das faces geradas, quer seja a nível quantitativo com a aplicação da
métrica Frechet Inception Distance. Além do VQ-VAE, o outro modelo que se destacou foi o
Vector Quantized Generative Adversarial Network, comprovando assim o potencial da aplicação
da quantização de vetores nos modelos geradores. Nowadays, the artificial intelligence, particularly the subarea of machine and deep learning, is the subject of enormous interest from the academy and the companies. Among the application areas of machine learning, along with natural language processing, computer vision is the one that has aroused the most interest and generated the most scientific results. Image generation is one of the problems that fall within computer vision. With this dissertation, it is intended to study image generation models, and among the alternatives to address this problem, the main focus of the present work are the Variational Autoencoders models. In the initial phase of the dissertation, a bibliographic review of the state of the art of the subject of the work was carried out, aiming to acquire the necessary knowledge to carry out the experimental phase. The knowledge acquired with the bibliographic review was applied in the next phase, where models capable of generating new images of human faces were developed, trained and evaluated. The main focus was the Vector Quantized Variational Autoencoder (VQ-VAE) architecture, aided by an autoregressive PixelCNN model. However, other types of generative models were also explored, in order to complement the study at hand and consequently reach more comprehensive conclusions. After implementing the models, it was possible to conclude that among all the evaluated models, VQ-VAE was the one that presented the best performance, both qualitatively, visually inspecting the generated faces, and quantitatively, applying the Frechet Inception Distance metric. In addition to VQ-VAE, the other model to stand out was VQ-GAN, thus justifying the potential of applying the concept of vector quantization to generative models. Keywords: image generation model, variational autoencoder, VQ-VAE, PixelCNN, VQ-GAN |
Tipo: | Dissertação de mestrado |
Descrição: | Dissertação de mestrado em Engenharia Informática |
URI: | https://hdl.handle.net/1822/92720 |
Acesso: | Acesso aberto |
Aparece nas coleções: | BUM - Dissertações de Mestrado DI - Dissertações de Mestrado |
Ficheiros deste registo:
Ficheiro | Descrição | Tamanho | Formato | |
---|---|---|---|---|
Tiago Rico Goncalves.pdf | Dissertação de mestrado | 8,46 MB | Adobe PDF | Ver/Abrir |
Este trabalho está licenciado sob uma Licença Creative Commons