Sistema de visão detetor de automóveis em 3D e em tempo real para veículos autónomos

Utilize este identificador para referenciar este registo: https://hdl.handle.net/1822/91538

Título:	Sistema de visão detetor de automóveis em 3D e em tempo real para veículos autónomos
Outro(s) título(s):	A real-time 3D car-detector vision system for autonomous vehicles
Autor(es):	Faria, João Pedro de Oliveira
Orientador(es):	Fonseca, Jaime C. Borges, João
Palavras-chave:	Veículos autónomos Câmara Deteção de objetos Fine tuning Modalidade singular Modalidade múltipla Conjunto de dados real Conjunto de dados sintético Conjunto de dados Híbrido Autonomous vehicles Camera Object detection Fine-tuning Single modality Multiple modality Real conjunto de dados Synthetic conjunto de dados Hybrid conjunto de dados
Data:	15-Mar-2023
Resumo(s):	Atualmente, a indústria dos veículos autónomos encontra-se em rápido crescimento perspetivando-se uma revolução na forma como os meios de transporte são utilizados bem como a experiência de condu ção. Consequentemente, a transição para uma maior autonomia na capacidade de condução necessita, em primeira instância, de que o veículo percecione o ambiente e tome decisões tão rapidamente como as pes soas. Idealmente, que desempenhe o exercício de condução ainda melhor que estas. Para isso, é essencial o desenvolvimento de um sistema de visão para uma interpretação em tempo real do meio exterior, onde as entidades que o constituem sejam corretamente detetadas em frações de segundos, no contexto deste problema. Para isso, foi efetuado um estudo do desempenho de redes neuronais de modalidade singular e multi-modal quando as mesmas são treinadas com conjunto de dados 100% reais, 100% sintéticos ou híbri dos. Pretende-se assim averiguar até que ponto os dados sintéticos permitem para melhorar a precisão dos algoritmos, em qual das modalidades são mais eficazes, que são mais fáceis de produzir em massa e menos dispendiosos, e se o pré-treino com conjunto de dados híbridos antes do treino em conjunto de dados reais melhora o desempenho na deteção de veículos do que se os mesmos detetores fossem apenas treinados com conjunto de dados reais. Concluiu-se que é possível obter melhores resultados de classificação que os de literatura para os modelos Fcos3D e MVX-Net ao pré-treinar estes em conjunto de dados com pelo menos 25% de dados reais, desde que seja efetuado o processo de fine-tuning de seguida em dados reais. O modelo MVX-Net, multi-modal, obteve significativamente melhores resultados que o Fcos3D, modalidade única, para os diferentes tipos de conjunto de dados. Verificou-se também que, em geral, o fine-tuning em dados 100% reais melhorou os resultados de classificação para ambos os modelos, independentemente do conjunto de dados inicial de treino. Finalmente, de todas as experiências realizadas, para ambos os modelos obteve-se os melhores resultados de classificações após o fine-tuning em conjunto de dados puramente reais, em 8 épocas, nos conjunto de dados iniciais de treino compostos por 75% e 100% de dados reais, apesar de se terem atingido resultados superiores aos de literatura também para conjunto de dados com proporções de dados reais de 25% e 50%, o que viabiliza deste modo o uso de dados sintéticos para o treino. Currently, the autonomous vehicle industry is growing rapidly, with the prospect of an evolution in the way means of transportation are used as well as the driving experience. Consequently, the transition to greater autonomy in driving requires the vehicle to perceive the environment and make decisions as quickly as people do. Ideally, it should perform the driving exercise even better than they do. For this, it is essential to develop a robust and fail-safe vision system for real-time interpretation of the external environment, where entities are correctly detected in fractions of seconds. To this end, the purpose of this work was to study the performance of singular and multi-modal neural networks when they are trained on datasets with 100% real data, third-party datasets with 100% synthetic or simulated data that preferably are a mimic of the real datasets, and hybrid datasets. Specifically, the goal is to find out to what extent it is feasible to use synthetic data to improve the accuracy of the algorithms, in which way simulation data is most effective, which is easier to mass produce and less expensive, and whether pre-training on hybrid datasets before training on real datasets improves vehicle detection performance, in relation to detectors that were only trained on real datasets. It was concluded that it is possible to obtain better classification results than those in the literature for detection models which were proven for the Fcos3D and MVX-Net models by training them on datasets composed of at least 25% of real data, as long as it is followed by a fine-tuning process of said models in a real-world datasets. The MVX-Net model, multi-modal, obtained significantly better results than Fcos3D, single modality, for all types of datasets. It was also found that, in general, fine-tuning on real 100% data improved the classification results for both models, regardless of the initial training datasets. Finally, from all the experiments performed, for both models, the best classification results were obtained after fine-tuning on purely real datasets, in 8 epochs, in the initial training datasets composed of 75% and 100% of real data, which demonstrates the feasibility of using synthetic data for training, although higher results than in the literature were also achieved for datasets with real data proportions of 25% and 50%, making it feasible to use synthetic data for training.
Tipo:	Dissertação de mestrado
Descrição:	Dissertação de mestrado integrado em Engenharia Eletrónica Industrial e Computadores
URI:	https://hdl.handle.net/1822/91538
Acesso:	Acesso aberto
Aparece nas coleções:	BUM - Dissertações de Mestrado DEI - Dissertações de mestrado