Utilize este identificador para referenciar este registo: https://hdl.handle.net/1822/92260

Registo completo
Campo DCValorIdioma
dc.contributor.authorSotelo Docío, Susanapor
dc.contributor.authorGamallo, Pablopor
dc.contributor.authorIriarte Sanromán, Álvaropor
dc.date.accessioned2024-07-03T15:08:44Z-
dc.date.available2024-07-03T15:08:44Z-
dc.date.issued2023-
dc.identifier.citationSotelo Docío, S., Gamallo, P. & Iriarte, Á. (2023). Desenvolvimento e avaliação de um modelo NER no domínio da análise cultural e do turismo. Linguamática, 15,2, 3–18.por
dc.identifier.issn1647-0818por
dc.identifier.urihttps://hdl.handle.net/1822/92260-
dc.description.abstractO Reconhecimento de Entidades Mencionadas (NER) é uma tarefa essencial de extração de informação em que as entidades de um texto são identificadas e classificadas. Um dos principais desafios enfrentados pelos sistemas NER é a dificuldade de generalização do aprendido para outros tipos de corpora diferentes dos utilizados durante o treino. Este problema é acentuado pelo facto de a maioria dos corpora de treino utilizados serem de natureza jornalística e, portanto, precisarem de ser adaptados a outros géneros e domínios. Neste artigo, utilizamos um corpus espanhol composto por entrevistas a visitantes da cidade de Santiago de Compostela e anotado com entidades mencionadas, para a avaliação e treino de sistemas NER adaptados ao domínio da cultura e do turismo. Apresentamos uma comparação das diferentes abordagens aplicadas, desde algoritmos clássicos de aprendizagem automática ao afinamento de vários modelos de Transformers. Os resultados obtidos superam significativamente o baseline, representado aqui pelos toolkits Stanza, spaCy e Flair, embora os testes preliminares com entidades não observadas durante o treino sugiram a necessidade de avaliações adicionais da sua capacidade de generalização e o uso de um método de segmentação adversarial no corpus.por
dc.description.abstractNamed Entity Recognition (NER) is an essential task in information extraction where entities in a text are identified and classified. One of the primary challenges addressed by NER systems is the difficulty of generalizing what was learned to different types of corpora beyond the training data. This problem is magnified by the fact that most of the training corpora used are journalistic and therefore need to be adapted to other genres and domains. In this paper, we use a Spanish corpus consisting of interviews with visitors to the city of Santiago de Compostela and annotated with named entities, to evaluate and train NER systems tailored to the domain of cultural analysis and tourism. We provide a comprehensive comparison of various approaches employed, ranging from classical machine learning algorithms to fine-tuning Transformer models. The results significantly outperform the baseline, represented here by the toolkits Stanza, spaCy and Flair, although initial tests with unseen entities during training highlight the need for additional evaluations regarding their generalization capability and the utilization of adversarial splits for the corpus.por
dc.description.sponsorshipEste trabalho faz parte do projeto Narrativas, usos e consumo dos visitantes como aliados ou ameaças ao bem-estar da comunidade local: o caso de Santiago de Compostela, com referência FFI2017-88196-R, parcialmente subsidiado pela Agencia Estatal de Investigación (AEI) - Fundos Feder (de janeiro de 2018 a junho de 2022).por
dc.language.isoporpor
dc.publisherUniversidade do Minhopor
dc.publisherUniversidade de Vigopor
dc.relationFFI2017-88196-Rpor
dc.rightsopenAccesspor
dc.rights.urihttp://creativecommons.org/licenses/by-nc/4.0/por
dc.subjectReconhecimento de entidades mencionadaspor
dc.subjectAprendizagem automáticapor
dc.subjectRedes neuronaispor
dc.subjectTransformerspor
dc.subjectAvaliaçãopor
dc.subjectNamed-entity recognitionpor
dc.subjectMachine learningpor
dc.subjectNeural networkspor
dc.subjectTransformerspor
dc.subjectEvaluationpor
dc.titleDesenvolvimento e avaliação de um modelo NER no domínio da análise cultural e do turismopor
dc.title.alternativeDevelopment and evaluation of a NER model in the domain of cultural analysis and tourismpor
dc.typearticlepor
dc.peerreviewedyespor
dc.relation.publisherversionhttps://linguamatica.com/index.php/linguamatica/article/view/405por
oaire.citationStartPage3por
oaire.citationEndPage18por
oaire.citationIssue2por
oaire.citationVolume15por
dc.identifier.doi10.21814/lm.15.2.405por
dc.subject.fosHumanidades::Outras Humanidadespor
sdum.journalLinguamática: Revista para o Processamento Automático das Línguas Ibéricaspor
oaire.versionVoRpor
Aparece nas coleções:CEHUM - Artigos publicados em revistas

Ficheiros deste registo:
Ficheiro Descrição TamanhoFormato 
405-Texto Artigo-1976-1-10-20231230.pdfNER no domínio da análise cultural e do turismo647,03 kBAdobe PDFVer/Abrir

Este trabalho está licenciado sob uma Licença Creative Commons Creative Commons

Partilhe no FacebookPartilhe no TwitterPartilhe no DeliciousPartilhe no LinkedInPartilhe no DiggAdicionar ao Google BookmarksPartilhe no MySpacePartilhe no Orkut
Exporte no formato BibTex mendeley Exporte no formato Endnote Adicione ao seu ORCID