Anotação semântica (semi)automática de corpora: a frase nominal em alemão

Utilize este identificador para referenciar este registo: https://hdl.handle.net/1822/79649

Título:	Anotação semântica (semi)automática de corpora: a frase nominal em alemão
Outro(s) título(s):	(Semi)automatische semantische annotation von korpora: die nominalphrase im deutschen
Autor(es):	Arias Arias, Iván
Orientador(es):	Iriarte Sanromán, Álvaro Domínguez Vázquez, María José
Palavras-chave:	Anotação semântica Corpora Pacote lexical PLN Valência nominal Semantische annotation Korpora Lexikalisches paket NLP Nominale valenz
Data:	18-Jul-2022
Resumo(s):	Nos dias de hoje, no âmbito da investigação e da prática lexicográfica, a utilização de corpora tem-se revelado muito recorrente, principalmente pelo facto de ser considerada como a metodologia mais fiável para alcançarmos exemplos representativos das línguas naturais. Embora as ferramentas de Processamento de Língua Natural (PLN) tenham conseguido grandes avanços na anotação morfossintática de textos, continua a faltar uma anotação semântica exaustiva e sistematizada. Esta carência evidencia-se principalmente quando se fala em lexicografia e gramática de valências, pois na bibliografia teórica (cf. Domínguez, 2011) aponta-se para o facto de a valência semântica ser fulcral para a delimitação de argumentos que acompanham um lexema considerado como portador de valência. Daí surge, no contexto desta investigação, a necessidade de uma aproximação à anotação semântica de corpora, em que se preste atenção especial aos argumentos no nível da frase nominal e ao seu comportamento semântico, para além da etiquetagem morfossintática com a qual contamos normalmente. A gramática e lexicografia de valências, assim como a semântica léxica, constituem, portanto, o ponto de partida teórico da presente dissertação de mestrado. No que diz respeito à metodologia, o presente trabalho cingir-se-á à análise das estruturas argumentais de três nomes do campo semântico da comunicação em alemão (Bericht, Diskussion e Frage) e, através de metodologia de PLN, desenhar-se-á um API script que possibilite o cruzamento de dados de corpora com alguns pacotes lexicais delimitados e criados no âmbito dos projetos PORTLEX, MultiGenera e MultiComb. Esta metodologia permitir-nos-á analisar, a posteriori, a fiabilidade do script desenvolvido, e conduzirá para a extração de conclusões relativas ao valor que poderia trazer consigo a anotação semântica sistematizada de corpora. Heutzutage wird in der Wörterbuchforschung und in der Lexikographie immer häufiger auf Korpora zurückgegriffen, weil sie als zuverlässige Methode gelten, um repräsentative Beispiele der natürlichen Sprache zu finden. Obgleich die Entwicklung von Tools im Bereich der natürlichen Sprachverarbeitung (NLP) dazu führte, dass die Texte morphosyntaktisch annotiert sind, fehlt es immer noch an einer umfassenden und systematisierten semantischen Annotation. Dieser Mangel wird besonders deutlich, wenn man sich mit der Valenzlexikographie und der Valenzgrammatik befasst, da in der Literatur (vgl. Domínguez, 2011) darauf hingewiesen wird, dass die semantische Valenz wesentlich für die Abgrenzung von Ergänzungen ist, die neben einem als Valenzträger zu betrachtenden Lexem auftreten. Daraus ergibt sich, dass es einem Ansatz zur semantischen Annotation von Korpora bedarf, bei dem die nominalen Ergänzungen und ihr semantisches Verhalten im Vordergrund stehen und der sich zum Ziel setzt, die Grenzen der bereits existierenden morphosyntaktischen Annotation zu überschreiten. Die Valenzgrammatik und -lexikographie sowie die lexikalische Semantik stellen daher den theoretischen Ausgangspunkt der vorliegenden Masterarbeit dar. Die Vorgehensweise dieser Arbeit beschränkt sich auf die Analyse der Argumentstrukturen von drei Substantiven aus dem semantischen Feld der Kommunikation im Deutschen (Bericht, Diskussion und Frage). Mithilfe von Tools der NLP wird ein Skript entwickelt, das einen Abgleich zwischen den aus Korpora stammenden Daten und den lexikalischen Paketen entnommenen Daten ermöglicht. Die sog. lexikalischen Paketen wurden im Rahmen der Projekte PORTLEX, MultiComb und MultiGenera erstellt. Anschließend ist die Zuverlässigkeit des erstellten Skripts zu analysieren und es werden Schlussfolgerungen hinsichtlich des Wertes der systematisierten semantischen Annotation von Korpora gezogen.
Tipo:	Dissertação de mestrado
Descrição:	Dissertação de mestrado Europeu em Lexicografia
URI:	https://hdl.handle.net/1822/79649
Acesso:	Acesso aberto
Aparece nas coleções:	BUM - Dissertações de Mestrado ELACH - Dissertações de Mestrado