Utilize este identificador para referenciar este registo:
https://hdl.handle.net/1822/79649
Título: | Anotação semântica (semi)automática de corpora: a frase nominal em alemão |
Outro(s) título(s): | (Semi)automatische semantische annotation von korpora: die nominalphrase im deutschen |
Autor(es): | Arias Arias, Iván |
Orientador(es): | Iriarte Sanromán, Álvaro Domínguez Vázquez, María José |
Palavras-chave: | Anotação semântica Corpora Pacote lexical PLN Valência nominal Semantische annotation Korpora Lexikalisches paket NLP Nominale valenz |
Data: | 18-Jul-2022 |
Resumo(s): | Nos dias de hoje, no âmbito da investigação e da prática lexicográfica, a utilização de corpora
tem-se revelado muito recorrente, principalmente pelo facto de ser considerada como a metodologia
mais fiável para alcançarmos exemplos representativos das línguas naturais. Embora as ferramentas de
Processamento de Língua Natural (PLN) tenham conseguido grandes avanços na anotação
morfossintática de textos, continua a faltar uma anotação semântica exaustiva e sistematizada. Esta
carência evidencia-se principalmente quando se fala em lexicografia e gramática de valências, pois na
bibliografia teórica (cf. Domínguez, 2011) aponta-se para o facto de a valência semântica ser fulcral para
a delimitação de argumentos que acompanham um lexema considerado como portador de valência. Daí
surge, no contexto desta investigação, a necessidade de uma aproximação à anotação semântica de
corpora, em que se preste atenção especial aos argumentos no nível da frase nominal e ao seu
comportamento semântico, para além da etiquetagem morfossintática com a qual contamos
normalmente. A gramática e lexicografia de valências, assim como a semântica léxica, constituem,
portanto, o ponto de partida teórico da presente dissertação de mestrado. No que diz respeito à
metodologia, o presente trabalho cingir-se-á à análise das estruturas argumentais de três nomes do
campo semântico da comunicação em alemão (Bericht, Diskussion e Frage) e, através de metodologia
de PLN, desenhar-se-á um API script que possibilite o cruzamento de dados de corpora com alguns
pacotes lexicais delimitados e criados no âmbito dos projetos PORTLEX, MultiGenera e MultiComb. Esta
metodologia permitir-nos-á analisar, a posteriori, a fiabilidade do script desenvolvido, e conduzirá para a
extração de conclusões relativas ao valor que poderia trazer consigo a anotação semântica sistematizada
de corpora. Heutzutage wird in der Wörterbuchforschung und in der Lexikographie immer häufiger auf Korpora zurückgegriffen, weil sie als zuverlässige Methode gelten, um repräsentative Beispiele der natürlichen Sprache zu finden. Obgleich die Entwicklung von Tools im Bereich der natürlichen Sprachverarbeitung (NLP) dazu führte, dass die Texte morphosyntaktisch annotiert sind, fehlt es immer noch an einer umfassenden und systematisierten semantischen Annotation. Dieser Mangel wird besonders deutlich, wenn man sich mit der Valenzlexikographie und der Valenzgrammatik befasst, da in der Literatur (vgl. Domínguez, 2011) darauf hingewiesen wird, dass die semantische Valenz wesentlich für die Abgrenzung von Ergänzungen ist, die neben einem als Valenzträger zu betrachtenden Lexem auftreten. Daraus ergibt sich, dass es einem Ansatz zur semantischen Annotation von Korpora bedarf, bei dem die nominalen Ergänzungen und ihr semantisches Verhalten im Vordergrund stehen und der sich zum Ziel setzt, die Grenzen der bereits existierenden morphosyntaktischen Annotation zu überschreiten. Die Valenzgrammatik und -lexikographie sowie die lexikalische Semantik stellen daher den theoretischen Ausgangspunkt der vorliegenden Masterarbeit dar. Die Vorgehensweise dieser Arbeit beschränkt sich auf die Analyse der Argumentstrukturen von drei Substantiven aus dem semantischen Feld der Kommunikation im Deutschen (Bericht, Diskussion und Frage). Mithilfe von Tools der NLP wird ein Skript entwickelt, das einen Abgleich zwischen den aus Korpora stammenden Daten und den lexikalischen Paketen entnommenen Daten ermöglicht. Die sog. lexikalischen Paketen wurden im Rahmen der Projekte PORTLEX, MultiComb und MultiGenera erstellt. Anschließend ist die Zuverlässigkeit des erstellten Skripts zu analysieren und es werden Schlussfolgerungen hinsichtlich des Wertes der systematisierten semantischen Annotation von Korpora gezogen. |
Tipo: | Dissertação de mestrado |
Descrição: | Dissertação de mestrado Europeu em Lexicografia |
URI: | https://hdl.handle.net/1822/79649 |
Acesso: | Acesso aberto |
Aparece nas coleções: | BUM - Dissertações de Mestrado ELACH - Dissertações de Mestrado |
Ficheiros deste registo:
Ficheiro | Descrição | Tamanho | Formato | |
---|---|---|---|---|
Ivan Arias Arias.pdf | Dissertação de Mestrado | 2,85 MB | Adobe PDF | Ver/Abrir |
Este trabalho está licenciado sob uma Licença Creative Commons