Klasifikátor pro sémantické vzory užívání anglických sloves - PDF

Description
Univerzita Karlova v Praze Matematicko-fyzikální fakulta DIPLOMOVÁ PRÁCE Bc. Vincent Kríž Klasifikátor pro sémantické vzory užívání anglických sloves Ústav formální a aplikované lingvistiky Vedoucí diplomové

Please download to get full document.

View again

of 23
All materials on our website are shared by users. If you have any questions about copyright issues, please report us to resolve them. We are always happy to assist you.
Information
Category:

Business

Publish on:

Views: 0 | Pages: 23

Extension: PDF | Download: 0

Share
Transcript
Univerzita Karlova v Praze Matematicko-fyzikální fakulta DIPLOMOVÁ PRÁCE Bc. Vincent Kríž Klasifikátor pro sémantické vzory užívání anglických sloves Ústav formální a aplikované lingvistiky Vedoucí diplomové práce: RNDr. Martin Holub Ph.D. Studijníprogram: Informatika Studijní obor: Matematická lingvistika Praha 2012 Rád by som poďakoval vedúcemu diplomovej práce za čas a cenné rady, ktorými výrazne prispel ku kvalite tejto práce. Rád by som poďakoval mojim rodičom, ktorí ma podporovali nie len pri štúdiu, ale počas celého môjho života. Rád by som poďakoval Karlovi Duškovi za podporu a trpezlivosť nie len pri písaní tejto práce. Prehlasujem, že som túto diplomovú prácu vypracoval samostatne a výhradne s použitím citovaných prameňov, literatúry a ďalších odborných zdrojov. Beriem na vedomie, že sa na moju prácu vzťahujú práva a povinnosti vyplývajúce zo zákona č. 121/2000 Zb., autorského zákona v platnom znení, predovšetkým skutočnosť, že Univerzita Karlova v Prahe má právo na uzavretie licenčnej zmluvy o použití tejto práce ako školského diela podľa 60 odst. 1 autorského zákona. V Prahe dňa Podpis autora Názov práce: Klasifikátor pro sémantické vzory užívání anglických sloves Autor: Bc. Vincent Kríž Katedra: Ústav formální a aplikované lingvistiky Vedúci diplomovej práce: RNDr. Martin Holub Ph.D., Ústav formální a aplikované lingvistiky Abstrakt: Cieľom tejto diplomovej práce je navrhnúť, implementovať a empiricky evaluovať klasifikátory pre rozpoznávanie sémantických patternov anglických slovies. Ako trénovacie a testovacie údaje používame konkordancie z pilotnej kolekcie 30 anglických slovies, ktorá bola spracovaná metódou Corpus Pattern Analysis. Modely klasifikátorov tvoríme pomocou algoritmov strojového učenia s učiteľom. Experimentujeme s rozhodovacími stromami, algoritmom k najbližších susedov(knn), podpornými vektormi(svm) a Adaboostom. V práci sa, okrem iného, zameriavame na návrh vhodnej množiny rysov pre strojové učenie(feature selection). Experimentujeme s množinami morfo-syntaktických i sémantických rysov. Naše výsledky ukazujú, že morfo-syntaktické rysy sú najdôležitejšie pre sémantickú desambiguáciu, hoci pre niektoré slovesá hrajú sémantické rysy dôležitú úlohu. Kľúčové slová: lexikálna sémantika, anglické slovesá, strojové učenie, automatická klasifikácia, Corpus Pattern Analysis, Word Sense Disambiguation Title: Classifier for semantic patterns of English verbs Author: Bc. Vincent Kríž Department: Institute of formal and applicational lingvistics Supervisor: RNDr. Martin Holub Ph.D., Institute of formal and applicational lingvistics Abstract: The goal of the diploma thesis is to design, implement and evaluate classifiers for automatic classification of semantic patterns of English verbs according to a pattern lexiconthatdrawsonthecorpuspatternanalysis.weuseapilotcollectionof30 sample English verbs as training and test data sets. We employ standard methods of machine learning. In our experiments we use decision trees, k-nearest neighbourghs (knn), support vector machines(svm) and Adaboost algorithms. Among other things we concentrate on feature design and selection. We experiment with both morphosyntactic and semantic features. Our results show that the morpho-syntactic features are the most important for statistically-driven semantic disambiguation. Nevertheless, for some verbs the use of semantic features plays an important role. Keywords: lexical semantics, English verbs, machine learning, automatic classification, Corpus Pattern Analysis, Word Sense Disambiguation Obsah 1 Úvod 2 2 Pattern Dictionary of English Verbs(PDEV) MetódaCPAaslovníkPDEV Štruktúrapatternov Značkypreanotáciu KolekciaVPS-30-En AnotačnéexperimentysoslovníkomPDEV TestovacieanotácieoriginálnehoPDEV AnotáciakolekcieVPS Meraniemedzianotátorskejzhody Definíciaklasifikačnejúlohy Metódy strojového učenia ReprezentáciaobjektovreálnehosvetavML Klasifikačnáúloha Metodológiariešeniaúlohstrojovýmučením Evaluácia Rozhodovaciestromy Výberrysovdorozhodovacíchuzlov Algoritmyvytváraniarozhodovacíchstromov Najbližšísusedia Podpornévektory Lineárnyklasifikátor Nelineárnyklasifikátor Adaboost Automatické rozpoznávanie sémantiky slovies TradičnáWordSenseDisambiguation(WSD) Automatickáklasifikáciavalenčnýchrámcov Pravidlovýklasifikátorpatternov Analýza dostupných údajov ZákladnéštatistikykolekcieVPS Početkonkordanciíprejednotlivéslovesá Frekvenciesloviesvkorpuse Rozdeleniesloviesdoskupín Distribúciapatternov Medzianotátorskázhoda Formátvstupnýchúdajov 6 Návrh rysov pre strojové učenie Morfologicko-syntaktickérysy Charakteristikacieľovéhoslovesa Charakteristikanajbližšiehokontextu Charakteristikasyntaktickyzávislýchčlenov Sémantickérysy Možnéprístupyvytváraniasémantickýchrysov Lexikónsémantickýchprototypov(LSP) Príprava údajov pre strojové učenie Hodnotykategoriálnychrysov Prahovéfrekvenciepatternov Rozdelenieinštanciínatrénovacieatestovacie Cross-validácia Baseline Trénovanie a optimalizácia modelov Ladeniealgoritmovstrojovéhoučenia Selekciamorfo-syntaktickýchrysov Modelyvyužívajúcecelúmnožinurysov Uporiadanierysovpodľaúspešnosti Selekciasémantickýchrysov Modelyvyužívajúcecelúmnožinurysov Uporiadanierysovpodľaúspešnosti Záverečnévyhodnotenieaanalýzachýb Záver 81 Zoznam použitej literatúry 82 Zoznam tabuliek 86 A Zoznam morfologických značiek 87 B Stanfordské závislosti 88 C Lexikón sémantických prototypov 91 C.1 Prototypy C.2 Značkyprerozpoznávačmennýchentít C.3 Hlavnézastrešujúceprototypy D Podrobné výsledky 99 D.1 Základnécharakteristiky30cieľovýchslovies D.2 ZmenacharakteristíkVPSpoaplikovaníprahovejfrekvencie D.3 ZmenaIAApoaplikovaníprahovejfrekvencie D.4 PokrytiesubjektovvybranýmisegmentamiLSP D.5 PokrytieobjektovvybranýmisegmentamiLSP D.6 Početpatternovvzávislostinaprahovejfrekvencii D.7 Zmenaperplexityvzávislostinaprahovejfrekvencii D.8 Početinštanciísozmenenýmpatternom D.9 Podielpatternuuvzávislostinaprahovejfrekvenci D.10ExperimentDefault-FS D.11RebríčekA D.12ExperimentA D.13RebríčekW D.14ExperimentW D.15RebríčekG D.16Najlepšiemorfo-syntaktickérysypodľahladovéhoalgoritmu D.17RebríčekBest D.18ExperimentBest D.19ExperimentDefault-FS+NER D.20ExperimentBest58+MU D.21ExperimentBest58+AU D.22NajlepšierysyzBest58aMU44podľahladovéhoalgoritmu D.23NajlepšierysyzBest58aAU124podľahladovéhoalgoritmu D.24ExperimentBestMU D.25ExperimentBestAU D.26ExperimentGreedyAU D.27EvaluáciaBest58natestovacíchúdajoch D.28EvaluáciaBestAUnatestovacíchúdajoch E Obsah CD-ROM 127 3 Kapitola 1 Úvod Ako sa uvádza v [1] a tiež v [2], lexikálna desambiguácia je klasickým otvoreným problémom v oblasti počítačovej lingvistiky. Problém bol formulovaný v samých počiatkoch počítačového spracovania prirodzeného jazyka. Už Warren Weaver vo svojom memorande o strojovom preklade[3] naznačil potrebu rozlišovania kontextu. Tradičným prístupom k riešeniu problému lexikálnej desambiguácie je klasická definícia úlohy Word-Sense Disambiguation(WSD)[2, 36]. Ako uvádzajú autori[4], hlavným cieľom WSD je identifikovať zmysel(význam) slova použitého v konkrétnej vete, keďže slová majú spravidla niekoľko významov. Určovanie zmyslu prebieha najčastejšie tzv. sémantickým značkovaním. To sa používa buď na rozpoznávanie sémanticky dôležitých objektov, alebo na spájanie výskytov slov v korpusoch s najvhodnejšou sémantickou definíciou uvedenou v slovníku. Tento proces môže byť automatický, alebo manuálny. V našej práci sa sústreďujeme na automatické priradenie sémantickej kategórie cieľovému slovu v zadanom kontexte. V práci sa zameriavame na anglické slovesá. Boli sme inšpirovaní metódou CPA(Corpus Pattern Analysis)[6] a jej implementáciou slovníkom PDEV(Pattern Dictionary of English Verbs)[7, 8, 9]. CPA je pomerne nová metóda, ktorá sa usiluje o syntagmatické a sémantické popísanie(predovšetkým) anglických slovies. Jedná sa o dôsledne korpusovú, empirickú metódu, ktorá analyzuje typické vzory používania slov v korpuse a popisuje význam slovies pomocou kontextových preferencií definovaných syntakticky a sémanticky[8]. Slovník PDEV je sémantická konkordancia, ktorá je postavená na odlišných princípoch, ako známe projekty FrameNet[10], WordNet[11], PropBank[12], alebo OntoNotes[13]. Manuálneextrahovanépatterny 1 najčastejšíchpoužitísloviespopisujú,jednoducho povedané, podobné udalosti, v ktorých vystupujú podobní účastníci(napríklad ľudia, inštitúcie, dopravné prostriedky). V porovnaní s inými sémantickými konkordanciami má slovník PDEV relatívne vysokú granularitu. Vyberanie patternov v skutočnosti neznamená desambiguáciu konkordancie, ale určenie, ktorý pattern je konkordancii najviac podobný, čo je ľahšia úloha než samotná WSD. Tento princíp sa nám zdá byť sľubný pre slovesá, ktoré predstavujú najväčší problém pre WSD. Rozpoznávanie sémantických patternov je nový prístup k sémantickému značkovaniu. Podľa metódy CPA nemajú slová fixné významy. Namiesto nich môžeme v korpusoch identifikovať pravidelné vzory, ktoré aktivujú príslušné významové potenciály slovesa. Diplomová práca má analyzovať a čo najlepšie využiť dostupné údaje o typických vzoroch používaní anglických slovies pre konštrukciu automatických klasifikátorov. Cie- 1 Vďalšomtextebudemepoužívaťtotokalkovéslovoprevzatézangličtiny,pretoženámniejeznámy žiadny vhodný slovenský ekvivalent. 4 ľom práce je navrhnúť, implementovať a empiricky evaluovať klasifikátory pre rozpoznávanie patternov. Okrem iného sa predpokladá rozpoznávanie lexikálnych jednotiek realizujúcich jednotlivé sémantické typy v PDEV, využitie automatického parsingu angličtiny a metód strojového učenia[2, 16]. V druhej kapitole diplomovej práce podrobne predstavujeme metódu CPA a slovník PDEV. Popisujeme štruktúru patternov a sémantických značiek. Na záver definujeme zadanie klasifikačnej úlohy, ktorú v práci riešime. V tretej kapitole podrobne popisujeme metódy strojového učenia, pomocou ktorých budeme implementovať jednotlivé modely klasifikátorov. Vo štvrtej kapitole predstavujeme tradičné prístupy k WSD a predstavujeme tiež podobné práce, ktoré za zaoberali automatickým sémantickým značkovaním. V piatej kapitole sa podrobne zaoberáme vstupnými údajmi, ktoré máme k dispozícii. Predstavujeme zaujímavé štatistiky a pohľady na dostupnú kolekciu údajov. Popisujeme tiež technický formát vstupných údajov. V šiestej kapitole sa zaoberáme návrhom rysov pre algoritmy strojového učenia. Predstavujeme množinu morfo-syntaktických rysov a tri množiny sémantických rysov, ktoré použijeme v algoritmoch strojového učenia. V siedmej kapitole pripravujeme inštancie pre strojové učenie. Rozdeľujeme inštancie na trénovacie a testovacie, definujeme prahové frekvencie výstupných tried a na záver stanovujeme baseline pre naše experimenty. V ôsmej kapitole popisujeme experimenty, ktorými sme trénovali a ladili modely klasifikátorov a predstavujeme bohatú sériu experimentov, ktorými sme sa snažili optimalizovať navrhnuté množiny rysov. Na záver kapitoly prezentujeme úspešnosti modelov na testovacích inštanciách. Zhrnutie experimentov, závery a výhľady do budúcnosti prezentujeme v závere práce. 5 Kapitola 2 Pattern Dictionary of English Verbs(PDEV) V tejto kapitole predstavujeme čitateľovi projekt PDEV ako prvú implementáciu metódy CPA. Popisujeme štruktúru slovníka a uvádzame prehľad experimentov, ktoré už so slovníkom PDEV prebehli a boli publikované v iných prácach. 2.1 MetódaCPAaslovníkPDEV Slovník PDEV[7] je vyvíjaný od roku Jeho hlavným rysom je praktické použitie novej metódy CPA[6]. Metóda CPA dôsledne dodržuje Sinclairov koncept zachytenia významov v typických vzoroch použitia jazyka[17]. John Sinclair, ktorý je považovaný za nestora korpusovej lingvistiky, vytvoril tento koncep ako opozíciu ku doterajšiemu kritizovanému lexikografickému postupu, ktorý oddeľoval lexikón a gramatiku. Gramatika v krajných prípadoch popisuje len formu lexikálnej jednotky v súvislosti s jej potencionálnym kontextom, zatiaľ čo lexikón popisuje význam, ktorý je obsiahnutý v základnom tvare lexikálnej jednotky a to bez ohľadu na jej kontext. Podľa Johna Sinclaira sú význam a forma úzko prepojené, dokonca ich možno považovať až za identické, pretože väčšinu ambiguít v jazyku je možné rozhodnúť práve na základe znalosti kontextu. Metódajezaloženánapozorovaní,ženapriektomu,žejeveľaslov,ktorémajú vysokú mieru ambiguity, vzory použitia slov(patterny) sú ambiguitné len veľmi zriedka. CPAsapretosnaží 1. identifikovať patterny bežných použití slov; 2. asociovať významy slov s patternami, namiesto určovania významu izolovaných slov. Stačí zbežný pohľad do korpusov a je okamžite vidieť, že väčšina použití slov je prekvapivo pravidelná a dá sa zaradiť do jedného z niekoľkých patternov. CPA sa nesnaží zachytiť všetky možné realizácie(použitia) slovesa v jazyku. Sústreďuje sa len na najčastejšie použitia pomocou relatívne malého počtu patternov. Tieto patterny následne prehlasuje za tzv. normy. Prvou aplikáciou metódy CPA je práve slovník PDEV. Jeho uplatnenie vidíme v pomoci študentom pri štúdiu a učiteľom pri učení angličtiny a predovšetkým v počítačovom spracovaní prirodzeného jazyka ako nástroj desambiguácie významu slov. Slovník PDEV je zbierkou použití vybraných anglických slovies. Ku každej korkondancii je ručne priradená značka patternu. Korkondancie, ktoré slovník PDEV obsahuje, sú vybrané z Britského národného korpusu. 6 Britský národný korpus(bnc, z anglického British National Corpus) je jedným z najznámejších a najvýznamnejších korpusov angličtiny v súčasnosti. Obsahuje približne 100 miliónov slovných tokenov a predstavuje tak významnú zbierku písaných a hovorených vzoriek z anglického jazyka. Texty v korpuse pochádzajú zo širokého spektra zdrojov a štýlov a boli zostavené tak, aby tvorili reprezentatívnu vzorku britskej angličtiny v druhej polovici 20. storočia.[18] Britský národný korpus obsahuje okrem písaných textov aj ortografické prepisy neformálnych rozhovorov a niektoré špeciálne žánre, ktoré neboli vhodné pre projekt PDEV. Písané texty majú tendenciu byť zostavované pozornejšie. Týka sa to výberu slov a premysleného slovosledu. Bývajú plánované dopredu pred ich napísaním. Obsahujú tak menej chýb, váhaní, nedokončených viet a podobne. V slovníku PDEV je používaná len časť korpusu, ktorá obsahuje asi 50 miliónov slovných tokenov. Tento korpus budeme ďalej v texte označovať ako BNC Štruktúra patternov Okrem samotných inštancií sú nedeliteľnou súčasťou slovníku PDEV definície patternov. Definícia patternu obsahuje niekoľko globálnych atribútov, ktoré priradzujú nejakú vlastnosť celému patternu. Hlavnou časťou definície je potom popis kolokačných pozícií (subjekt, objekty, adverbiály) a implikatúra. Popis kolokačných pozícií je uvádzaný v tzv. propozícii. Príklad zápisu patternov pre sloveso submit je uvedený v tabuľke 2.1. V zápise sa používajú nasledujúce konvencie: Sémantické typy sú uvádzané v dvojitých hranatých zátvorkách, napr.[[human]] Zložené zátvorky slúžia na zhlukovanie, napr. {approval discussion arbitration inspection designation assessment funding taxation... } Nepovinné argumenty sú uvádzané v okrúhlych zátvorkách, napr.(self) V nasledujúcom texte popisujeme všetky časti patternov podrobne. Globálne atribúty patternu Ako sme už naznačili vyššie, globálne atribúty sa vzťahujú k celému patternu. Určujú napríklad, či sa jedná o idióm, frázové sloveso, či sloveso vyžaduje objekt a pod. Pomocou globálnych atribútov je tiež možné definovať doménu, v ktorej sa pattern používa. Popis subjektu Pozícia subjektu je popísaná pomocou tzv. sémantického typu, ktorý môže byť navyše upresnený pomocou sémantickej role. Napríklad v tabuľke 2.1, v patterne č. 1 je sémantický typ[[institution]] upresnený sémantickou rolou Competitor. Vprípade,žesasémantickýtypvyskytujevdefiníciipatternuviacakoraz,je doplnený číslom, aby ho bolo možné identifikovať jednoznačne. Príkladom môže byť typ[[human1]]vdefiníciipatternuč.5vtabuľke2.1. Ďalšou možnosťou, pomocou ktorej je možné definovať kolokačnú pozíciu, je použitie lexikálnej množiny. Obsahuje zoznam lexikálnych jednotiek, ktoré sa na danej pozícii vyskytujú typicky. Lexikálna množina môže byť uvedená samostatne, alebo ako doplnenie k sémantickému typu. Je potrebné zdôrazniť, že lexikálna množina nevyjadruje 7 Č. Pattern/ Implikatúra [[Human 1 Institution 1] ˆ [Human 1 Institution 1 = Competitor]] submit[[plan Document Speech Act Proposition {complaint demand request claim application proposal report resignation information plea petition memorandum budget amendment programme...}] 1 ˆ[Artifact Artwork Service Activity {design tender bid entry dance...}]](({to}human2 Institution2=authority)ˆ({to}Human 2 Institution 2 = referee))({for} {approval discussion arbitration inspection designation assessment funding taxation...}) [[Human 1 Institution 1]] presents[[plan Document]] to[[human 2 Institution 2]] for {approval discussion arbitration inspection designation assessment taxation...} [Human Institution] submit[that-cl QUOTE] 2 [[Human Institution]] respectfully expresses {that[clause]} and invites listeners or readers to accept that {that[clause]} is true} [Human1 Institution1]submit(Self)({to}Human2 Institution2) 4 [[Human 1 Institution 1]] acknowledges the superior force of[[human 2 Institution 2]]andputs[[Self]]inthepowerof[[Human2 Institution2]] [Human 1] submit(self)[[{to} Eventuality = Unpleasant] ˆ[{to} Rule]] 5 [[Human 1]] accepts[[rule Eventuality = Unpleasant]] without complaining [passive] 6 [Human Institution] submit[anything][{to} Eventuality] [[Human 1 Institution 1]] exposes[[anything]] to[[eventuality]] Tabuľka 2.1: Príklad definácií patternov pre sloveso submit. všetky možné lexikálne jednotky, ktoré sa môžu na danej pozícii vyskytnúť, ale len najčastejšie alebo najtypickejšie. Príklad lexikálnej množiny môže čitateľ vidieť v definícii patternuč.1vtabuľke2.1. Definíciu subjektu je možné niekoľkokrát opakovať. V tomto prípade sa hovorí o tzv. alternácii subjektu. Je potrebné zdôrazniť, že alternácia subjektu neznamená, že vo vete očakávame niekoľko subjektov, ale práve jeden z definovaných. Na záver popisu subjektu ešte uvádzame, že pod pojmom subjekt v slovníku PDEV máme na mysli vždy vykonávateľa deja(agenta). Popis objektu Objekt rozlišujeme priamy a nepriamy. Nepriamy objekt nie je príliš častý. Objekt môže byť definovaný pomocou rovnakých prostriedkov ako subjekt(tj. pomocou sémantických typov, sémantických rolí a lexikálnych množín). V definícii patternu sa môže vyskytovať niekoľko definícií objektov. Popis adverbiálov Ako adverbiál je v slovníku PDEV označovaná predložková fráza alebo príslovkové určenie. Adverbiálov môže byť v jednom patterne definovaných niekoľko, pričom každá definícia môže mať niekoľko alternácií. Definícia adverbiálu sa skladá z definície predložkového subjektu(môže
Related Search
We Need Your Support
Thank you for visiting our website and your interest in our free products and services. We are nonprofit website to share and download documents. To the running of this website, we need your help to support us.

Thanks to everyone for your continued support.

No, Thanks