A magyar nyelv néhány szófaji elemzőjének összevetése
A dolgozatban három különböző POS tagger (szófaji egyértelmfisítő) összehasonlítására vállalkozunk. Az első egy Hidden Markov Model alapú bigram elemző (VMM), a második egy szabály alapú módszer, amely bizonytalansági osztályok felhasználásával szófaji egyértelműsítést végez (RGLeani). Mindkét elemz...
Elmentve itt :
Szerzők: | |
---|---|
Testületi szerző: | |
Dokumentumtípus: | Könyv része |
Megjelent: |
2003
|
Sorozat: | Magyar Számítógépes Nyelvészeti Konferencia
1 |
Kulcsszavak: | Nyelvészet - számítógép alkalmazása |
Online Access: | http://acta.bibl.u-szeged.hu/59443 |
Tartalmi kivonat: | A dolgozatban három különböző POS tagger (szófaji egyértelmfisítő) összehasonlítására vállalkozunk. Az első egy Hidden Markov Model alapú bigram elemző (VMM), a második egy szabály alapú módszer, amely bizonytalansági osztályok felhasználásával szófaji egyértelműsítést végez (RGLeani). Mindkét elemző a Szegedi Tudományegyetem Informatikai Tanszékcsoportján készült A harmadik egyértelműsítő a jól ismert TnT [1], amely már több nyelven bizonyította képességeit, és amely a VMM-el szemben a szövegben előforduló szóhármasokat vizsgálja. Kísérleteinket a körülbelül 1,2 millió szót tartalmazó, kézzel annotált Szeged Korpuszon [2] végeztük, amely különböző szövegtípusokat foglal magába. Vizsgálatunk tárgya a szófaji egyértelműsítés, vagyis a mondatban előforduló adott szóra a lehetséges kódok közül a mondat szemantikáját visszatükröző egyértelmű tag meghatározása. Azaz a tesztelés során az egyes szavak bizonytalansági osztálya ismert volt az elemzők előtt Ez alól a TnT kivétel, mivel ez a módszer a tesztelés során a szóvégződések elemzése által következtet az ismeretlen szavak lehetséges nyelvtani kódjára.-A tesztelés során az RGLeam algoritmus 96,16% pontosságával megelőzte a VMM elemzőt (95,98%) illetve a TnT-t (95,08%). A hibásan taggelt szavak listájának összehasonlítása során kiderült, hogy a két statisztikai módszer "hajlamosabb" ugyanazokon a helyeken hibázni. A kapott eredményeket felhasználva, vizsgálatokat végeztünk arra nézve is, hogy a fenti módszereket kombinálva milyen találati pontosság érhető el. |
---|---|
Terjedelem/Fizikai jellemzők: | 16-22 |