Az NYTK-NerKor több szempontú kiértékelése

Cikkünkben az NYTK-NerKor korpusz kiértékelését mutatjuk be több rendszer segítségével. Azt vizsgáljuk, hogy az egymillió tokent tartalmazó, műfajilag heterogén, szabadon elérhető gold standard adathalmaz mennyire használható magyar nyelvű tulajdonnév-felismerő rendszerek fejlesztéséhez. A kiértékel...

Teljes leírás

Elmentve itt :

Bibliográfiai részletek
Szerzők:	Simon Eszter Vadász Noémi Lévai Dániel Nemeskey Dávid Márk Orosz György Szántó Zsolt
Testületi szerző:	Magyar számítógépes nyelvészeti konferencia (18.) (2022) (Szeged)
Dokumentumtípus:	Könyv része
Megjelent:	2022
Sorozat:	Magyar Számítógépes Nyelvészeti Konferencia 18
Kulcsszavak:	Nyelvészet - számítógép alkalmazása, Korpusz - nyelvészet
Tárgyszavak:	Természettudományok Számítás- és információtudomány Bölcsészettudományok Nyelvek és irodalom
Online Access:	http://acta.bibl.u-szeged.hu/75889

Leíró adatok
Tartalmi kivonat:	Cikkünkben az NYTK-NerKor korpusz kiértékelését mutatjuk be több rendszer segítségével. Azt vizsgáljuk, hogy az egymillió tokent tartalmazó, műfajilag heterogén, szabadon elérhető gold standard adathalmaz mennyire használható magyar nyelvű tulajdonnév-felismerő rendszerek fejlesztéséhez. A kiértékeléshez négy különböző rendszert használtunk: a CRFsuite-ot, a magyar spaCy-t, a Stanzát és az emBERT-et. Cikkünkben ismertetjük az egyes rendszerek által elért eredményeket, melyeket össze is hasonlítunk. Az eredmények azt mutatják, hogy az NYTK-NerKor és a Szeged NER korpusz együttes használata még stabilabb modelleket eredményezhet, valamint hogy az NYTK-NerKoron tanítva a rendszerek nagyobb általánosító képességgel rendelkeznek, ami ahhoz kell, hogy egy azelőtt nem látott szövegben jól azonosítsák a neveket.
Terjedelem/Fizikai jellemzők:	403-416
ISBN:	978-963-306-848-9

Az NYTK-NerKor több szempontú kiértékelése

Hasonló tételek