NerKor 1.41e

Cikkünkben a legfrissebb és mind ezidáig legnagyobb magyar névelemkorpuszban, az NYTK-NerKorban szereplő annotáció automatikus kibővítésével kapcsolatos eredményeinket mutatjuk be. Az eredeti korpuszban megkülönböztetett négy entitástípust 30 körüli típusra bővítettük. Az új annotációt nyelvi transz...

Teljes leírás

Elmentve itt :
Bibliográfiai részletek
Szerzők: Novák Attila
Novák Barbara
Testületi szerző: Magyar számítógépes nyelvészeti konferencia (18.) (2022) (Szeged)
Dokumentumtípus: Könyv része
Megjelent: 2022
Sorozat:Magyar Számítógépes Nyelvészeti Konferencia 18
Kulcsszavak:Nyelvészet - számítógép alkalmazása
Tárgyszavak:
Online Access:http://acta.bibl.u-szeged.hu/75888
LEADER 02018naa a2200265 i 4500
001 acta75888
005 20221108114907.0
008 220525s2022 hu o 1|| hun d
020 |a 978-963-306-848-9 
040 |a SZTE Egyetemi Kiadványok Repozitórium  |b hun 
041 |a hun 
100 1 |a Novák Attila 
245 1 0 |a NerKor 1.41e  |h [elektronikus dokumentum] /  |c  Novák Attila 
260 |c 2022 
300 |a 389-402 
490 0 |a Magyar Számítógépes Nyelvészeti Konferencia  |v 18 
520 3 |a Cikkünkben a legfrissebb és mind ezidáig legnagyobb magyar névelemkorpuszban, az NYTK-NerKorban szereplő annotáció automatikus kibővítésével kapcsolatos eredményeinket mutatjuk be. Az eredeti korpuszban megkülönböztetett négy entitástípust 30 körüli típusra bővítettük. Az új annotációt nyelvi transzferrel hoztuk létre. A korpuszt kiegészítettük egy kis méretű 12000 tokenes gépkocsi témájú részkorpusszal is. Ugyanakkor egyelőre sajnos a korpusz méretéből adódóan nem volt módunk a teljes anyagot alapos kézi ellenőrzésnek alávetni. Ezért az eredeti változattal ellentétben az új verzió nem tekinthető gold standardnek, különösen az eredetiben egyáltalán nem jelölt (többségében nem névelem típusú) entitások tekintetében. Teljes körű kézi ellenőrzésen csak a korpusz 2,5%-a esett át1 , amelyet tesztanyagként használtunk a cikkben bemutatott modellek kiértékeléséhez. Mindazonáltal reméljük, hogy a korpusz ezen változata hasznos anyagnak bizonyul a magyar nyelvtechnológiai közösség számára. 
650 4 |a Természettudományok 
650 4 |a Számítás- és információtudomány 
650 4 |a Bölcsészettudományok 
650 4 |a Nyelvek és irodalom 
695 |a Nyelvészet - számítógép alkalmazása 
700 0 1 |a Novák Barbara  |e aut 
710 |a Magyar számítógépes nyelvészeti konferencia (18.) (2022) (Szeged) 
856 4 0 |u http://acta.bibl.u-szeged.hu/75888/1/msznykonf_018_389-402.pdf  |z Dokumentum-elérés