MSD-KR harmonizáció a Szeged Treebank 2.5-ben
A magyar morfológiai erforrások közül az egyik legelterjedtebben használt a morphdb.hu, amelynek morfológiai annotációs formalizmusa az úgynevezett KR-kódolás. A legnagyobb, kézzel egyértelmsített magyar nyelvi korpusz, a Szeged Treebank kódrendszere ezzel szemben az MSD-kódolást követi. A két kódol...
Elmentve itt :
Szerzők: | |
---|---|
Testületi szerző: | |
Dokumentumtípus: | Könyv része |
Megjelent: |
2010
|
Sorozat: | Magyar Számítógépes Nyelvészeti Konferencia
7 |
Kulcsszavak: | Nyelvészet - számítógép alkalmazása |
Online Access: | http://acta.bibl.u-szeged.hu/58771 |
LEADER | 02013naa a2200241 i 4500 | ||
---|---|---|---|
001 | acta58771 | ||
005 | 20221108115016.0 | ||
008 | 190620s2010 hu o 1|| zxx d | ||
020 | |a 978-963-306-075-9 | ||
040 | |a SZTE Egyetemi Kiadványok Repozitórium |b hun | ||
041 | |a zxx | ||
100 | 1 | |a Farkas Richárd | |
245 | 1 | 0 | |a MSD-KR harmonizáció a Szeged Treebank 2.5-ben |h [elektronikus dokumentum] / |c Farkas Richárd |
260 | |c 2010 | ||
300 | |a 349-353 | ||
490 | 0 | |a Magyar Számítógépes Nyelvészeti Konferencia |v 7 | |
520 | 3 | |a A magyar morfológiai erforrások közül az egyik legelterjedtebben használt a morphdb.hu, amelynek morfológiai annotációs formalizmusa az úgynevezett KR-kódolás. A legnagyobb, kézzel egyértelmsített magyar nyelvi korpusz, a Szeged Treebank kódrendszere ezzel szemben az MSD-kódolást követi. A két kódolás nem kompatibilis egymással. Ez azt jelenti, hogy ha egy statisztikus módszerekkel tanított nyelvi elemz komponensben (POS-tagger, konstituenselemz, dependenciaelemz stb.) mindkét erforrást ki kívánjuk aknázni, akkor nehézkes, információvesztéssel járó konverziós mveleteket kell végeznünk. Ebben a munkában beszámolunk a két kódrendszer (MSD és KR) közös nevezre hozásáról, harmonizációjáról, amely megoldja a fenti problémát. A munka mindkét erforrásban alapvet átalakításokkal járt. A konfliktusok nagyobb részében a harmonizációt közös finomítással igyekeztünk elvégezni, melynek hozadékaként jelents mennyiség manuális munka befektetésével a Szeged Treebank 2.5 által hordozott morfológiai információ részletgazdagabbá vált az elz verziókhoz képest. | |
695 | |a Nyelvészet - számítógép alkalmazása | ||
700 | 0 | 1 | |a Szeredi Dániel |e aut |
700 | 0 | 1 | |a Varga Dániel |e aut |
700 | 0 | 1 | |a Vincze Veronika |e aut |
710 | |a Magyar Számítógépes Nyelvészeti Konferencia (7.) (2010) (Szeged) | ||
856 | 4 | 0 | |u http://acta.bibl.u-szeged.hu/58771/1/msznykonf_007_349-353.pdf |z Dokumentum-elérés |