Magyar szövegek természetes nyelvi előfeldolgozása

A természetes nyelvi szövegek előfeldolgozásának feladata a szöveg mondatokra, szavakra bontása, tokenizálása (tokennek nevezzük a legkisebb önálló jelentéssel biró szövegegységet). Ehhez szorosan kapcsolódik az úgy nevezett nyílt tokenosztályokba tartozó egyes tokenek felismerése. Ezek olyan tokene...

Teljes leírás

Elmentve itt :
Bibliográfiai részletek
Szerzők: Miháczi András
Németh László
Rácz Miklós
Testületi szerző: Magyar Számítógépes Nyelvészeti Konferencia (1.) (2003) (Szeged)
Dokumentumtípus: Könyv része
Megjelent: 2003
Sorozat:Magyar Számítógépes Nyelvészeti Konferencia 1
Kulcsszavak:Nyelvészet - számítógép alkalmazása
Online Access:http://acta.bibl.u-szeged.hu/59437
Leíró adatok
Tartalmi kivonat:A természetes nyelvi szövegek előfeldolgozásának feladata a szöveg mondatokra, szavakra bontása, tokenizálása (tokennek nevezzük a legkisebb önálló jelentéssel biró szövegegységet). Ehhez szorosan kapcsolódik az úgy nevezett nyílt tokenosztályokba tartozó egyes tokenek felismerése. Ezek olyan tokenek, amelyekben speciális (írásjelek vagy szóközök vannak. Az előfeldolgozás része a tulajdonnevek felismerése is, hiszen itt nagyméretű, tulajdonneveket tartalmazó, szótárakat kell használni A feladatok megoldására kipróbáltunk reguláris kifejezések alapján generált automatát, valamint döntésifa-tanuló algoritmusok által tanult szabályokat.
Terjedelem/Fizikai jellemzők:38-43