HunSimpleNews az első autentikus magyar nyelvű szövegekből álló szövegegyszerűsítési korpusz /
A tanulmány az első autentikus magyar nyelvű szövegekből álló szövegegyszerűsítési korpuszt mutatja be. A korpusz 2832 darab könnyen érthető (egyszerűsített) és standard nyelvi szövegpárból áll, melyet a PannonRTV honlapjáról gyűjtöttünk. A tanulmányban bemutatjuk a korpusz összeállításának és minős...
Elmentve itt :
| Szerzők: | |
|---|---|
| Testületi szerző: | |
| Dokumentumtípus: | Könyv része |
| Megjelent: |
Szegedi Tudományegyetem TTIK, Informatikai Intézet
Szeged
2025
|
| Sorozat: | Magyar Számítógépes Nyelvészeti Konferencia
21 |
| Kulcsszavak: | Nyelvészet - számítógép alkalmazása, Szövegegyszerűsítés, Korpusz |
| Tárgyszavak: | |
| Online Access: | http://acta.bibl.u-szeged.hu/88782 |
| LEADER | 02203naa a2200265 i 4500 | ||
|---|---|---|---|
| 001 | acta88782 | ||
| 005 | 20251112134216.0 | ||
| 008 | 251112s2025 hu o 100 hun d | ||
| 020 | |a 978-963-688-034-7 | ||
| 040 | |a SZTE Egyetemi Kiadványok Repozitórium |b hun | ||
| 041 | |a hun | ||
| 100 | 1 | |a Prótár Noémi | |
| 245 | 1 | 0 | |a HunSimpleNews |h [elektronikus dokumentum] : |b az első autentikus magyar nyelvű szövegekből álló szövegegyszerűsítési korpusz / |c Prótár Noémi |
| 260 | |a Szegedi Tudományegyetem TTIK, Informatikai Intézet |b Szeged |c 2025 | ||
| 300 | |a 197-218 | ||
| 490 | 0 | |a Magyar Számítógépes Nyelvészeti Konferencia |v 21 | |
| 520 | 3 | |a A tanulmány az első autentikus magyar nyelvű szövegekből álló szövegegyszerűsítési korpuszt mutatja be. A korpusz 2832 darab könnyen érthető (egyszerűsített) és standard nyelvi szövegpárból áll, melyet a PannonRTV honlapjáról gyűjtöttünk. A tanulmányban bemutatjuk a korpusz összeállításának és minőségellenőrzésének folyamatát, kitérünk a korpusz két domainje közötti kvantitatív különbségekre és hasonlóságokra, végül a korpusz alapján felmérjük az általunk elérhető, magyarul tudó nagy nyelvmodellek szövegegyszerűsítési képességét incontext tanítási környezetben. Cikkünkben kimutatjuk, hogy az egyszerűsített szövegek és a standard nyelvi szövegek között lényeges különbségek vannak, mind az általuk használt szavak varianciájában, mind pedig a mondatok hosszában. Eredményeinkből láthatóvá válik, hogy a korpusz használata one-shot és few-shot tanítási környezetben is javítja a modellek egyszerűsített kimenetét a zero-shot eredményeinkhez képest. | |
| 650 | 4 | |a Természettudományok | |
| 650 | 4 | |a Számítás- és információtudomány | |
| 650 | 4 | |a Bölcsészettudományok | |
| 650 | 4 | |a Nyelvek és irodalom | |
| 695 | |a Nyelvészet - számítógép alkalmazása, Szövegegyszerűsítés, Korpusz | ||
| 700 | 0 | 1 | |a Nemeskey Dávid Márk |e aut |
| 711 | |a Magyar számítógépes nyelvészeti konferencia (21.) |c Szeged |d 2025. február 6-7. | ||
| 856 | 4 | 0 | |u http://acta.bibl.u-szeged.hu/88782/1/msznykonf_021_197-218.pdf |z Dokumentum-elérés |