HunSimpleNews az első autentikus magyar nyelvű szövegekből álló szövegegyszerűsítési korpusz /

A tanulmány az első autentikus magyar nyelvű szövegekből álló szövegegyszerűsítési korpuszt mutatja be. A korpusz 2832 darab könnyen érthető (egyszerűsített) és standard nyelvi szövegpárból áll, melyet a PannonRTV honlapjáról gyűjtöttünk. A tanulmányban bemutatjuk a korpusz összeállításának és minős...

Teljes leírás

Elmentve itt :

Bibliográfiai részletek
Szerzők:	Prótár Noémi Nemeskey Dávid Márk
Testületi szerző:	Magyar számítógépes nyelvészeti konferencia (21.)
Dokumentumtípus:	Könyv része
Megjelent:	Szegedi Tudományegyetem TTIK, Informatikai Intézet Szeged 2025
Sorozat:	Magyar Számítógépes Nyelvészeti Konferencia 21
Kulcsszavak:	Nyelvészet - számítógép alkalmazása, Szövegegyszerűsítés, Korpusz
Tárgyszavak:	Természettudományok Számítás- és információtudomány Bölcsészettudományok Nyelvek és irodalom
Online Access:	http://acta.bibl.u-szeged.hu/88782

Leíró adatok
Tartalmi kivonat:	A tanulmány az első autentikus magyar nyelvű szövegekből álló szövegegyszerűsítési korpuszt mutatja be. A korpusz 2832 darab könnyen érthető (egyszerűsített) és standard nyelvi szövegpárból áll, melyet a PannonRTV honlapjáról gyűjtöttünk. A tanulmányban bemutatjuk a korpusz összeállításának és minőségellenőrzésének folyamatát, kitérünk a korpusz két domainje közötti kvantitatív különbségekre és hasonlóságokra, végül a korpusz alapján felmérjük az általunk elérhető, magyarul tudó nagy nyelvmodellek szövegegyszerűsítési képességét incontext tanítási környezetben. Cikkünkben kimutatjuk, hogy az egyszerűsített szövegek és a standard nyelvi szövegek között lényeges különbségek vannak, mind az általuk használt szavak varianciájában, mind pedig a mondatok hosszában. Eredményeinkből láthatóvá válik, hogy a korpusz használata one-shot és few-shot tanítási környezetben is javítja a modellek egyszerűsített kimenetét a zero-shot eredményeinkhez képest.
Terjedelem/Fizikai jellemzők:	197-218
ISBN:	978-963-688-034-7

HunSimpleNews az első autentikus magyar nyelvű szövegekből álló szövegegyszerűsítési korpusz /

Hasonló tételek