HunSimpleNews az első autentikus magyar nyelvű szövegekből álló szövegegyszerűsítési korpusz /

A tanulmány az első autentikus magyar nyelvű szövegekből álló szövegegyszerűsítési korpuszt mutatja be. A korpusz 2832 darab könnyen érthető (egyszerűsített) és standard nyelvi szövegpárból áll, melyet a PannonRTV honlapjáról gyűjtöttünk. A tanulmányban bemutatjuk a korpusz összeállításának és minős...

Teljes leírás

Elmentve itt :
Bibliográfiai részletek
Szerzők: Prótár Noémi
Nemeskey Dávid Márk
Testületi szerző: Magyar számítógépes nyelvészeti konferencia (21.)
Dokumentumtípus: Könyv része
Megjelent: Szegedi Tudományegyetem TTIK, Informatikai Intézet Szeged 2025
Sorozat:Magyar Számítógépes Nyelvészeti Konferencia 21
Kulcsszavak:Nyelvészet - számítógép alkalmazása, Szövegegyszerűsítés, Korpusz
Tárgyszavak:
Online Access:http://acta.bibl.u-szeged.hu/88782
Leíró adatok
Tartalmi kivonat:A tanulmány az első autentikus magyar nyelvű szövegekből álló szövegegyszerűsítési korpuszt mutatja be. A korpusz 2832 darab könnyen érthető (egyszerűsített) és standard nyelvi szövegpárból áll, melyet a PannonRTV honlapjáról gyűjtöttünk. A tanulmányban bemutatjuk a korpusz összeállításának és minőségellenőrzésének folyamatát, kitérünk a korpusz két domainje közötti kvantitatív különbségekre és hasonlóságokra, végül a korpusz alapján felmérjük az általunk elérhető, magyarul tudó nagy nyelvmodellek szövegegyszerűsítési képességét incontext tanítási környezetben. Cikkünkben kimutatjuk, hogy az egyszerűsített szövegek és a standard nyelvi szövegek között lényeges különbségek vannak, mind az általuk használt szavak varianciájában, mind pedig a mondatok hosszában. Eredményeinkből láthatóvá válik, hogy a korpusz használata one-shot és few-shot tanítási környezetben is javítja a modellek egyszerűsített kimenetét a zero-shot eredményeinkhez képest.
Terjedelem/Fizikai jellemzők:197-218
ISBN:978-963-688-034-7