Jönnek a nagyok! BERT-Large, GPT-2 és GPT-3 nyelvmodellek magyar nyelvre /

Az utóbbi években rendkívüli mértékben felgyorsult a Transformer alapú nyelvmodellek méretének a növekedése. A globális technológiai cégek nagyobbnál nagyobb modelleket tanítanak, amelyek óriási erőforrást és tanítóanyagot igényelnek. Ezekkel a kísérletekkel azt próbálják bebizonyítani, hogy megfele...

Teljes leírás

Elmentve itt :
Bibliográfiai részletek
Szerzők: Yang Zijian Győző
Dodé Réka
Ferenczi Gergő
Héja Enikő
Jelencsik-Mátyus Kinga
Kőrös Ádám
Laki László János
Ligeti-Nagy Noémi
Vadász Noémi
Váradi Tamás
Testületi szerző: Magyar számítógépes nyelvészeti konferencia (19.)
Dokumentumtípus: Könyv része
Megjelent: 2023
Sorozat:Magyar Számítógépes Nyelvészeti Konferencia 19
Kulcsszavak:Nyelvmodellek, Programozás, Nyelvészet - számítógép alkalmazása
Tárgyszavak:
Online Access:http://acta.bibl.u-szeged.hu/78417
Leíró adatok
Tartalmi kivonat:Az utóbbi években rendkívüli mértékben felgyorsult a Transformer alapú nyelvmodellek méretének a növekedése. A globális technológiai cégek nagyobbnál nagyobb modelleket tanítanak, amelyek óriási erőforrást és tanítóanyagot igényelnek. Ezekkel a kísérletekkel azt próbálják bebizonyítani, hogy megfelelően nagy méretű modellek, megfelelően sok tanítóanyaggal képesek önmagukban akár finomhangolás nélkül bármilyen nyelvtechnológiai feladatot megoldani. Ebbe a versenybe nem igazán lehetséges beszállni, de arra van lehetőség, hogy az árnyékukban elkezdjünk kísérleteket végezni a nagyobb méretű modellek irányában. Kutatásunkban különböző nagy méretű nyelvmodelleket tanítottunk magyar nyelvre. Betanítottunk egy 6,7 milliárd paraméteres GPT-3, valamint egy GPT-2 és egy BERT-Large modellt magyar nyelvre. A modelleket különböző finomhangolással teszteltük. A BERT-Large modellünk több feladatban is felülmúlta a huBERT modellt, és elsőként hoztunk létre egynyelvű magyar GPT-3 modellt, amelyekkel tudomásunk szerint elsőnek végeztünk prompt kísérleteket few-shot tanulással magyar nyelvre.
Terjedelem/Fizikai jellemzők:247-262
ISBN:978-963-306-912-7