Jönnek a nagyok! BERT-Large, GPT-2 és GPT-3 nyelvmodellek magyar nyelvre /

Az utóbbi években rendkívüli mértékben felgyorsult a Transformer alapú nyelvmodellek méretének a növekedése. A globális technológiai cégek nagyobbnál nagyobb modelleket tanítanak, amelyek óriási erőforrást és tanítóanyagot igényelnek. Ezekkel a kísérletekkel azt próbálják bebizonyítani, hogy megfele...

Teljes leírás

Elmentve itt :
Bibliográfiai részletek
Szerzők: Yang Zijian Győző
Dodé Réka
Ferenczi Gergő
Héja Enikő
Jelencsik-Mátyus Kinga
Kőrös Ádám
Laki László János
Ligeti-Nagy Noémi
Vadász Noémi
Váradi Tamás
Testületi szerző: Magyar számítógépes nyelvészeti konferencia (19.)
Dokumentumtípus: Könyv része
Megjelent: 2023
Sorozat:Magyar Számítógépes Nyelvészeti Konferencia 19
Kulcsszavak:Nyelvmodellek, Programozás, Nyelvészet - számítógép alkalmazása
Tárgyszavak:
Online Access:http://acta.bibl.u-szeged.hu/78417
LEADER 02462naa a2200337 i 4500
001 acta78417
005 20230316090326.0
008 230316s2023 hu o 1|| hun d
020 |a 978-963-306-912-7 
040 |a SZTE Egyetemi Kiadványok Repozitórium  |b hun 
041 |a hun 
100 2 |a Yang Zijian Győző 
245 1 0 |a Jönnek a nagyok!   |h [elektronikus dokumentum] :  |b BERT-Large, GPT-2 és GPT-3 nyelvmodellek magyar nyelvre /  |c  Yang Zijian Győző 
260 |c 2023 
300 |a 247-262 
490 0 |a Magyar Számítógépes Nyelvészeti Konferencia  |v 19 
520 3 |a Az utóbbi években rendkívüli mértékben felgyorsult a Transformer alapú nyelvmodellek méretének a növekedése. A globális technológiai cégek nagyobbnál nagyobb modelleket tanítanak, amelyek óriási erőforrást és tanítóanyagot igényelnek. Ezekkel a kísérletekkel azt próbálják bebizonyítani, hogy megfelelően nagy méretű modellek, megfelelően sok tanítóanyaggal képesek önmagukban akár finomhangolás nélkül bármilyen nyelvtechnológiai feladatot megoldani. Ebbe a versenybe nem igazán lehetséges beszállni, de arra van lehetőség, hogy az árnyékukban elkezdjünk kísérleteket végezni a nagyobb méretű modellek irányában. Kutatásunkban különböző nagy méretű nyelvmodelleket tanítottunk magyar nyelvre. Betanítottunk egy 6,7 milliárd paraméteres GPT-3, valamint egy GPT-2 és egy BERT-Large modellt magyar nyelvre. A modelleket különböző finomhangolással teszteltük. A BERT-Large modellünk több feladatban is felülmúlta a huBERT modellt, és elsőként hoztunk létre egynyelvű magyar GPT-3 modellt, amelyekkel tudomásunk szerint elsőnek végeztünk prompt kísérleteket few-shot tanulással magyar nyelvre. 
650 4 |a Természettudományok 
650 4 |a Számítás- és információtudomány 
695 |a Nyelvmodellek, Programozás, Nyelvészet - számítógép alkalmazása 
700 0 1 |a Dodé Réka  |e aut 
700 0 1 |a Ferenczi Gergő  |e aut 
700 0 1 |a Héja Enikő  |e aut 
700 0 2 |a Jelencsik-Mátyus Kinga  |e aut 
700 0 2 |a Kőrös Ádám  |e aut 
700 0 2 |a Laki László János  |e aut 
700 0 2 |a Ligeti-Nagy Noémi  |e aut 
700 0 2 |a Vadász Noémi  |e aut 
700 0 2 |a Váradi Tamás  |e aut 
711 |a Magyar számítógépes nyelvészeti konferencia (19.)  |c Szeged  |d 2023. január 26-27. 
856 4 0 |u http://acta.bibl.u-szeged.hu/78417/1/msznykonf_019_247-262..pdf  |z Dokumentum-elérés