Jönnek a nagyok! BERT-Large, GPT-2 és GPT-3 nyelvmodellek magyar nyelvre /
Az utóbbi években rendkívüli mértékben felgyorsult a Transformer alapú nyelvmodellek méretének a növekedése. A globális technológiai cégek nagyobbnál nagyobb modelleket tanítanak, amelyek óriási erőforrást és tanítóanyagot igényelnek. Ezekkel a kísérletekkel azt próbálják bebizonyítani, hogy megfele...
Elmentve itt :
Szerzők: | |
---|---|
Testületi szerző: | |
Dokumentumtípus: | Könyv része |
Megjelent: |
2023
|
Sorozat: | Magyar Számítógépes Nyelvészeti Konferencia
19 |
Kulcsszavak: | Nyelvmodellek, Programozás, Nyelvészet - számítógép alkalmazása |
Tárgyszavak: | |
Online Access: | http://acta.bibl.u-szeged.hu/78417 |
LEADER | 02462naa a2200337 i 4500 | ||
---|---|---|---|
001 | acta78417 | ||
005 | 20230316090326.0 | ||
008 | 230316s2023 hu o 1|| hun d | ||
020 | |a 978-963-306-912-7 | ||
040 | |a SZTE Egyetemi Kiadványok Repozitórium |b hun | ||
041 | |a hun | ||
100 | 2 | |a Yang Zijian Győző | |
245 | 1 | 0 | |a Jönnek a nagyok! |h [elektronikus dokumentum] : |b BERT-Large, GPT-2 és GPT-3 nyelvmodellek magyar nyelvre / |c Yang Zijian Győző |
260 | |c 2023 | ||
300 | |a 247-262 | ||
490 | 0 | |a Magyar Számítógépes Nyelvészeti Konferencia |v 19 | |
520 | 3 | |a Az utóbbi években rendkívüli mértékben felgyorsult a Transformer alapú nyelvmodellek méretének a növekedése. A globális technológiai cégek nagyobbnál nagyobb modelleket tanítanak, amelyek óriási erőforrást és tanítóanyagot igényelnek. Ezekkel a kísérletekkel azt próbálják bebizonyítani, hogy megfelelően nagy méretű modellek, megfelelően sok tanítóanyaggal képesek önmagukban akár finomhangolás nélkül bármilyen nyelvtechnológiai feladatot megoldani. Ebbe a versenybe nem igazán lehetséges beszállni, de arra van lehetőség, hogy az árnyékukban elkezdjünk kísérleteket végezni a nagyobb méretű modellek irányában. Kutatásunkban különböző nagy méretű nyelvmodelleket tanítottunk magyar nyelvre. Betanítottunk egy 6,7 milliárd paraméteres GPT-3, valamint egy GPT-2 és egy BERT-Large modellt magyar nyelvre. A modelleket különböző finomhangolással teszteltük. A BERT-Large modellünk több feladatban is felülmúlta a huBERT modellt, és elsőként hoztunk létre egynyelvű magyar GPT-3 modellt, amelyekkel tudomásunk szerint elsőnek végeztünk prompt kísérleteket few-shot tanulással magyar nyelvre. | |
650 | 4 | |a Természettudományok | |
650 | 4 | |a Számítás- és információtudomány | |
695 | |a Nyelvmodellek, Programozás, Nyelvészet - számítógép alkalmazása | ||
700 | 0 | 1 | |a Dodé Réka |e aut |
700 | 0 | 1 | |a Ferenczi Gergő |e aut |
700 | 0 | 1 | |a Héja Enikő |e aut |
700 | 0 | 2 | |a Jelencsik-Mátyus Kinga |e aut |
700 | 0 | 2 | |a Kőrös Ádám |e aut |
700 | 0 | 2 | |a Laki László János |e aut |
700 | 0 | 2 | |a Ligeti-Nagy Noémi |e aut |
700 | 0 | 2 | |a Vadász Noémi |e aut |
700 | 0 | 2 | |a Váradi Tamás |e aut |
711 | |a Magyar számítógépes nyelvészeti konferencia (19.) |c Szeged |d 2023. január 26-27. | ||
856 | 4 | 0 | |u http://acta.bibl.u-szeged.hu/78417/1/msznykonf_019_247-262..pdf |z Dokumentum-elérés |