3D konvolúciós neuronhálón és neurális vokóderen alapuló némabeszéd-interfész

A némabeszéd-interfészek célja beszédjel előállítása valamilyen, az artikulációs szervek mozgását rögzítő felvételből, például a nyelvmozgást tartalmazó ultrahang-videóból. Jelenleg erre a konverzióra a mély neuronhálókat alkalmazó megoldások tűnnek a legígéretesebbnek. Képek felismerésére már régót...

Teljes leírás

Elmentve itt :
Bibliográfiai részletek
Szerzők: Tóth László
Honarmandi Shandiz Amin
Gosztolya Gábor
Zainkó Csaba
Markó Alexandra
Csapó Tamás Gábor
Testületi szerző: Magyar számítógépes nyelvészeti konferencia (17.) (2021) (Szeged)
Dokumentumtípus: Könyv része
Megjelent: 2021
Sorozat:Magyar Számítógépes Nyelvészeti Konferencia 17
Kulcsszavak:Nyelvészet - számítógép alkalmazása
Tárgyszavak:
Online Access:http://acta.bibl.u-szeged.hu/73362
LEADER 02589naa a2200313 i 4500
001 acta73362
005 20221108114913.0
008 210928s2021 hu o 1|| hun d
020 |a 978-963-306-781-9 
040 |a SZTE Egyetemi Kiadványok Repozitórium  |b hun 
041 |a hun 
100 1 |a Tóth László 
245 1 0 |a 3D konvolúciós neuronhálón és neurális vokóderen alapuló némabeszéd-interfész  |h [elektronikus dokumentum] /  |c  Tóth László 
260 |c 2021 
300 |a 123-137 
490 0 |a Magyar Számítógépes Nyelvészeti Konferencia  |v 17 
520 3 |a A némabeszéd-interfészek célja beszédjel előállítása valamilyen, az artikulációs szervek mozgását rögzítő felvételből, például a nyelvmozgást tartalmazó ultrahang-videóból. Jelenleg erre a konverzióra a mély neuronhálókat alkalmazó megoldások tűnnek a legígéretesebbnek. Képek felismerésére már régóta alkalmazzák a konvolúciós neuronhálókat, a legjobb eredményt azonban akkor kaphatjuk, ha a videó egyes képkockáit nem külön-külön, hanem sorozatként dolgozzuk fel. Egy lehetséges megoldás erre, ha a képeket feldolgozó konvolúciós háló kimeneteinek sorozatát egy visszacsatolt neuronhálóval egyesítjük. Jelen cikkben viszont egy másik megoldással próbálkozunk, nevesül 3-dimenziós konvolúciós hálókat használunk, ahol a képek két dimenziója mellett az idő képezi a harmadik tengelyt. A 3D konvolúciós hálóknak is egy speciális változatát alkalmazzuk, amely a térbeli és időbeli konvolúciós lépéseket felbontott formában végzi el – ezt a fajta hálózatot sikeresen használták már más videófelismerési feladatokban is. Kísérleteinkben a 3D neuronháló némileg pontosabb eredményeket adott, mint a kombinált konvolúciós+visszacsatolt modell, ami azt mutatja, hogy ez a megközelítés alternatívája lehet a rekurrens hálókra épülő, általában lassabban és nehézkesebben tanítható modelleknek. 
650 4 |a Természettudományok 
650 4 |a Számítás- és információtudomány 
650 4 |a Bölcsészettudományok 
650 4 |a Nyelvek és irodalom 
695 |a Nyelvészet - számítógép alkalmazása 
700 0 2 |a Honarmandi Shandiz Amin  |e aut 
700 0 2 |a Gosztolya Gábor  |e aut 
700 0 2 |a Zainkó Csaba  |e aut 
700 0 2 |a Markó Alexandra  |e aut 
700 0 2 |a Csapó Tamás Gábor  |e aut 
710 |a Magyar számítógépes nyelvészeti konferencia (17.) (2021) (Szeged) 
856 4 0 |u http://acta.bibl.u-szeged.hu/73362/1/msznykonf_017_123-137.pdf  |z Dokumentum-elérés