3D konvolúciós neuronhálón és neurális vokóderen alapuló némabeszéd-interfész
A némabeszéd-interfészek célja beszédjel előállítása valamilyen, az artikulációs szervek mozgását rögzítő felvételből, például a nyelvmozgást tartalmazó ultrahang-videóból. Jelenleg erre a konverzióra a mély neuronhálókat alkalmazó megoldások tűnnek a legígéretesebbnek. Képek felismerésére már régót...
Elmentve itt :
Szerzők: | |
---|---|
Testületi szerző: | |
Dokumentumtípus: | Könyv része |
Megjelent: |
2021
|
Sorozat: | Magyar Számítógépes Nyelvészeti Konferencia
17 |
Kulcsszavak: | Nyelvészet - számítógép alkalmazása |
Tárgyszavak: | |
Online Access: | http://acta.bibl.u-szeged.hu/73362 |
LEADER | 02589naa a2200313 i 4500 | ||
---|---|---|---|
001 | acta73362 | ||
005 | 20221108114913.0 | ||
008 | 210928s2021 hu o 1|| hun d | ||
020 | |a 978-963-306-781-9 | ||
040 | |a SZTE Egyetemi Kiadványok Repozitórium |b hun | ||
041 | |a hun | ||
100 | 1 | |a Tóth László | |
245 | 1 | 0 | |a 3D konvolúciós neuronhálón és neurális vokóderen alapuló némabeszéd-interfész |h [elektronikus dokumentum] / |c Tóth László |
260 | |c 2021 | ||
300 | |a 123-137 | ||
490 | 0 | |a Magyar Számítógépes Nyelvészeti Konferencia |v 17 | |
520 | 3 | |a A némabeszéd-interfészek célja beszédjel előállítása valamilyen, az artikulációs szervek mozgását rögzítő felvételből, például a nyelvmozgást tartalmazó ultrahang-videóból. Jelenleg erre a konverzióra a mély neuronhálókat alkalmazó megoldások tűnnek a legígéretesebbnek. Képek felismerésére már régóta alkalmazzák a konvolúciós neuronhálókat, a legjobb eredményt azonban akkor kaphatjuk, ha a videó egyes képkockáit nem külön-külön, hanem sorozatként dolgozzuk fel. Egy lehetséges megoldás erre, ha a képeket feldolgozó konvolúciós háló kimeneteinek sorozatát egy visszacsatolt neuronhálóval egyesítjük. Jelen cikkben viszont egy másik megoldással próbálkozunk, nevesül 3-dimenziós konvolúciós hálókat használunk, ahol a képek két dimenziója mellett az idő képezi a harmadik tengelyt. A 3D konvolúciós hálóknak is egy speciális változatát alkalmazzuk, amely a térbeli és időbeli konvolúciós lépéseket felbontott formában végzi el – ezt a fajta hálózatot sikeresen használták már más videófelismerési feladatokban is. Kísérleteinkben a 3D neuronháló némileg pontosabb eredményeket adott, mint a kombinált konvolúciós+visszacsatolt modell, ami azt mutatja, hogy ez a megközelítés alternatívája lehet a rekurrens hálókra épülő, általában lassabban és nehézkesebben tanítható modelleknek. | |
650 | 4 | |a Természettudományok | |
650 | 4 | |a Számítás- és információtudomány | |
650 | 4 | |a Bölcsészettudományok | |
650 | 4 | |a Nyelvek és irodalom | |
695 | |a Nyelvészet - számítógép alkalmazása | ||
700 | 0 | 2 | |a Honarmandi Shandiz Amin |e aut |
700 | 0 | 2 | |a Gosztolya Gábor |e aut |
700 | 0 | 2 | |a Zainkó Csaba |e aut |
700 | 0 | 2 | |a Markó Alexandra |e aut |
700 | 0 | 2 | |a Csapó Tamás Gábor |e aut |
710 | |a Magyar számítógépes nyelvészeti konferencia (17.) (2021) (Szeged) | ||
856 | 4 | 0 | |u http://acta.bibl.u-szeged.hu/73362/1/msznykonf_017_123-137.pdf |z Dokumentum-elérés |