Transcription Factor Binding Site Detector Neural Networks trained with Various DNA Representations
Az értekezés mély tanulási módszereket mutat be orvosbiológiai adatokon. Az elsődleges feladat fehérjéket kötő DNS szekvenciák detektálása neurális hálózatokkal. A bemutatott megközelítések közös vonása a mély tanuló modellek vizsgálata nukleotid vagy egyéb adatábrázolási megközelítés esetében. A mu...
Elmentve itt :
Szerző: | |
---|---|
További közreműködők: | |
Dokumentumtípus: | Disszertáció |
Megjelent: |
2023-11-09
|
Tárgyszavak: | |
doi: | 10.14232/phd.11767 |
mtmt: | 34848902 |
Online Access: | http://doktori.ek.szte.hu/11767 |
Tartalmi kivonat: | Az értekezés mély tanulási módszereket mutat be orvosbiológiai adatokon. Az elsődleges feladat fehérjéket kötő DNS szekvenciák detektálása neurális hálózatokkal. A bemutatott megközelítések közös vonása a mély tanuló modellek vizsgálata nukleotid vagy egyéb adatábrázolási megközelítés esetében. A munka három fő témakörből áll. Az első fejezetben a funkciós csoportokat ábrázoló, a másodikban a fiziko-kémiai, míg a harmadik fejezetben a nukleotid alapú megközelítések vizsgálata olvasható. Az osztályozás funkciós csoportokra épülő reprezentációval című fejezetben a neuronális hálózatokat nem a hagyományos nukleotid-alapú szekvenciákkal tanítottam, hanem egy új vizualizációs módszer adatábrázolási megközelítésével. A szekvenciákat dinukleotidokból számolható értékekkel jellemezzük, a funckiós csoportok elektrokémiai viselkedéséből alakítunk ki bemeneti jellemzőket. Mivel nem triviális ennek a formának a felhasználása konvolúciós rétegek tanításához, első lépésként a különböző formai elrendezésekkel illetve előfeldolgozási megközelítésekkel foglalkoztam. Azután bemutattam egy olyan modell-architektúrát, amely kiemelkedő teljesítményt ér el transzkripciós faktor kötőhely detekciós feladatok esetében. Végül elkészítettem egy együttes (ensemble) modellt, ahol a nukleotidokra és a funkciós csoportokra épülő hálók becsléseit átlagolva a kimeneteknél még további fejlődést értem el. A modellek tanítása fiziko-kémiai jellemzőkkel című fejezetben szintén egy, a nukleotidoktól eltérő adatábrázolási módszer segítségével tanítottam osztályozókat. Az új reprezentáció a DNS szál különböző fizikai és kémiai tulajdonságait írja le folytonos értékekkel. A fejezet első felében bemutattam, hogy ezen a bemeneti fajtán is taníthatóak modellek, amelyek teljesítménye az ismertebb megoldásokhoz hasonló. Továbbá megmutattam, hogy egy jellemzőválogatásos módszer segítségével csökkenthető a bemenő jellemzők száma, így csak egy kis osztályozási hibanövekedés mellett gyorsabbak és olcsóbbak a tanítások. A fejezet második részében egy olyan megközelítést mutattam be, amely lehetővé teszi a mély tanulónak, hogy új összefüggéseket vegyen észre a fiziko-kémiai reprezentációban. A módszer lényege az, hogy a hálózat architektúrájában mélységi szétválasztható konvolúciós réteget használok, amely az eddig közvetlenül nem tanulható mélységi dimenzió mentén is tanulhatóvá tette az összefüggéseket. Így több, azonos feladatra publikált és ismert modell teljesítményét sikerült számos adathalmazon felülmúlnom. A nukleotid szekvenciákra épülő osztályozók transzlációs robusztussága című fejezetben mesterséges intelligencián alapuló DNS-fehérje kötő detektorok robusztusságát és az ellenük felhasználható ellenséges példák előállításának lehetőségeit vizsgáltam. A feltevésem az volt, hogy túlságosan érzékenyek ezek a modellek egyéb olyan tényezőkre, amelyek a valós címkét (azaz a szekvencia biológiai funkcióját) nem befolyásolják. Továbbgondolva, ha arrébb toljuk a szekvenciákat úgy, hogy a kötőhely (tehát a meghatározó jellemző) érintetlen marad, akkor azt várnánk, hogy a modellek ettől függetlenül felismerik azt és helyesen döntenek. Azonban azt tapasztaltuk, hogy egy pár nukleotidos hosszanti eltolás is elegendő ahhoz, hogy félrevezessük a modelleket. Kidolgoztam három különböző eltolási stratégiát, amelyek alkalmazásakor a kiértékelt hálózatok pontosságbeli romlást szenvedtek el, ez által szemléltettem túlzott érzékenységüket. Ezen felül megadtam egy augmentációs tanítási módszert, amely segítségével a robusztus pontosság növelhető, így a hálózatok kevésbé vagy egyáltalán nem lesznek érzékenyek a vágásokra\eltolásokra. |
---|