mtmt
Magyar Tudományos Művek Tára
XML
JSON
Átlépés a keresőbe
In English
Idézők
/
Idézések
Adaptation of Tongue Ultrasound-Based Silent Speech Interfaces Using Spatial Transformer Networks
Tóth, László [Tóth, László (Mesterséges intel...), szerző] Számítógépes Algoritmusok és Mesterséges Intell... (SZTE / TTIK / INF)
;
Honarmandi Shandiz, Amin [Honarmandi Shandiz, Amin (Artificial Intell...), szerző] Számítógépes Algoritmusok és Mesterséges Intell... (SZTE / TTIK / INF)
;
Gosztolya, Gábor [Gosztolya, Gábor (mesterséges intel...), szerző] ELKH-SZTE Mesterséges Intelligencia Kutatócsoport (SZTE / TTIK / INF)
;
Tamás, Gábor Csapó (beszédszintézis) [Csapó, Tamás Gábor (beszédszintézis), szerző] Távközlési és Médiainformatikai Tanszék (BME / VIK)
Angol nyelvű Konferenciaközlemény (Könyvrészlet) Tudományos
Megjelent:
Harte Naomi. Proceedings of the 24th International Speech Communication Association, INTERSPEECH 2023. (2023)
pp. 1169-1173
Azonosítók
MTMT: 34067268
DOI:
10.21437/Interspeech.2023-1607
WoS:
001186650301065
Scopus:
85171538405
Támogatások:
European Union project(RRF-2.3.1-21-2022-00004)
Tématerületi Kiválósági Program 2021(TKP2021-NVA-09)
(TKP2021-NVA)
Thanks to the latest deep learning algorithms, silent speech interfaces (SSI) are now able to synthesize intelligible speech from articulatory movement data under certain conditions. However, the resulting models are rather speaker-specific, making a quick switch between users troublesome. Even for the same speaker, these models perform poorly cross-session, i.e. after dismounting and re-mounting the recording equipment. To aid quick speaker and session adaptation of ultrasound tongue imaging-based SSI models, we extend our deep networks with a spatial transformer network (STN) module, capable of performing an affine transformation on the input images. Although the STN part takes up only about 10% of the network, our experiments show that adapting just the STN module might allow to reduce MSE by 88% on the average, compared to retraining the whole network. The improvement is even larger (around 92%) when adapting the network to different recording sessions from the same speaker. © 2023 International Speech Communication Association. All rights reserved.
Idézők (2)
Idézett közlemények (9)
Hivatkozás stílusok:
IEEE
ACM
APA
Chicago
Harvard
CSL
Másolás
Nyomtatás
2026-01-22 05:39
×
Lista exportálása irodalomjegyzékként
Hivatkozás stílusok:
IEEE
ACM
APA
Chicago
Harvard
Nyomtatás
Másolás