De mogelijkheid van geluidslokalisatie bij gehoorapparaten is niet nieuw. Er is echter ruimte voor verbetering op het gebied van performantie, efficiëntie en daarmee ook het energieverbruik. AI wordt ingezet voor de nieuwste methoden van geluidslokalisatie binnen verschillende ruimtes. In dit artikel wordt dieper ingegaan op geluidslokalisatie in het horizontale vlak bij achter-het-oor gehoorapparaten.
Heb je ooit meegemaakt dat je iemand moeilijk kon verstaan op een feestje door luide muziek of veel gebabbel? In zo'n situatie is de ruis een grote storende factor. Daarnaast weerkaatsen geluidssignalen tegen muren en objecten voordat ze je oren bereiken. Als er meerdere geluidsbronnen tegelijk aanwezig zijn, wordt het nog moeilijker om te bepalen waar elk geluid vandaan komt. Gelukkig zijn onze hersenen hieraan aangepast. Maar ook in het programma moet hiermee rekening worden gehouden.
Om te voorkomen dat er veel data handmatig moet worden gelabeld voor het maken van het AI-model, wordt de data gesimuleerd. Een wiskundig model genaamd Image Source Model wordt gebruikt om alle reflecties binnen de kamer in rekening te brengen. Dit model gebruikt virtuele verzenders om de weerkaatsingen na te bootsen. Het schaduweffect van het hoofd, waarbij het hoofd geluidsgolven blokkeert en afbuigt, beïnvloedt de inkomende signalen aanzienlijk. Om dit schaduweffect mee te nemen, wordt een eerder opgenomen vergelijking (impuls antwoord) gebruikt. Dit weerspiegelt het effect van het hoofd op de geluidsgolven voor een specifieke bronlocatie.
Dit onderzoek richt zich op achter-het-oor gehoorapparaten. Deze apparaten zijn uitgerust met drie microfoons per oor en kunnen geluidsverwerking direct bij het oor uitvoeren. Naast het lokaliseren van geluiden zullen deze apparaten ook functies hebben zoals ruisonderdrukking, spraakverbetering en verbinding met andere apparaten. In dit onderzoek ligt de nadruk echter op de geluidslokalisatie.
In het tweede model, het gedistribueerde model, worden de berekeningen deels op het gehoorapparaat zelf uitgevoerd waarna de verwerkte data naar de centrale computer wordt gestuurd. In plaats van ruwe audiodata worden vectoren verzonden die de belangrijkste informatie van de microfoons op elk oor bevatten. De gegevens van beide oren worden pas halverwege het model gecombineerd. Deze aanpak biedt vergelijkbare prestaties als het gecentraliseerde model, waarin alle signalen vanaf het begin samen worden verwerkt. Om het model energiezuiniger te maken wordt gewerkt op de modellagen net voor het verzenden van de vectoren. Dit vormt echter het knelpunt van het gedistribueerde model.
Om de bandbreedte te verlagen en het aantal benodigde berekeningen te verminderen, zijn verschillende aanpassingen doorgevoerd. Ten eerste is het aantal te verzenden vectoren verminderd om een striktere selectie te realiseren.
Daarnaast is de resolutie van de getallen in de vectoren verlaagd met een factor vier door middel van kwantisatie. Deze aanpassingen zorgden voor een zeer beperkte verlaging van performantie in hoekpredictie.
Verder zijn de resoluties van de tijds- en frequentiedimensies verlaagd. De tijdsaanpassing is bereikt door het overslaan van bepaalde tijdssamples en het comprimeren van de dimensiegrootte in een voorziene netwerklaag van het model. Voor de frequenties is ervoor gekozen om dit te beperken tot 100 frequenties.
De barplots geven de gemiddelde nauwkeurigheid van de hoekvoorspelling weer in verschillende testsituaties. In de grafiek staat het lichtgrijze gebied voor het gedistribueerde model, terwijl het donkergrijze gebied het gecentraliseerde model met de LC3+ codec vertegenwoordigt. De rode lijn in de grafiek toont aan hoe de bandbreedte voor het gedistribueerde model met een factor 64 wordt verlaagd.
De blauwe grafiek geeft een indicatie van het aantal berekeningen dat binnen het model wordt uitgevoerd. Uit de resultaten blijkt dat het gecentraliseerde model met de codec nog steeds de beste prestaties levert qua nauwkeurigheid.
In de grafiek zijn de modellen als volgt benoemd: 'F' staat voor het aantal vectoren, terwijl 'S' en 'hop' verwijzen naar de compressie van de tijdsdimensie. De oorspronkelijke modellen maakten gebruik van 257 frequenties, en de vermindering tot 100 frequenties wordt aangeduid als '100f'. Het referentienetwerk is het gedistribueerde model met hyperparameters die zijn overgenomen uit eerder onderzoek (S. Kindt, 2021).
Het gedistribueerde model toont duidelijk de mogelijkheid tot verdere verlaging van de bandbreedte zonder significant verlies van nauwkeurigheid. Dit is te zien aan de stabiele lichtgrijze barplots en de dalende rode curve (van rechts naar links). Daarnaast blijkt uit de blauwe curve dat het aantal berekeningen aanzienlijk lager ligt bij het gedistribueerde model in vergelijking met het gecentraliseerde model.
Artificiële diepe neurale netwerken zijn AI-modellen die leren van data, een proces dat 'trainen' wordt genoemd.
Kennisoverdracht is een techniek dat vaak wordt toegepast bij beeldherkenning. Hierbij wordt een klein model, de 'student', getraind met behulp van een groter model, de 'leraar'. Zo kan de student naast het leren van de echte waarde, ook leren uit de voorspellingen van het leraar. Met deze techniek kan eenzelfde model met dezelfde trainingsdata toch verbeterd worden.
Leraarmodellen die zijn getraind op dezelfde data als de studentmodellen blijken, naast snellere training, weinig effect te hebben op de eindperformatie. Aan de andere kant kan het trainen van kleinere studentmodellen met minder data leiden tot een prestatieverbetering van maar liefst 10%.
“Elk geluid waar je lang genoeg naar luistert, wordt een stem.” - Victor Hugo
[1] A. Rathnayake and W. K. Wanniarachchi, “Image source method based acoustic simulation for 3-d room environment,” International Journal of Scientific & Technology Research, vol. 8, pp. 222–228, 11 2019.
[2] A. Vuckovic, V. Radivojevic, A. Chen, and D. Popović, “Eeg drowsiness 2002 medengphy,” 03 2015.
[3] S. Chakrabarty and E. A. P. Habets, “Multi-speaker doa estimation using deep convolutional networks trained with noise signals,” IEEE Journal of Selected Topics in Signal Processing, vol. 13, no. 1, pp. 8–21, 2019.
[4] A. Bohlender, A. Spriet, W. Tirry, and N. Madhu, “Exploiting temporal context in cnn based multisource doa estimation,” IEEE/ACM Transactions on Audio, Speech, and Language Processing, vol. 29, pp. 1594–1608, 2021.
[5] M. Phi, “Illustrated guide to lstm’s and gru’s: A step by step explanation,” Jun 2020. [Online]. Available: https://towardsdatascience.com/illustrated-guide-to-lstms-and-gru-s-a-s…;
[6] S. Kindt, A. Bohlender, and N. Madhu, “2d acoustic source localisation using decentralised deep neural networks on distributed microphone arrays,” in Speech Communication; 14th ITG Conference, 2021, pp. 1–5.
[7] S. Song, S. Kindt, J. Maes, A. B. Madhu et al., “Influence of lossy speech codecs on hearing-aid, binaural sound source localisation using dnns,” arXiv preprint arXiv:2306.02344, 2023.
[8] S. Song, S. Kindt, J. Maes, A. Bohlender, and N. Madhu, “Comparative study of lc3plus and lyra codec on dnn-based source localisation for hearing aids,” in Speech Communication; 15th ITG Conference, 2023, pp. 71–75.
[9] C. Qi, S. Shen, R. Li, Z. Zhifeng, Q. Liu, J. Liang, and H. Zhang, “An efficient pruning scheme of deep neural networks for internet of things applications,” EURASIP Journal on Advances in Signal Processing, vol. 2021, 06 2021.
[10] H. Tessier, “Neural network pruning 101,all you need to know not to get lost,” in towardsdatascience, 2021.
[11] H. Kayser, S. D. Ewert, J. Anemüller, T. Rohdenburg, V. Hohmann, and B. Kollmeier, “Database of multichannel in-ear and behind-the-ear head-related and binaural roomimpulseresponses,” EURASIP Journal on advancesinsignalprocessing, vol. 2009, pp. 1–10, 2009.
[12] L. P. Feigen, “Physical characteristics of sound and hearing,” The American journal of cardiology, vol. 28, no. 2, pp. 130 133, 1971.
[13] W. A. Yost and M. C. Killion, “Hearing thresholds,” Encyclopedia of acoustics, vol. 3, pp. 1545–1554, 1997.
[14] H.Wallach,E.B.Newman,andM.R.Rosenzweig,“Aprecedenceeffectinsoundlocalization,”TheJournaloftheAcoustical Society of America, vol. 21, no. 4_Supplement, pp. 468–468, 1949.
[15] S.RickardandO.Yilmaz,“Ontheapproximatew-disjointorthogonalityofspeech,”in2002IEEEInternationalConference on Acoustics, Speech, and Signal Processing, vol. 1. IEEE, 2002, pp. I–529.
[16] E. Accolti and F. Miyara, “Fast and controllable box-shaped room impulse response algorithm,” XIII Reunión de Trabajo en Procesamiento de la Información y Control, RPIC, 2009. 84 6 References
[17] M. L. Hawley, R. Y. Litovsky, and J. F. Culling, “The benefit of binaural hearing in a cocktail party: Effect of location and type of interferer,” The Journal of the Acoustical Society of America, vol. 115, no. 2, pp. 833–843, 2004.
[18] P. Avan, F. Giraudet, and B. Büki, “Importance of binaural hearing,” Audiology and Neurotology, vol. 20, no. Suppl. 1, pp. 3–6, 2015.
[19] E. A. Lopez-Poveda, “Chapter 10- development of fundamental aspects of human auditory perception,” in Development of Auditory and Vestibular Systems, R. Romand and I. Varela-Nieto, Eds. San Diego: Academic Press, 2014, pp. 287–314. [Online]. Available: https://www.sciencedirect.com/science/article/pii/B9780124080881000105&…;
[20] A. Francl and J. H. McDermott, “Deep neural network models of sound localization reveal how perception is adapted to real-world environments,” Nature human behaviour, vol. 6, no. 1, pp. 111–133, 2022.
[21] R. Roden, N. Moritz, S. Gerlach, S. Weinzierl, and S. Goetze, On sound source localization of speech signals using deep neural networks. Technische Universität Berlin, 2019.
[22] S. Jiang, L. Wu, P. Yuan, Y. Sun, and H. Liu, “Deep and cnn fusion method for binaural sound source localisation,” The Journal of Engineering, vol. 2020, no. 13, pp. 511–516, 2020.
[23] M. Risoud, J.-N. Hanson, F. Gauvrit, C. Renard, P.-E. Lemesre, N.-X. Bonne, and C. Vincent, “Sound source localization,” European annals of otorhinolaryngology, head and neck diseases, vol. 135, no. 4, pp. 259–264, 2018. [24] F.Denk, S. M.Ernst, S. D. Ewert, and B. Kollmeier, “Adapting hearing devices to the individual ear acoustics: Database and target response correction functions for various device styles,” Trends in hearing, vol. 22, p. 2331216518779313, 2018. [25] Z. Yang and R. R. Choudhury, “Personalizing head related transfer functions for earables,” in Proceedings of the 2021 ACM SIGCOMM 2021 Conference, ser. SIGCOMM ’21. New York, NY, USA: Association for Computing Machinery, 2021, p. 137–150. [Online]. Available: https://doi.org/10.1145/3452296.3472907
[26] H. Do, H. F. Silverman, and Y. Yu, “A real-time srp-phat source location implementation using stochastic region contrac tion(src) on a large-aperture microphone array,” in 2007 IEEE International Conference on Acoustics, Speech and Signal Processing- ICASSP ’07, vol. 1, 2007, pp. I–121–I–124.
[27] M. Cobos, A. Marti, and J. J. Lopez, “A modified srp-phat functional for robust real-time sound source localization with scalable spatial sampling,” IEEE Signal Processing Letters, vol. 18, no. 1, pp. 71–74, 2011.
[28] N. Madhu, R. Martin, U. Heute, and C. Antweiler, “Acoustic source localization with microphone arrays,” Advances in Digital Speech Transmission, pp. 135–170, 2008.
[29] Z. Khan, M. M. Kamal, N. Hamzah, K. Othman, and N. Khan, “Analysis of performance for multiple signal classification (music) in estimating direction of arrival,” in 2008 IEEE International RF and Microwave Conference. IEEE, 2008, pp. 524–529.
[30] R. Schmidt, “Multiple emitter location and signal parameter estimation,” IEEE transactions on antennas and propaga tion, vol. 34, no. 3, pp. 276–280, 1986. 85 6 References
[31] A. Opidi, “Pytorch loss functions: The ultimate guide,” Aug 2023. [Online]. Available: https://neptune.ai/blog/pytorch loss-functions
[32] S. Bai, J. Z. Kolter, and V. Koltun, “An empirical evaluation of generic convolutional and recurrent networks for sequence modeling,” arXiv preprint arXiv:1803.01271, 2018.
[33] M. Yasuda, Y. Koizumi, S. Saito, H. Uematsu, and K. Imoto, “Sound event localization based on sound intensity vector re f inedbydnn-baseddenoisingandsourceseparation,”inICASSP2020-2020IEEEInternationalConferenceonAcoustics, Speech and Signal Processing (ICASSP), 2020, pp. 651–655.
[34] S. Adavanne, A. Politis, J. Nikunen, and T. Virtanen, “Sound event localization and detection of overlapping sources using convolutional recurrent neural networks,” IEEE Journal of Selected Topics in Signal Processing, vol. 13, no. 1, pp. 34–48, 2019.
[35] A. Bohlender, L. Roelens, and N. Madhu, “Improved deep speaker localization and tracking: Revised training paradigm andcontrolled latency,” in ICASSP 2023- 2023IEEEInternational ConferenceonAcoustics, Speech andSignal Processing (ICASSP), 2023, pp. 1–5.
[36] M. C. Mozer and P. Smolensky, “Skeletonization: A technique for trimming the fat from a network via relevance assessment,” in Advances in Neural Information Processing Systems, D. Touretzky, Ed., vol. 1. Morgan-Kaufmann, 1988. [Online]. Available: https://proceedings.neurips.cc/paper_files/paper/1988/file/07e1cd7dca89… Paper.pdf
[37] J. Yang, B. Martinez, A. Bulat, G. Tzimiropoulos et al., “Knowledge distillation via softmax regression representation learning.” International Conference on Learning Representations (ICLR), 2021.
[38] W. Park, D. Kim, Y. Lu, and M. Cho, “Relational knowledge distillation,” in Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR), June 2019.
[39] J. Gou, B. Yu, S. J. Maybank, and D. Tao, “Knowledge distillation: A survey,” CoRR, vol. abs/2006.05525, 2020. [Online]. Available: https://arxiv.org/abs/2006.05525
[40] G. Hinton, O. Vinyals, and J. Dean, “Distilling the knowledge in a neural network,” 2015.
[41] H.-H. Chou, C.-T. Chiu, and Y.-P. Liao, “Cross-layer knowledge distillation with kl divergence and offline ensemble for compressing deep neural network,” APSIPA Transactions on Signal and Information Processing, vol. 10, p. e18, 2021.
[42] F. Ruffy and K. Chahal, “The state of knowledge distillation for classification,” arXiv preprint arXiv:1912.10850, 2019.
[43] T. Su, Q. Liang, J. Zhang, Z. Yu, G. Wang, and X. Liu, “Attention-based feature interaction for efficient online knowledge distillation,” in 2021 IEEE International Conference on Data Mining (ICDM), 2021, pp. 579–588.
[44] I. Chung, S. Park, J. Kim, and N. Kwak, “Feature-map-level online adversarial knowledge distillation,” in International Conference on Machine Learning. PMLR, 2020, pp. 2006–2015. 86 6 References
[45] F. Denk, S. M. A. Ernst, S. D. Ewert, and B. Kollmeier, “Adapting hearing devices to the individual ear acoustics: Database andtarget response correction functions for various device styles,” Trends Hear., vol. 22, p. 2331216518779313, Jan. 2018.
[46] P. Cooreman, A. Bohlender, and N. Madhu, “Crnn-based multi-doa estimator: Comparing classification and regression,” in Speech Communication; 15th ITG Conference, 2023, pp. 156–160.
[47] P. Contributors, “Conv2d¶,” 2023. [Online]. Available: https://pytorch.org/docs/stable/generated/torch.nn.Conv2d.html
[48] P. contributors, “Linear¶,” 2023. [Online]. Available: https://pytorch.org/docs/stable/generated/torch.nn.Linear.html
[49] M. Risoud, J.-N. Hanson, F. Gauvrit, C. Renard, P.-E. Lemesre, N.-X. Bonne, and C. Vincent, “Sound source localization,” European Annals of Otorhinolaryngology, Head and Neck Diseases, vol. 135, no. 4, pp. 259–264, 2018. [Online]. Available: https://www.sciencedirect.com/science/article/pii/S187972961830067X [50] P. Vecchiotti, N. Ma, S. Squartini, and G. J. Brown, “End-to-end binaural sound localisation from the raw waveform,” in ICASSP2019-2019IEEEInternationalConferenceonAcoustics,SpeechandSignalProcessing(ICASSP),2019, pp.451–455.
[51] K. Youssef, S. Argentieri, and J.-L. Zarader, “A learning-based approach to robust binaural sound localization,” in 2013 IEEE/RSJ International Conference on Intelligent Robots and Systems. IEEE, 2013, pp. 2927–2932.
[52] Q.YangandY.Zheng,“Deepear: Soundlocalizationwithbinauralmicrophones,”IEEETransactionsonMobileComputing, 2022.