Zelflerende spraakherkenning via matrix-factorisatie

Alexander Bertrand
Zelflerende spraakherkenning: artificiële intelligentie in zijn puurste vorm
 
De manier waarop baby’s spraak leren begrijpen is hoogst opmerkelijk. Pasgeborenen weten niet wat de opgevangen impulsen betekenen of hoe ze deze moeten interpreteren. Toch kunnen ze na enige tijd spraak begrijpen. Dit geeft aan dat het menselijk brein in staat is om een structuur te ontdekken in de massale hoeveelheid spraaksignalen die het te verwerken krijgt.
 
Maar kan een computer dit ook?

Zelflerende spraakherkenning via matrix-factorisatie

Zelflerende spraakherkenning: artificiële intelligentie in zijn puurste vorm

 

De manier waarop baby’s spraak leren begrijpen is hoogst opmerkelijk. Pasgeborenen weten niet wat de opgevangen impulsen betekenen of hoe ze deze moeten interpreteren. Toch kunnen ze na enige tijd spraak begrijpen. Dit geeft aan dat het menselijk brein in staat is om een structuur te ontdekken in de massale hoeveelheid spraaksignalen die het te verwerken krijgt.

 

Maar kan een computer dit ook? Is het mogelijk om een artificieel intelligent systeem te ontwikkelen dat ‘in den beginne’ geen enkele notie heeft van spraak of taal, en toch spraak leert herkennen, enkel en alleen door het analyseren van spraakopnames? De experimenten die in het kader van dit eindwerk werden uitgevoerd geven hiervoor een eerste aanzet.

 

1) Zelflerend?

 

Een computerprogramma dat spraak moet herkennen krijgt daarvoor steeds de nodige kennis aangeboden door de ontwikkelaar ervan. Het systeem weet welke de verschillende spraakklanken zijn, op basis van welke eigenschappen ze kunnen onderscheiden worden en hoe ze tot woorden en zinnen gecombineerd worden. Ingenieurs hebben samen met linguïsten, audiologen en logopedisten jarenlang gezwoegd om al deze informatie te verzamelen en een systeem te ontwikkelen dat min of meer gesproken taal kan herkennen.

 

Een spraakherkenningssysteem zou ‘zelflerend’ zijn als het in staat is om spraak te herkennen na een zelfstandige analyse van spraakopnames, zonder dat hierbij extra kennis in het systeem wordt ingebracht. Het gaat hier uiteraard niet om het eigenlijke ‘begrijpen’ van wat er gezegd wordt - zoals een baby doet - maar wel om het zoeken naar een structuur om klanken en woorden te herkennen en te classificeren. Een baby krijgt namelijk ook niet-akoestische informatie en feedback van zijn omgeving, wat in dit experiment niet het geval is. Er wordt dus enkel nagegaan welke structuren de computer ontdekt in spraaksignalen en hoe deze aangewend kunnen worden om de huidige technieken voor spraakherkenning te verfijnen of zelfs te vervangen.

 

In dit artikel ligt de focus op één bepaald aspect van het onderzoek in het kader van dit eindwerk: het herkennen van klanken. De resultaten van dit experiment zijn niet alleen interessant voor de spraaktechnologie, maar ze leiden ook tot interessante biologische inzichten. Om het doel van het experiment duidelijk te maken gaan we eerst wat dieper in op de werking van een spraakherkenningssystemen.

 

2) Features

 

Al jarenlang zijn onderzoekers op zoek naar kenmerken of features in spraaksignalen op basis van dewelke een computer klanken van elkaar kan onderscheiden. De ‘luidheid’ of ‘loudness’ van een klank kan bijvoorbeeld een feature zijn. De getalwaarde die de geluidssterkte van de klank aangeeft, geeft namelijk informatie over de klank. Dit getal zal hoger zijn voor een stemhebbende klank - bijvoorbeeld ‘a’- dan voor een stemloze klank - bijvoorbeeld ‘h’.

 

Voor elke 30 milliseconden spraakgeluid wordt er een compacte set van feature-getallen gegenereerd die informatie geven over de klank die wordt uitgesproken. Op basis van deze set getallen moet de computer de klanken kunnen classificeren. Er zal nooit een klank wegvallen tijdens deze analyse omdat 30 milliseconden de minimale tijd is dat ons stemkanaal nodig heeft om van de ene klank naar de andere over te gaan. Het spreekt voor zich dat deze classificatie beter werkt naarmate er meer features gebruikt worden. Echter, omwille van de beperkte rekencapaciteit van een computer kan een featureset slechts een twintigtal getallen bevatten.

 

Het probleem met de eerder als voorbeeld genoemde loudness-feature, is dat deze getalwaarde sterk sprekerafhankelijk is. Bovendien kan eenzelfde spreker soms luid of stil praten. Er is empirisch aangetoond dat de zogenaamde ‘spectrale features’ veel beter bestand zijn tegen dergelijke variabiliteit . Dit zijn features die worden bepaald op basis van het frequentiespectrum van het geluid. Het frequentiespectrum geeft aan wat de samenstelling van geluidsgolven is bij het uitspreken van een bepaalde klank. Het blijkt dat deze samenstelling gelijkaardig is bij verschillende sprekers die eenzelfde klank uitspreken. 

 

Uit het frequentiespectrum van een spraaksegment van 30 milliseconden kunnen oneindig veel verschillende spectrale features gegenereerd worden. Om te bepalen welke nuttig zijn voor het herkennen van de klank hebben wetenschappers zich geïnspireerd op het menselijk gehoor. Het membraan dat zich in het slakkenhuis van het oor bevindt doet namelijk ook een frequentieanalyse van de geluidsgolven die het oor binnenkomen. Door intensief onderzoek op basis van gehoortesten heeft men een ruw beeld verkregen van de manier waarop het gehoororgaan frequenties analyseert. Dit heeft men nagebootst in spraakherkenningsystemen om features te genereren. Deze features noemt men ook wel Mel-features, afgeleid van het woord ‘melody’. 

 

3) Op zoek naar nieuwe features

Tot op heden werden nog geen features gevonden die klanken aan eenzelfde rekensnelheid kunnen classificeren met een kleiner foutenpercentage dan de Mel-features. In dit experiment is het de bedoeling om de computer zelf features te laten zoeken in plaats van hem deze aan te reiken. De computer mag hierbij net zoals een pasgeborene enkel gebruik maken van voorbeeldspraak. De computer heeft dus geen notie van Mel-features of  spraakklanken. Hij moet dus zelf een structuur zoeken in de spraakopnames, en op basis daarvan het concept ‘spraakklank’ opbouwen. Dit is mogelijk dankzij de speciale structuur  en de hoge graad van voorspelbaarheid van spraaksignalen. Via complexe wiskundige technieken, die gebaseerd zijn op stellingen uit de informatietheorie en de statistiek, is het mogelijk een computer te laten zoeken naar features met een optimale informatie-inhoud om spraakklanken van elkaar te onderscheiden.

 

4) Conclusie: spraak en het gehoor, twee handen op een buik

 

De features die via dit experiment werden gevonden blijken heel sterk te gelijken op de Mel-features, die in bijna alle spraakherkenningsystemen worden gebruikt. Zoals reeds aangegeven zijn deze Mel-features gebaseerd op de werking van het menselijk gehoor. Uit de experimentele resultaten blijkt dus dat de wiskunde ongeveer dezelfde features kiest voor het herkennen van spraak.  Het is bovendien opmerkelijk dat een analyse van het menselijk gehoor enerzijds en een analyse van menselijke spraak anderzijds, quasi identieke features opleveren. Dit betekent dat beiden heel sterk aan elkaar zijn aangepast: wij produceren onze spraak op een zodanige manier dat het oor zoveel mogelijk informatie kan extraheren die nodig is om klanken te onderscheiden. Dit experiment ondersteunt de hypothese dat het spraakproductiesysteem en het gehoororgaan in de loop van de evolutie van de mensheid sterk aan elkaar aangepast zijn, waardoor menselijke spraak tot een heel efficiënt communicatiemiddel is uitgegroeid.

Bibliografie

[1] S. Young, “A review of large-vocabulary continuous-speech recognition,” IEEE Signal Processing Magazine, vol. 13, no. 5, pp. 45–57, Sep. 1996.

 

[2] J. Holmes, Speech Synthesis and Recognition. Van Nostrand Reinhold (UK) Co. Ltd, 1988.

 

[3] K. Demuynck, J. Duchateau, D. Van Compernolle, and P. Wambacq, “Improved feature decorrelation for HMM-based speech recognition,” in Proc. International Conference on Spoken Language Processing, vol. VII, Sydney, Australia, Dec. 1998, pp. 2907–2910.

 

[4] J. Duchateau, K. Demuynck, D. Van Compernolle, and P. Wambacq, “Class definition in discriminant feature analysis,” in Proc. European Conference on Speech Communication and Technology, vol. III, Aalborg, Denmark, Sep. 2001, pp. 1621–1624.

 

[5] K. Demuynck, J. Duchateau, and D. Van Compernolle, “Optimal feature sub-space selection based on discriminant analysis,” in Proc. European Conference on Speech Communication and Technology, vol. III, Budapest, Hungary, Sep. 1999, pp. 1311–1314.

 

[6] D. Lee and H. Seung, “Learning the parts of objects by non-negative matrix factorization,” Nature, vol. 401, pp. 788–791, 1999.

 

[7] T. Landauer, P. Foltz, and D. Laham, “Introduction to latent semantic analysis,” Discourse Processes, vol. 25, pp. 259–284, 1998.

 

[8] T. Hofmann, “Probabilistic latent semantic analysis,” in Proc. of Uncertainty in Artificial Intelligence, Stockholm, 1999.

 

[9] T. Hofmann and J. Puzicha, “Unsupervised learning from dyadic data,” International Computer Science Insitute, Berkeley, CA, Tech. Rep. TR-98-042, 1998.

 

[10] A. Dempster, N. Laird, and D. Rubin, “Maximum likelihood from incomplete data via the em-algorithm,” Journal of the Royal Statistical Society, Series B, vol. 39, pp. 1–38, 1977.

 

[11] E. Gaussier and C. Goutte, “Relation between plsa and nmf and implications,” in Proceedings of the ACM SIGIR conference on research and development in information retrieval, Salvador, Brazil, 2005, pp. 601–602.

 

[12] D. Lee and H. Seung, “Algorithms for non-negative matrix factorization,” Advances in Neural Information Processing Systems, vol. 13, pp. 556–562, 2001.

 

[13] L. Lamel, R. Kassel, and S. Seneff, “Speech database development: Design and analysis of the acoustic-phonetic corpus,” in Proc. DARPA Speech Recognition Workshop, 1986, pp. 100–109.

 

[14] W. Fisher, V. Zue, J. Bernstein, and D. Pallett, “An acoustic-phonetic data base,” The Journal of the Acoustical Society of America, vol. 81, no. S1, pp. S92–S93, May 1987.

 

[15] Z. Hafed and M. Levine, “Face recognition using the discrete cosine transform,” International Journal of Computer Vision, vol. 43, no. 3, pp. 167–188, 2001.

 

[16] V. Eguiluz, M. Ospeck, Y. Choe, A. Hudspeth, and M. O. Magnasco, “Essential nonlinearities in hearing,” Physical Review Letters, vol. 84, no. 22, pp. 5232–5235, 2000.

 

[17] D. S. Pallett, “Benchmark tests for darpa resource management database performance,” in Proc. International Conference on Acoustics, Speech and Signal Processing, Glasgow, UK, May 1989, pp. 536–539.

 

[18] R. Patterson, K. Robinson, J. Holdsworth, D. McKeown, C. Zhang, and M. Allerhand, “Complex sounds and auditory images,” Auditory Physiology and Perception, Proc. 9th International Symposium on Hearing, 1992.

 

[19] K. Demuynck, “Extracting, modelling and combining information in speech recognition,” Ph.D. dissertation, K.U.Leuven, ESAT, Feb. 2001.

 

[20] P. O. Hoyer, “Non-negative matrix factorization with sparseness constraints,” ’Journal of Machine Learning Research’, vol. 5, pp. 1457–1469, 2004.

 

Universiteit of Hogeschool
Burgerlijk elektrotechnisch ingenieur
Publicatiejaar
2007
Kernwoorden
Share this on: