Taalverwerving door robots via demonstratie: Gerangschikte gegevens en relevantiedetectie

Vincent
Renkens
  • Steven
    Janssens

P { margin-bottom: 0.08in; }

De opkomst van de robots
Veel sciencefiction films vertelden het ons al: de toekomst zal wemelen van de robots. Ze worden gebruikt in het dagelijkse leven, zijn hyperintelligent en hopelijk keren ze zich niet tegen ons, want dat zou wel eens het einde van de mensheid kunnen betekenen. Dit soort robots lijkt nog verre toekomstmuziek, maar robots op zich zijn geen sciencefiction meer. Robots komen steeds vaker voor in het dagelijkse leven. De gebruiker zou op een natuurlijke manier met robots moeten kunnen omgaan en dus moet de besturing hiervoor aangepast worden. De robot besturen met spraak lijkt hier een goede keuze, maar dit brengt vele uitdagingen met zich mee.


Robots in het dagelijkse leven
industriële robots zoals robotarmen in fabrieken worden al een hele tijd gebruikt. Tegenwoordig vinden we robots steeds vaker terug in het dagelijkse leven, denk maar aan een automatische grasmachine of stofzuiger of de robot ZORA die onlangs veel persaandacht kreeg omdat ze zeer nuttig bleek in de zorgsector. Door de verhuis van de fabriek naar mensen thuis, komen robots in een voor hen veel moeilijkere omgeving terecht. In een fabriek moet de robot vaak gelijkaardige taken uitvoeren, is de omgeving volledig vooraf bekend en wordt de robot bestuurd door technici die normaal gezien weten hoe ze de robot moeten besturen. In, bijvoorbeeld, een woning van een oudere heer of dame, waar de robot een handje kan toesteken, is dit alles behalve het geval. De robot moet namelijk vele verschillende klusjes uitvoeren, komt in een onbekende en veranderlijke omgeving terecht en de gebruiker is meestal geen technicus die met ingewikkelde interfaces kan werken.

Om ervoor te zorgen dat iedereen met robots kan werken, moeten we ervoor zorgen dat de gebruiker op een hele natuurlijke manier kan communiceren met de robot. Hiervoor lijkt spraaktechnologie een geschikte oplossing. Het probleem lijkt opgelost, er bestaan immers al heel geavanceerde spraakherkenners op de markt die deze taak kunnen uitvoeren, of niet? Een gebruiker zou bijvoorbeeld kunnen vragen: "pak is een pinke uit de frigo alstublieft". Een standaard spraakherkenner zou met dit commando niet veel kunnen aanvangen. Hij weet immers niet wat een "frigo" of een "pinke" is, deze woorden staan niet in het woordenboek. En zelfs al weet hij het, waar staat de frigo? Deze gegevens zouden eventueel allemaal voorgeprogrammeerd kunnen worden door een technicus, maar dit zou veel tijd in beslag nemen. Niet alleen moet dit voor elke gebruiker apart gebeuren, als er iets verandert in het huis moet dit opnieuw ingevoerd worden. Atypische taal kan het voor een spraakherkenner zeer moeilijk maken. Atypische taal kan, bijvoorbeeld, een dialect of een accent zijn. Vele mensen weten hoe moeilijk het kan zijn om een Engelstalige spraakherkenner aan te sturen. Een spraakgebrek, wat veroorzaakt kan worden door een motorische handicap, of ouderenspraak worden ook als atypisch ervaren door spraakherkenners. Het is echter net voor deze mensen dat een robot zeer nuttig kan zijn, denk maar aan een service robot, die hun thuis kan helpen.

In deze masterproef is getracht een oplossing te vinden voor deze problemen door een robot te ontwikkelen die spraak kan leren via interactie met de gebruiker zelf. De robot start zoals een pasgeboren baby: zonder enige kennis van taal, maar wel met de mogelijkheid om het te leren. De gebruiker kan de robot taal aanleren door te demonstreren wat hij/zij bedoelt met elk commando. Hiervoor wordt een afstandbediening gebruikt, zodat de acties die de robot uitvoert gelinkt kunnen worden aan het gesproken commando. Na enkele demonstraties kent de robot de betekenis van het commando en kan hij met de aangeleerde spraakcommando's bestuurd worden. Deze manier van werken zorgt ervoor dat de robot tegemoet kan komen aan de vooraf genoemde problemen. Het gebruik van ongekende woorden, dialect of atypische spraak geeft geen fundamenteel probleem meer, want de robot leert taal door te luisteren naar de gebruiker.


Werking van de robot
De robot verwerkt een gesproken commando in twee stappen: de spraakverwerking en de spraakclassificatie. In de spraakclassificatie wordt het commando gelinkt aan een actie. Het is echter heel moeilijk om dit te doen op basis van het geluidssignaal, want hier zit te veel irrelevante informatie in. Het geluidssignaal moet eerst verwerkt worden en dit gebeurt in de spraakverwerking. In de spraakverwerking wordt het geluidssignaal omgevormd naar wat we een kenmerkvector noemen. Dit is een beschrijving van het geluidssignaal op basis van kenmerken. Dit is vergelijkbaar met hoe je een persoon beschrijft. Je beschrijft een persoon niet door elk haartje op zijn/haar hoofd te vermelden, je gebruikt kenmerken zoals haarkleur, huidskleur en lengte. De spraakverwerking bestaat uit twee fasen, een leerfase en een gebruiksfase. In de leerfase zal de robot proberen te leren welke kenmerken er beschreven moeten worden om de commando's van de gebruiker goed te kunnen beschrijven. Vervolgens zal hij in de gebruiksfase het gesproken commando, dat hij als input krijgt van de gebruiker, beschrijven met deze kenmerken. Deze kenmerken worden samen in een vector geplaatst, de "kenmerkvector". Net als bij de spraakverwerking is er in de spraakclassificatie een leerfase en een gebruiksfase. In de leerfase zal de robot patronen proberen te zoeken in de kenmerken van de commando's en deze proberen te linken aan de demonstraties die de gebruiker heeft gedaan. Als deze patronen en verbanden gevonden zijn, kan de robot een nieuw commando classificeren in de verschillende commando's die hij geleerd heeft door de demonstraties.


Besluit
Robots zullen meer en meer voorkomen in het dagelijkse leven, daarom moet de manier van besturen van de robots herdacht worden. De diversiteit van gebruikers en omgevingen waarmee de robots geconfronteerd zullen worden, vragen om een intelligente robot. Een robot die zijn commando's kan leren door interactie met de gebruiker kan tegemoet komen aan de uitdagingen die gesteld worden door zulke nieuwe werkomgeving. In de masterproef is een tip van de sluier opgelicht over hoe zo een robot zou kunnen worden functioneren.

 

Bibliografie

[1] ALADIN – Adaptation and Learning for Assistive Domestic Vocal Interfaces. Projectpage: http://www.esat.kuleuven.be/psi/spraak/projects/ALADIN/,
laatst nagekeken op 2014-05-14.

[2] L. Broekx and K. Dreesen. One-shot learning. Master’s thesis, KU Leuven, 2013.

[3] R. A. Brooks, C. Breazeal, M. Marjanovic, B. Scassellati, and M. M. Williamson. The Cog project: Building a humanoid robot. In Computation for metaphors,
analogy, and agents, pages 52–87. Springer, 1999.

[4] A. T. Cemgil. Bayesian inference for nonnegative matrix factorisation models. Computational intelligence and neuroscience, Jan. 2009.

[5] S. Choi. Algorithms for orthogonal nonnegative matrix factorization. In 2008 IEEE International Joint Conference on Neural Networks (IEEE World Congress on Computational Intelligence), pages 1828–1832. IEEE, June 2008.

[6] Delsys. Window functions. http://www.delsys.com/knowledgecenter/ nethelp/Media/Window%20functions…, laatst nagekeken op 2014-03-01.

[7] K. Demuynck, J. Duchateau, and D. Van Compernolle. Optimal feature subspace selection based on discriminant analysis. In EUROSPEECH, volume 99,
pages 1311–1314, 1999.

[8] J. Driesen. Discovering Words in Speech using Matrix Factorization. PhD thesis, KU Leuven, 2012.

[9] J. Driesen, J. F. Gemmeke, and H. Van hamme. Weakly supervised keyword learning using sparse representations of speech. In IEEE International Conference
on Acoustics, Speech and Signal Processing (ICASSP), pages 5145–5148, Kyoto, Japan, 2012. IEEE.

[10] J. Driesen and H. Van hamme. Fast word acquisition in an NMF-based learning framework. In 2012 IEEE International Conference on Acoustics, Speech and
Signal Processing (ICASSP), pages 5137–5140, Kyoto, Japan, Mar. 2012. IEEE.

[11] J. Driesen and H. Van hamme. Supervised input space scaling for non-negative matrix factorization. Signal Processing, 92(8):1864–1874, Aug. 2012.
[12] J. Driesen, H. Van hamme, and W. B. Kleijn. Learning from images and speech with non-negative matrix factorization enhanced by input space scaling. In
Spoken Language Technology Workshop (SLT), 2010 IEEE, pages 1–6, Berkeley, USA. IEEE.

[13] Educypedia. Fletcher-Munson curve. http://systembus.com/science/ electronics/Images/Fletcher-Munson.gif, laatst bekeken op 2014-05-14.

[14] C. Févotte, N. Bertin, and J.-L. Durrieu. Nonnegative matrix factorization with the Itakura-Saito divergence: with application to music analysis. Neural
computation, 21(3):793–830, Mar. 2009.

[15] C. Févotte and A. T. Cemgil. Nonnegative matrix factorizations as probabilistic inference in composite models. In Proc. EUSIPCO, volume 47, pages 1913–1917.
Citeseer, 2009.

[16] J. F. Gemmeke, T. Virtanen, and A. Hurmalainen. Exemplar-based sparse representations for noise robust automatic speech recognition. IEEE Transactions
on Audio, Speech, and Language Processing, 19(7):2067–2080, Sept. 2011.

[17] F. J. Harris. On the use of windows for harmonic analysis with the discrete Fourier transform. Proceedings of the IEEE, 66(1):51–83, 1978.

[18] X. Huang, A. Acero, and H.-W. Hon. Spoken Language Processing: A Guide to Theory, Algorithm, and System Development. Prentice Hall PTR, 1st edition,
2001.

[19] P. Johnson, H. Johnson, R. Waddington, and A. Shouls. Task-related knowledge structures: analysis, modelling and application. In BCS HCI, pages 35–62.
Citeseer, 1988.

[20] D. Jurafsky, J. H. Martin, A. Kehler, K. Vander Linden, and N. Ward. Speech and Language Processing: An Introduction to Natural Language Processing,
Computational Linguistics, and Speech Recognition. MIT Press, 1st edition, 2000.

[21] O. Kramer. On machine symbol grounding and optimization. International Journal of Cognitive Informatics and Natural Intelligence (IJCINI), 5(3):73–85,
2011.

[22] P. K. Kuhl. A new view of language acquisition. Proceedings of the National Academy of Sciences of the United States of America, 97(22):11850–11857, Oct.
2000.

[23] Learn Scikits. Over-fit and Under-fit. http://www.astroml.org/sklearn_tutorial/_images/plot_bias_variance_exam…, laatst bekeken op
2014-05-14.

[24] D. D. Lee and H. S. Seung. Algorithms for non-negative matrix factorization. Advances in neural information processing systems, 13(1):556–562, 2001.

[25] T. M. Mitchel. Machine Learning. McGraw Hill, 1997.

[26] B. Ons, J. F. Gemmeke, and H. Van hamme. ALADIN, D2.2 integrated learning of a hierarchical speech model. Technical report, KULeuven, ESAT, Feb. 2013.

[27] B. Ons, J. F. Gemmeke, and H. Van hamme. Fast keyword learning in a selflearning vocal user interface: A study on different pre-processing methods for
non-negative matrix factorization. 2013.

[28] D. O’Shaughnessy. Speech Communication: Human and Machine. Universities press, 1987.

[29] D. Pan. Masking frequency on critical bandwidth scale. https: //www.cs.sfu.ca/CourseCentral/365/mark/material/notes/Chap4/Chap4.
4/Chap4.4.html, laatst bekeken op 2014-05-14.

[30] Pandre, Andrei. K-means clustering algoritme. http://apandre.files.wordpress.com/2011/08/kmeansclustering.jpg, laatst bekeken op 2014-05-
16.

[31] J. W. Picone. Signal modeling techniques in speech recognition. Proceedings ofthe IEEE, 81(9):1215–1247, 1993. 

[32] J. Ramírez, J. M. Górriz, and J. C. Segura. Voice activity detection. fundamentals and speech recognition system robustness. Robust Speech Recognition and
Understanding, 6(9):1–23, 2007.

[33] V. Y. F. Tan and C. Févotte. Automatic relevance determination in nonnegative matrix factorization with the beta-divergence. IEEE Transactions on Pattern
Analysis and Machine Intelligence, 35(7):1–15, July 2013.

[34] N. Tessema, B. Ons, J. van de Loo, J. F. Gemmeke, G. De Pauw, W. Daelemans, and H. Van hamme. ALADIN-TR01. Technical report, ESAT, KULeuven -
CLiPS, University of Antwerp, 2013.

[35] H. Van hamme. HAC-models : A novel approach to continuous speech recognition. In Proceedings International Conference on Spoken Language Processing,
pages 2554–2557, Brisbane, Australia, 2008. Citeseer.

[36] H. Van hamme. Audio- en spraakverwerking (Deel 1: spraakverwerking). Cudi VTK, 2013.

[37] H. Van hamme, J. F. Gemmeke, G. De Pauw, J. van de Loo, and W. Daelemans. ALADIN - WP1 Knowledge representation. Technical report, KULeuven, 2011.

[38] J. Weng, J. McClelland, A. Pentland, O. Sporns, I. Stockman, M. Sur, and E. Thelen. Autonomous mental development by robots and animals. Science,
291(5504):599–600, Jan. 2001.

[39] I. Zeltmate and J. Grundspenkis. An extension of frame-based knowledge representation schema. In Proceedings of the International Multi-Conference on
Complexity, Informatics and Cybernetics, volume 1, pages 6–9.

Universiteit of Hogeschool
KU Leuven
Thesis jaar
2014