De humanoid: van statisch naar dynamisch
Ooit al een humanoid van dichtbij gezien? Had je er geen afkeer van? Sterk!
Robots worden vandaag de dag meer en meer gebruikt om te communiceren met de mens. Om de kwaliteit van de communicatie te verhogen zijn expressieve features voorhanden die goed moeten worden aangestuurd.
Probleemschetsing
Het is niet eenvoudig om een realistische robot te ontwerpen, vooral in het geval van een mensreplica. Kijk maar naar de wassen beelden van Madame Tussauds (fig. 1). Dit zijn zeer realistische poppen die statisch worden opgesteld. Jaren onderzoek hebben ertoe geleid om op de mens lijkende robots, zogenaamde humanoids, te ontwerpen die gelijken op de mens, die emoties en/of kunnen nabootsen.
Figuur SEQ Figuur \* ARABIC 1: Een wassen beeld van de wereldberoemde George Clooney
Gewoon een humanoid bouwen, is niet genoeg. Een humanoid kan enkel overtuigend overkomen als deze zich ook realistisch gedraagt. Vandaag de dag is dit ook de grootste uitdaging, de opdracht van de robotbouwers is pas voltooid indien ze er in slagen een robot te bouwen en aan te sturen die geen afkeergevoel opwekt bij de mens. Dit fenomeen staat bekend als het Uncanney Valley effect en wordt het meest ervaren bij robotreplica’s van dieren en mensen. Kijk maar naar een slecht opgezette kat en de dinosaurus op figuur 2.
Figuur SEQ Figuur \* ARABIC 2: Een slecht opgezette kat en een dinosaurus. De kat wekt afweer op door zijn afwijkende snoet, terwijl de dinosaurus geen afweer wekt.
De kat wekt enige afkeer op terwijl dit niet of minder het geval is bij de bewegende dinosaurus. De opgezette kat kunnen we vergelijken met een echte levende kat, terwijl dit niet het geval is bij de dinosaurus. Dit effect is nog erger bij humanoids, gezien afwijkingen in hun bewegingen en gedrag meteen worden opgemerkt. Deze afwijkingen spelen een zeer belangrijke rol, zoals aangegeven op de grafiek in figuur 3.
Op deze grafiek kan dit effect duidelijk worden gezien, zo wekt een zombie nog meer afkeer op dan een opgebaard lijk. Hetzelfde fenomeen is ook zichtbaar wanneer mensen flauwvallen, bij zichtbare breuken of zich ongemakkelijk voelen bij onnatuurlijke houdingen en bewegingen.
Figuur SEQ Figuur \* ARABIC 3: Op deze grafiek wordt het zogenaamde Uncanney Valley effect afgebeeld. Dit fenomeen wordt versterkt bij beweging en gedrag.
Klassieke aanpak
Om dit afweermechanisme te ontwijken trachten de ontwikkelaars hun humanoids zo goed mogelijk aan te sturen en dit is net waar de voorgestelde thesis om draait.
Vandaag de dag gebeurt zo een calibratie vaak manueel, zowel voor spraak als emotie. Elke actuator wordt dan iteratief ingesteld om een realistisch en niet afkeerwekkend resultaat te bekomen. Het effect van een niet-ideale calibratie kan gezien worden in figuur 4.
Figuur SEQ Figuur \* ARABIC 4: Een niet-ideale calibratie van een humanoid die afkeer opwekt. De afgebeelde emotie is angst.
Een manuele calibratie duurt lang en is zeer kostelijk. Bij elke aanpassing moet deze dan ook opnieuw gebeuren. Daarom wordt er gereikt naar andere oplossingen. Deze alternatieven maken gebruik van complexe computermodellen. Hiermee trachten ze voor elke emotie of mondvorm de configuratie voor elke actuator te bepalen. Deze methodes hangen echter af van de kwaliteit van het gebruikte computermodel. Deze modellen geven echter maar een benaderend resultaat waardoor een verdere manuele calibratie noodzakelijk is.
Om dit probleem op te lossen, wordt er in deze thesis een algoritme voorgesteld dat gebruik maakt van de ware humanoid. Dit in plaats van een computermodel.
Figuur SEQ Figuur \* ARABIC 5: Een aantal referentiemondvormen die worden gebruikt in de nieuwe voorgesteld calibratiemethode
Een nieuwe aanpak
De techniek die wordt voorgesteld werd getest op spraakcalibratie. Een aantal mondvormen worden weergegeven in figuur 5.
Deze mondvormen tracht men na te bootsen met de humanoid, die gecalibreerd dient te worden. Om de werking aan te tonen werd een opstelling opgebouwd (zie figuur 6).
Figuur SEQ Figuur \* ARABIC 6: De opstelling dat werd gebruikt om de nieuwe calibratiemethode te testen
Deze opstelling omvat een modulair actuatie mechanisme dat een 3D-geprinte mond kan aansturen door touwtjes aan te trekken via een set servomotoren. Op de mond worden een aantal punten aangeduid. Hiermee wordt de complete vorm op een compacte manier weergegeven.
Dezelfde punten worden aangeduid op de referentie figuren uit figuur 5, op een goed gedefinieerde, automatische manier (zie fig. 6).
Figuur SEQ Figuur \* ARABIC 7: De referentiepunten op een referentiemond (links) en diezelfde punten die worden afgebeeld op de echte mond (rechts).
Nu al deze punten gekend zijn, op de humanoid en de referentiemonden, kan het algoritme in werking treden.
Door wiskundige transformaties is het mogelijk om beide monden te vergelijken en de verschillen aan te duiden (door een set van pijlen). Die pijlen geven dan aan of de touwen die de mond aansturen meer moeten trekken, lossen of goed ingesteld zijn. Deze aanpak wordt iteratief uitgevoerd, tot de methode convergeert. Dit wil zeggen dat beide monden zo goed mogelijk op elkaar gelijken. Het iteratief programma dat werd gebruikt wordt afgebeeld in figuur 8.
Figuur SEQ Figuur \* ARABIC 8: Een afbeelding van de calibratiesoftware dat werd ontworpen
De calibratie duurde een uur (voor een totaal van 52 afbeeldingen), wat aanzienlijk korter is dan een manuele calibratie. Een paar van de resultaten van deze calibraties staan afgebeeld in figuur 9.
Figuur SEQ Figuur \* ARABIC 9: Een paar calibratieresultaten dat werden bereikt met de zelfgeschreven calibratiemethode
Figuur SEQ Figuur \* ARABIC 10: Een zin wordt in verschillende onderdelen opgesplitst, waarbij elk onderdeel bij een welbepaalde mondvorm hoort.
Resultaten
Om de calibratieresultaten en de kracht van de methode mooi in kaart te brengen, is een text-to-robot pakket ontwikkeld dat ons in staat stelt om ingesproken zinnen vanop de computer synchroon uit te spreken. Hiervoor werden de ingesproken zinnen in stukken geknipt zoals te zien is in figuur 10.
Deze stukken krijgen een bepaalde mondvorm toegekend die op het juiste moment worden uitgevoerd. Om een vloeiende spraak te garanderen wordt er geïnterpoleerd tussen de configuraties van elke mondvorm die nodig zijn om een complete zin uit te spreken, zoals in figuur 11. Hier wordt een bepaalde motorconfiguratie afgebeeld dat in de tijd verandert om de zin uit figuur 10 uit te spreken.
Figuur SEQ Figuur \* ARABIC 11: Een voorbeeld van hoe het text-to-robot motorconfiguraties interpoleert om vloeiende spraak te garanderen.
Conclusie
De voorgestelde techniek werkt en heeft veel potentieel om in toekomstige humanoid calibratie gebruikt te worden. De aanpak werd enkel getest voor spraakcalibratie maar kan zeker worden toegepast voor emotiecalibratie.
Mogelijke verdere informatie en filmpjes van het resultaat kunnen verkregen worden bij de auteur op het volgende e-mail adres:
2BrothersHobby. (2016). Servo anatomy. Retrieved from http://2bfly.com/
knowledgebase/radio-systems/servos/servo-anatomy/
Allison, B. (2009). Design of an Expressive Human-Like Robotic Head for and Assistive
Robot.
Asheber, W. T., Lin, C., & Yen, S. H. (2015). Humanoid Head Face Mechanism with
Expandable Facial Expressions.
doi: 10.5772/62181
Baldrighi, E., Thayer, N., Stevens, M., Echols, S. R., & Priya, S. (2014). Design and
Implementation of the Bio-inspired Facial Expressions for Medical Mannequin. , 555–
574. doi: 10.1007/s12369-014-0240-4
Bartneck, C., & Forlizzi, J. (2004). A design-centred framework for social human-robot
interaction. In Proceedings of the 13th ieee international workshop on robot and human
interactive communication (pp. 31–33).
Bates, J. (1994). The role of emotion in believable agents. Communications of the ACM,
37(7), 122–125. doi: 10.1145/176789.176803
Bickel, B., Kaufmann, P., Skouras, M., Thomaszewski, B., Bradley, D., Beeler, T., . . . Gross,
M. (2012). Physical face cloning. ACM Transactions on Graphics (TOG), 31(4), 118.
Breazeal, C. (2000). Believability and readability of robot faces. In Proceedings of the 8th
international symposium on intelligent robotic systems (sirs 2000) (pp. 247–256).
Cabibihan, J. J., Javed, H., Ang, M., & Aljunied, S. M. (2013). Why Robots? A Survey
on the Roles and Benefits of Social Robots in the Therapy of Children with Autism.
International Journal of Social Robotics, 5(4), 593–618. doi: 10.1007/s12369-013-0202
-2
Craig, J. J. (2004). Introduction to Robotics: Mechanics and Control (3rd Edition). , 212–
215.
Demuynck, K., Roelens, J., Van Compernolle, D., & Wambacq, P. (2008). SPRAAK, an
open source speech recognition and automatic annotation kit. Brisbane, Australia.
DiSalvo, C. F., Gemperle, F., Forlizzi, J., & Kiesler, S. (2002). All robots are not created
equal: the design and perception of humanoid robot heads. Conference on Designing
interactive systems processes practices methods and techniques, pages, 321–326. Retrieved
from http://portal.acm.org/citation.cfm?doid=778712.778756 doi:
10.1145/778712.778756
Eckman, P. (1972). Universal and cultural differences in facial expression of emotion. In
Nebraska symposium on motivation (Vol. 19, pp. 207–284).
67
Ellis, D. P. W. (2002). A phase vocoder in Matlab. Retrieved from http://www.ee.columbia
.edu/~dpwe/resources/matlab/pvoc/ (Web resource)
Flanagan, J. L., & Golden, R. (1966). Phase vocoder. Bell System Technical Journal, 45(9),
1493–1509.
Friesen, E., & Ekman, P. (1978). Facial action coding system: A technique for the measurement
of facial movement. Palo Alto.
Hanson Robotics. (n.d.). Hanson breakthroughs, from science to art. Retrieved
from http://www.hansonrobotics.com/hanson-robotics-at-wireds-nextfest
-unveiling-zeno/
Hara, F., Akazawa, H., & Kobayashi, H. (2001). Realistic facial expressions by sma driven
face robot. In Robot and human interactive communication, 2001. proceedings. 10th
ieee international workshop on (pp. 504–511).
Hara, F., & Endo, K. (2000). Dynamic control of lip-configuration of a mouth robot for
Japanese vowels. Robotics and Autonomous Systems, 31, 161–169.
Hashimoto, M., Yokogawa, C., & Sadoyama, T. (2006). Development and Control of a Face
Robot Imitating Human Muscular Structures.
Hashimoto, T., Hiramatsu, S., & Kobayashi, H. (2006). Development of Face Robot for
Emotional Communication between Human and Robot. , 25–30.
Hashimoto, T., Senda, M., Shiiba, T., & Kobayshi, H. (2004). Development of the Interactive
Receptionist System by the Face Robot. , 1404–1408.
Jaeckel, P., Campbell, N., & Melhuish, C. (2008). Facial behaviour mapping â From video
footage to a robot head. , 56(12), 1042–1049. Retrieved from http://dx.doi.org/
10.1016/j.robot.2008.09.002 doi: 10.1016/j.robot.2008.09.002
Kobayashi, H., Ichikawa, Y., Senda, M., & Shiiba, T. (2002). Toward rich facial expression
by face robot. In Micromechatronics and human science, 2002. mhs 2002. proceedings
of 2002 international symposium on (pp. 139–145).
Lin, C., Cheng, L., & Huang, C. (2012). Visualization of Facial Expression Deformation
Applied to the Mechanism Improvement of Face Robot.
doi: 10.1007/s12369-012-0168-5
Lin, C., Cheng, L., & Shen, L. (2013). Oral Mechanism Design on Face Robot for Lip-
Synchronized Speech. , 4316–4321.
Lin, C., Cheng, L., Tseng, C., Gu, H., Chung, K., Fahn, C., . . . Chang, C. (2011). A
face robot for autonomous simplified musical notation reading and singing. Robotics
and Autonomous Systems, 59(11), 943–953. Retrieved from http://dx.doi.org/
10.1016/j.robot.2011.07.001 doi: 10.1016/j.robot.2011.07.001
Lin, C., Huang, C., & Cheng, L. (2011). A Small Number Actuator Mechanism Design for
Anthropomorphic Face Robot.
Lin, C., & Huang, H. (2009). Design of a Face Robot with Facial Expression.
Loza, D., Marcos, S., Zalama, E., & Jaime, G. (2013). Application of the FACS in the Design
and Construction of a Mechatronic Head with Realistic Appearance. , 7(1), 31–38.
Lütkebohle, I., Hegel, F., Schulz, S., Hackel, M., Wrede, B., Wachsmuth, S., & Sagerer,
G. (2010). The Bielefeld anthropomorphic robot head "Flobi". Proceedings - IEEE
International Conference on Robotics and Automation, 3384–3391. doi: 10.1109/
68
ROBOT.2010.5509173
Lutz, W., Sanderson, W., & Scherbov, S. (2008). The coming acceleration of global population
ageing. Nature, 451(7179), 716–719.
Matsumoto, D., & Ekman, P. (2008). Facial expression analysis. Scholarpedia, 3(5), 4237.
Mattheyses, W. (2013). A multimodal approach to audiovisual text-to-speech synthesis
(Unpublished doctoral dissertation). Vrije Universiteit Brussel.
Mattheyses, W., Latacz, L., & Verhelst, W. (2011). Auditory and photo-realistic audiovisual
speech synthesis for dutch. In Avsp (pp. 55–60).
McGurk, H., & MacDonald, J. (1976). Hearing lips and seeing voices. Nature, 264, 746–748.
Mehrabian, A. (1971). Silent messages.
Mertens, P., & Vercammen, F. (1997). Fonilex manual.
Mori, M., MacDorman, K. F., & Kageki, N. (2012). The uncanny valley [from the field].
Robotics & Automation Magazine, IEEE, 19(2), 98–100.
Nourbakhsh, I. R., Bobenage, J., Grange, S., Lutz, R., Meyer, R., & Soto, A. (1999). An
affective mobile robot educator with a full-time job. Artificial Intelligence, 114(1),
95–124.
Nowak, K. L., & Rauh, C. (2008). Choose your âbuddy iconâ carefully: The influence of
avatar androgyny, anthropomorphism and credibility in online interactions. Computers
in Human Behavior, 24(4), 1473–1493.
Oh, J.-H., Hanson, D., Kim, W.-S., Han, I. Y., Kim, J.-Y., & Park, I.-W. (2006). Design
of android type humanoid robot albert hubo. In Intelligent robots and systems, 2006
ieee/rsj international conference on (pp. 1428–1433).
Ohala, J. J. (1993). Coarticulation and phonology. Language and speech, 36(2-3), 155–170.
Personal Robots Group. (2015). Nexi. Retrieved from http://robotic.media.mit.edu/
portfolio/nexi/
Putz, R., & Pabst, R. (2009). Sobotta Atlas of Human Anatomy, Tables of Muscles, Joints
and Nerves (14th ed.). Elsevier.
Qingmei, M., Weiguo, W., Yusheng, Z., & Ce, S. (2008). Research and Experiment of Lip
Coordination with Speech for the Humanoid Head Robot-"H&Frobot-III. , 603–608.
Sakamoto, S., Hasegawa, G., Ohtani, T., Suzuki, Y., Abe, T., & Kawase, T. (2014).
Contribution of the detailed parts around a talker’s mouth for speech intelligibility.
21st International Congress on Sound and Vibration 2014, ICSV 2014, 3, 2553–
2559. Retrieved from http://www.scopus.com/inward/record.url?eid=2-s2.0
-84922612433{&}partnerID=tZOtx3y1
Saldien, J., Goris, K., Vanderborght, B., Vanderfaeillie, J., & Lefeber, D. (2010). Expressing
Emotions with the Social Robot Probo. International Journal of Social Robotics, 2(4),
377–389. Retrieved from http://link.springer.com/10.1007/s12369-010-0067
-6 doi: 10.1007/s12369-010-0067-6
Sumby, W. H., & Pollack, I. (1954). Visual contribution to speech intelligibility in noise. The
journal of the acoustical society of america, 26(2), 212–215.
Tadesse, Y., Hong, D., & Priya, S. (2011). Twelve Degree of Freedom Baby Humanoid Head
Using Shape Memory Alloy Actuators. , 3(February), 1–18. doi: 10.1115/1.4003005
Thayer, N. D. (2011). Towards a Human-like Robot for Medical Simulation.
69
van Son, T. M. I. B. A. J. S. G. F., Nic; Huiskamp. (1994). Viseme classifications of Dutch
consonants and vowels.
doi: 10.1121/1.411324
Waters, K. (1987). A muscle model for animation three-dimensional facial expression. In
Acm siggraph computer graphics (Vol. 21, pp. 17–24).
Weiguo, W., Qingmei, M., & Yu, W. (2004). Development of the humanoid head portrait
robot system with flexible face and expression. , 757–762.
Werry, I., Dautenhahn, K., Ogden, B., & Harwin, W. (2001). Can Social Interaction Skills
Be Taught by a Social Agent? The Role of a Robotic Mediator in Autism Therapy.
Wilkes, D. M., Alford, A., Pack, R. T., Rogers, T., Peters, R., & Kawamura, K. (1998).
Toward socially intelligent service robots. Applied Artificial Intelligence, 12(7-8), 729–
766.
Zhang, L. (2008). Active image labeling and its applications in action unit labeling.
Retrieved from https://www.ecse.rpi.edu/homepages/cvrl/lei/research
_activelabeling.htm