De humanoid: van statisch naar dynamisch

Gabriël
Van De Velde

De humanoid: van statisch naar dynamisch

Ooit al een humanoid van dichtbij gezien? Had je er geen afkeer van? Sterk!

Robots worden vandaag de dag meer en meer gebruikt om te communiceren met de mens. Om de kwaliteit van de communicatie te verhogen zijn expressieve features voorhanden die goed moeten worden aangestuurd.

 

Probleemschetsing

Het is niet eenvoudig om een realistische robot te ontwerpen, vooral in het geval van een mensreplica. Kijk maar naar de wassen beelden van Madame Tussauds (fig. 1). Dit zijn zeer realistische poppen die statisch worden opgesteld. Jaren onderzoek hebben ertoe geleid om op de mens lijkende robots, zogenaamde humanoids, te ontwerpen die gelijken op de mens, die emoties en/of kunnen nabootsen.

Afbeelding verwijderd.

Figuur  SEQ Figuur \* ARABIC 1: Een wassen beeld van de  wereldberoemde George Clooney

Gewoon een humanoid bouwen, is niet genoeg. Een humanoid kan enkel overtuigend overkomen als deze zich ook realistisch gedraagt. Vandaag de dag is dit ook de grootste uitdaging, de opdracht van de robotbouwers is pas voltooid indien ze er in slagen een robot te bouwen en aan te sturen die geen afkeergevoel opwekt bij de mens. Dit fenomeen staat bekend als het Uncanney Valley effect en wordt het meest ervaren bij robotreplica’s van dieren en mensen. Kijk maar naar een slecht opgezette kat en de dinosaurus op figuur 2.

Afbeelding verwijderd.  Afbeelding verwijderd.

Figuur  SEQ Figuur \* ARABIC 2: Een slecht opgezette kat en een dinosaurus. De kat wekt afweer op door zijn afwijkende snoet, terwijl de dinosaurus geen afweer wekt.

De kat wekt enige afkeer op terwijl dit niet of minder het geval is bij de bewegende dinosaurus. De opgezette kat kunnen we vergelijken met een echte levende kat, terwijl dit niet het geval is bij de dinosaurus. Dit effect is nog erger bij humanoids, gezien afwijkingen in hun bewegingen en gedrag meteen worden opgemerkt. Deze afwijkingen spelen een zeer belangrijke rol, zoals aangegeven op de grafiek in figuur 3.  

Op deze grafiek kan dit effect duidelijk worden gezien, zo wekt een zombie nog meer afkeer op dan een opgebaard lijk. Hetzelfde fenomeen is ook zichtbaar wanneer mensen flauwvallen, bij zichtbare breuken of zich ongemakkelijk voelen bij onnatuurlijke houdingen en bewegingen.

Afbeelding verwijderd.

Figuur  SEQ Figuur \* ARABIC 3: Op deze grafiek wordt het zogenaamde Uncanney Valley effect afgebeeld. Dit fenomeen wordt versterkt bij beweging en gedrag.

Klassieke aanpak

Om dit afweermechanisme te ontwijken trachten de ontwikkelaars hun humanoids zo goed mogelijk aan te sturen en dit is net waar de voorgestelde thesis om draait.

Vandaag de dag gebeurt zo een calibratie vaak manueel, zowel voor spraak als emotie. Elke actuator wordt dan iteratief ingesteld om een realistisch en niet afkeerwekkend resultaat te bekomen. Het effect van een niet-ideale calibratie kan gezien worden in figuur 4.

Afbeelding verwijderd.

Figuur  SEQ Figuur \* ARABIC 4: Een niet-ideale calibratie van een humanoid die afkeer opwekt. De afgebeelde emotie is angst.

Een manuele calibratie duurt lang en is zeer kostelijk. Bij elke aanpassing moet deze dan ook opnieuw gebeuren. Daarom wordt er gereikt naar andere oplossingen. Deze alternatieven maken gebruik van complexe computermodellen. Hiermee trachten ze voor elke emotie of mondvorm de configuratie voor elke actuator te bepalen. Deze methodes hangen echter af van de kwaliteit van het gebruikte computermodel. Deze modellen geven echter maar een benaderend resultaat waardoor een verdere manuele calibratie noodzakelijk is.

Om dit probleem op te lossen, wordt er in deze thesis een algoritme voorgesteld dat gebruik maakt van de ware humanoid. Dit in plaats van een computermodel.

Afbeelding verwijderd.

Figuur  SEQ Figuur \* ARABIC 5: Een aantal referentiemondvormen die worden gebruikt in de nieuwe voorgesteld calibratiemethode

Een nieuwe aanpak

De techniek die wordt voorgesteld werd getest op spraakcalibratie. Een aantal mondvormen worden weergegeven in figuur 5.

Deze mondvormen tracht men na te bootsen met de humanoid, die gecalibreerd dient te worden. Om de werking aan te tonen werd een opstelling opgebouwd (zie figuur 6).

Afbeelding verwijderd.  Afbeelding verwijderd.  Afbeelding verwijderd.

Figuur  SEQ Figuur \* ARABIC 6: De opstelling dat werd gebruikt om de nieuwe calibratiemethode te testen

Deze opstelling omvat een modulair actuatie mechanisme dat een 3D-geprinte mond kan aansturen door touwtjes aan te trekken via een set servomotoren. Op de mond worden een aantal punten aangeduid. Hiermee wordt de complete vorm op een compacte manier weergegeven.

Dezelfde punten worden aangeduid op de referentie figuren uit figuur 5, op een goed gedefinieerde, automatische manier (zie fig. 6).

Afbeelding verwijderd.  Afbeelding verwijderd.

Figuur  SEQ Figuur \* ARABIC 7: De referentiepunten op een referentiemond (links) en diezelfde punten die worden afgebeeld op de echte mond (rechts).

Nu al deze punten gekend zijn, op de humanoid en de referentiemonden, kan het algoritme in werking treden.

Door wiskundige transformaties is het mogelijk om beide monden te vergelijken en de verschillen aan te duiden (door een set van pijlen). Die pijlen geven dan aan of de touwen die de mond aansturen meer moeten trekken, lossen of goed ingesteld zijn. Deze aanpak wordt iteratief uitgevoerd, tot de methode convergeert. Dit wil zeggen dat beide monden zo goed mogelijk op elkaar gelijken. Het iteratief programma dat werd gebruikt wordt afgebeeld in figuur 8.

Afbeelding verwijderd.

Figuur  SEQ Figuur \* ARABIC 8: Een afbeelding van de calibratiesoftware dat werd ontworpen

De calibratie duurde een uur (voor een totaal van 52 afbeeldingen), wat aanzienlijk korter is dan een manuele calibratie. Een paar van de resultaten van deze calibraties staan afgebeeld in figuur 9.

Afbeelding verwijderd.

Afbeelding verwijderd.

Figuur  SEQ Figuur \* ARABIC 9: Een paar calibratieresultaten dat werden bereikt met de zelfgeschreven calibratiemethode

Afbeelding verwijderd.

Figuur  SEQ Figuur \* ARABIC 10: Een zin wordt in verschillende onderdelen opgesplitst, waarbij elk onderdeel bij een welbepaalde mondvorm hoort.

Resultaten

Om de calibratieresultaten en de kracht van de methode mooi in kaart te brengen, is een text-to-robot pakket ontwikkeld dat ons in staat stelt om ingesproken zinnen vanop de computer synchroon uit te spreken. Hiervoor werden de ingesproken zinnen in stukken geknipt zoals te zien is in figuur 10.

 

Deze stukken krijgen een bepaalde mondvorm toegekend die op het juiste moment worden uitgevoerd. Om een vloeiende spraak te garanderen wordt er geïnterpoleerd tussen de configuraties van elke mondvorm die nodig zijn om een complete zin uit te spreken, zoals in figuur 11. Hier wordt een bepaalde motorconfiguratie afgebeeld dat in de tijd verandert om de zin uit figuur 10 uit te spreken.

Afbeelding verwijderd.

Figuur  SEQ Figuur \* ARABIC 11: Een voorbeeld van hoe het text-to-robot motorconfiguraties interpoleert om vloeiende spraak te garanderen.

 

Conclusie

De voorgestelde techniek werkt en heeft veel potentieel om in toekomstige humanoid calibratie gebruikt te worden. De aanpak werd enkel getest voor spraakcalibratie maar kan zeker worden toegepast voor emotiecalibratie.

Mogelijke verdere informatie en filmpjes van het resultaat kunnen verkregen worden bij de auteur op het volgende e-mail adres:

gavdevel@vub.ac.be

Bibliografie

2BrothersHobby. (2016). Servo anatomy. Retrieved from http://2bfly.com/

knowledgebase/radio-systems/servos/servo-anatomy/

Allison, B. (2009). Design of an Expressive Human-Like Robotic Head for and Assistive

Robot.

Asheber, W. T., Lin, C., & Yen, S. H. (2015). Humanoid Head Face Mechanism with

Expandable Facial Expressions.

doi: 10.5772/62181

Baldrighi, E., Thayer, N., Stevens, M., Echols, S. R., & Priya, S. (2014). Design and

Implementation of the Bio-inspired Facial Expressions for Medical Mannequin. , 555–

574. doi: 10.1007/s12369-014-0240-4

Bartneck, C., & Forlizzi, J. (2004). A design-centred framework for social human-robot

interaction. In Proceedings of the 13th ieee international workshop on robot and human

interactive communication (pp. 31–33).

Bates, J. (1994). The role of emotion in believable agents. Communications of the ACM,

37(7), 122–125. doi: 10.1145/176789.176803

Bickel, B., Kaufmann, P., Skouras, M., Thomaszewski, B., Bradley, D., Beeler, T., . . . Gross,

M. (2012). Physical face cloning. ACM Transactions on Graphics (TOG), 31(4), 118.

Breazeal, C. (2000). Believability and readability of robot faces. In Proceedings of the 8th

international symposium on intelligent robotic systems (sirs 2000) (pp. 247–256).

Cabibihan, J. J., Javed, H., Ang, M., & Aljunied, S. M. (2013). Why Robots? A Survey

on the Roles and Benefits of Social Robots in the Therapy of Children with Autism.

International Journal of Social Robotics, 5(4), 593–618. doi: 10.1007/s12369-013-0202

-2

Craig, J. J. (2004). Introduction to Robotics: Mechanics and Control (3rd Edition). , 212–

215.

Demuynck, K., Roelens, J., Van Compernolle, D., & Wambacq, P. (2008). SPRAAK, an

open source speech recognition and automatic annotation kit. Brisbane, Australia.

DiSalvo, C. F., Gemperle, F., Forlizzi, J., & Kiesler, S. (2002). All robots are not created

equal: the design and perception of humanoid robot heads. Conference on Designing

interactive systems processes practices methods and techniques, pages, 321–326. Retrieved

from http://portal.acm.org/citation.cfm?doid=778712.778756 doi:

10.1145/778712.778756

Eckman, P. (1972). Universal and cultural differences in facial expression of emotion. In

Nebraska symposium on motivation (Vol. 19, pp. 207–284).

67

Ellis, D. P. W. (2002). A phase vocoder in Matlab. Retrieved from http://www.ee.columbia

.edu/~dpwe/resources/matlab/pvoc/ (Web resource)

Flanagan, J. L., & Golden, R. (1966). Phase vocoder. Bell System Technical Journal, 45(9),

1493–1509.

Friesen, E., & Ekman, P. (1978). Facial action coding system: A technique for the measurement

of facial movement. Palo Alto.

Hanson Robotics. (n.d.). Hanson breakthroughs, from science to art. Retrieved

from http://www.hansonrobotics.com/hanson-robotics-at-wireds-nextfest

-unveiling-zeno/

Hara, F., Akazawa, H., & Kobayashi, H. (2001). Realistic facial expressions by sma driven

face robot. In Robot and human interactive communication, 2001. proceedings. 10th

ieee international workshop on (pp. 504–511).

Hara, F., & Endo, K. (2000). Dynamic control of lip-configuration of a mouth robot for

Japanese vowels. Robotics and Autonomous Systems, 31, 161–169.

Hashimoto, M., Yokogawa, C., & Sadoyama, T. (2006). Development and Control of a Face

Robot Imitating Human Muscular Structures.

Hashimoto, T., Hiramatsu, S., & Kobayashi, H. (2006). Development of Face Robot for

Emotional Communication between Human and Robot. , 25–30.

Hashimoto, T., Senda, M., Shiiba, T., & Kobayshi, H. (2004). Development of the Interactive

Receptionist System by the Face Robot. , 1404–1408.

Jaeckel, P., Campbell, N., & Melhuish, C. (2008). Facial behaviour mapping â From video

footage to a robot head. , 56(12), 1042–1049. Retrieved from http://dx.doi.org/

10.1016/j.robot.2008.09.002 doi: 10.1016/j.robot.2008.09.002

Kobayashi, H., Ichikawa, Y., Senda, M., & Shiiba, T. (2002). Toward rich facial expression

by face robot. In Micromechatronics and human science, 2002. mhs 2002. proceedings

of 2002 international symposium on (pp. 139–145).

Lin, C., Cheng, L., & Huang, C. (2012). Visualization of Facial Expression Deformation

Applied to the Mechanism Improvement of Face Robot.

doi: 10.1007/s12369-012-0168-5

Lin, C., Cheng, L., & Shen, L. (2013). Oral Mechanism Design on Face Robot for Lip-

Synchronized Speech. , 4316–4321.

Lin, C., Cheng, L., Tseng, C., Gu, H., Chung, K., Fahn, C., . . . Chang, C. (2011). A

face robot for autonomous simplified musical notation reading and singing. Robotics

and Autonomous Systems, 59(11), 943–953. Retrieved from http://dx.doi.org/

10.1016/j.robot.2011.07.001 doi: 10.1016/j.robot.2011.07.001

Lin, C., Huang, C., & Cheng, L. (2011). A Small Number Actuator Mechanism Design for

Anthropomorphic Face Robot.

Lin, C., & Huang, H. (2009). Design of a Face Robot with Facial Expression.

Loza, D., Marcos, S., Zalama, E., & Jaime, G. (2013). Application of the FACS in the Design

and Construction of a Mechatronic Head with Realistic Appearance. , 7(1), 31–38.

Lütkebohle, I., Hegel, F., Schulz, S., Hackel, M., Wrede, B., Wachsmuth, S., & Sagerer,

G. (2010). The Bielefeld anthropomorphic robot head "Flobi". Proceedings - IEEE

International Conference on Robotics and Automation, 3384–3391. doi: 10.1109/

68

ROBOT.2010.5509173

Lutz, W., Sanderson, W., & Scherbov, S. (2008). The coming acceleration of global population

ageing. Nature, 451(7179), 716–719.

Matsumoto, D., & Ekman, P. (2008). Facial expression analysis. Scholarpedia, 3(5), 4237.

Mattheyses, W. (2013). A multimodal approach to audiovisual text-to-speech synthesis

(Unpublished doctoral dissertation). Vrije Universiteit Brussel.

Mattheyses, W., Latacz, L., & Verhelst, W. (2011). Auditory and photo-realistic audiovisual

speech synthesis for dutch. In Avsp (pp. 55–60).

McGurk, H., & MacDonald, J. (1976). Hearing lips and seeing voices. Nature, 264, 746–748.

Mehrabian, A. (1971). Silent messages.

Mertens, P., & Vercammen, F. (1997). Fonilex manual.

Mori, M., MacDorman, K. F., & Kageki, N. (2012). The uncanny valley [from the field].

Robotics & Automation Magazine, IEEE, 19(2), 98–100.

Nourbakhsh, I. R., Bobenage, J., Grange, S., Lutz, R., Meyer, R., & Soto, A. (1999). An

affective mobile robot educator with a full-time job. Artificial Intelligence, 114(1),

95–124.

Nowak, K. L., & Rauh, C. (2008). Choose your âbuddy iconâ carefully: The influence of

avatar androgyny, anthropomorphism and credibility in online interactions. Computers

in Human Behavior, 24(4), 1473–1493.

Oh, J.-H., Hanson, D., Kim, W.-S., Han, I. Y., Kim, J.-Y., & Park, I.-W. (2006). Design

of android type humanoid robot albert hubo. In Intelligent robots and systems, 2006

ieee/rsj international conference on (pp. 1428–1433).

Ohala, J. J. (1993). Coarticulation and phonology. Language and speech, 36(2-3), 155–170.

Personal Robots Group. (2015). Nexi. Retrieved from http://robotic.media.mit.edu/

portfolio/nexi/

Putz, R., & Pabst, R. (2009). Sobotta Atlas of Human Anatomy, Tables of Muscles, Joints

and Nerves (14th ed.). Elsevier.

Qingmei, M., Weiguo, W., Yusheng, Z., & Ce, S. (2008). Research and Experiment of Lip

Coordination with Speech for the Humanoid Head Robot-"H&Frobot-III. , 603–608.

Sakamoto, S., Hasegawa, G., Ohtani, T., Suzuki, Y., Abe, T., & Kawase, T. (2014).

Contribution of the detailed parts around a talker’s mouth for speech intelligibility.

21st International Congress on Sound and Vibration 2014, ICSV 2014, 3, 2553–

2559. Retrieved from http://www.scopus.com/inward/record.url?eid=2-s2.0

-84922612433{&}partnerID=tZOtx3y1

Saldien, J., Goris, K., Vanderborght, B., Vanderfaeillie, J., & Lefeber, D. (2010). Expressing

Emotions with the Social Robot Probo. International Journal of Social Robotics, 2(4),

377–389. Retrieved from http://link.springer.com/10.1007/s12369-010-0067

-6 doi: 10.1007/s12369-010-0067-6

Sumby, W. H., & Pollack, I. (1954). Visual contribution to speech intelligibility in noise. The

journal of the acoustical society of america, 26(2), 212–215.

Tadesse, Y., Hong, D., & Priya, S. (2011). Twelve Degree of Freedom Baby Humanoid Head

Using Shape Memory Alloy Actuators. , 3(February), 1–18. doi: 10.1115/1.4003005

Thayer, N. D. (2011). Towards a Human-like Robot for Medical Simulation.

69

van Son, T. M. I. B. A. J. S. G. F., Nic; Huiskamp. (1994). Viseme classifications of Dutch

consonants and vowels.

doi: 10.1121/1.411324

Waters, K. (1987). A muscle model for animation three-dimensional facial expression. In

Acm siggraph computer graphics (Vol. 21, pp. 17–24).

Weiguo, W., Qingmei, M., & Yu, W. (2004). Development of the humanoid head portrait

robot system with flexible face and expression. , 757–762.

Werry, I., Dautenhahn, K., Ogden, B., & Harwin, W. (2001). Can Social Interaction Skills

Be Taught by a Social Agent? The Role of a Robotic Mediator in Autism Therapy.

Wilkes, D. M., Alford, A., Pack, R. T., Rogers, T., Peters, R., & Kawamura, K. (1998).

Toward socially intelligent service robots. Applied Artificial Intelligence, 12(7-8), 729–

766.

Zhang, L. (2008). Active image labeling and its applications in action unit labeling.

Retrieved from https://www.ecse.rpi.edu/homepages/cvrl/lei/research

_activelabeling.htm

Download scriptie (5.93 MB)
Universiteit of Hogeschool
Vrije Universiteit Brussel
Thesis jaar
2016
Promotor(en)
Bram Vanderborght
Thema('s)