Omgevingsreconstructie met akoestische signalen

Brecht Milis Jelle Vanolst
Persbericht

Omgevingsreconstructie met akoestische signalen

Kunnen we zien met onze oren?

Inleiding

Weerkaatsingen van geluid kunnen ons informatie geven over de ruimte waarin we ons bevinden. In dit werk werd onderzocht, of het mogelijk is om enkel op basis van geluid een 3D-model te vormen van een kamer. Onderzoek naar dit topic is actueel, eerste publicaties zijn pas in 2010 verschenen. Ook heeft recent een bijdrage hiertoe de ‘Best Paper Award’ in ontvangst mogen nemen[1]. Naast een 3D-model van de kamer, willen we ook weten waar een object of persoon erin zich bevindt. Dit opnieuw enkel op basis van geluidsgolven. Eender welke geluidsbron in de kamer is hiervoor voldoende. Het hoeft dus niet de persoon zelf te zijn die geluid maakt, het kan bijvoorbeeld een ultrasone zender zijn (dus voor de mens onhoorbaar geluid) die in de kamer geplaatst is. Om een persoon of object te lokaliseren wordt een nieuwe methode voorgesteld. Ons onderzoek kan verschillende toepassingen hebben, bijvoorbeeld in de wereld van beveiliging, videogames, 3D-audio, enz. 

Reconstructie van een kamer via geluid: een nieuw concept?

Het gebruik van geluidsgolven om te kunnen ‘zien’ wordt reeds lang gebruikt, bijvoorbeeld bij sonar als onderwatercamera. Het principe is als volgt: de sonar stuurt een geluidsgolf uit, deze wordt weerkaatst (door de zeebodem of een object onder water) en via microfoons weer opgevangen. De tijd tussen uitsturen en aankomen van geluidsgolf is een maat voor de afstand tot het object. Ook in de natuur wordt dit principe gebruikt. Vleermuizen bijvoorbeeld gebruiken ultrasoon geluid bij het navigeren en het jagen, opnieuw wordt de afstand tot objecten of prooien geschat via weerkaatsing. Wanneer men echter een gesloten ruimte wil modelleren, wordt het probleem complexer. Geluidsgolven worden door objecten in de ruimte en de wanden van de ruimte veelvuldig gereflecteerd. Dit leidt na verloop van tijd tot een grote dichtheid aan gereflecteerde golven die kriskras doorheen de ruimte propageren. 

Beschrijving van de gebruikte methode

In het eerste deel van ons onderzoek concentreren we ons op het vinden van de vorm van een kamer via geluid, in 3D houdt dit in dat we een balkvormig model zoeken van de kamer. De moeilijkheid schuilt er in dat we van alle wanden van de kamer tegelijk de positie willen weten. We moeten 360° rondom kunnen ‘kijken’, in tegenstelling tot vb. onderwatersonar waar gericht wordt naar de bodem. De methode die we gebruiken vertrekt van de impulsresponsie van een kamer (Room Impulse Response of RIR). De RIR is een grafiek die weergeeft op welke tijdstippen geluidsgolven aankomen bij een bepaalde ontvanger (vb. microfoon of menselijk gehoor), met daarbij hun energie.Er zijn in de literatuur reeds methodes uitgewerkt om via RIR’s de geometrie van een kamer te verkrijgen. Meestal zijn deze echter beperkt tot 2D-reconstructie, ons onderzoek richt zich op 3D-reconstructie. Ook wordt meestal verondersteld dat de RIR’s reeds gekend zijn. Wij vertrekken niet van de RIR’s, maar van geluidssignalen die we opnemen met microfoons. Deze microfoons kunnen dan het gehoor van een persoon nabootsen, maar het kan ook algemener, wat ook het voordeel is van de methode. In feite kunnen de microfoons willekeurig verspreid staan doorheen de kamer. Het kunnen bijvoorbeeld microfoons zijn van GSM’s van meerdere personen in een kamer. Op deze manier zou men een spionagetoepassing kunnen bedenken, zoals degene die Batman gebruikt in de film The Dark Knight. De locatie van een persoon (The Joker in de film) in een kamer en een 3D-model van deze kamer kan men dan vinden enkel gebruikmakende van geluid en microfoons. 

Hoe vinden we de RIR’s?

Om de RIR’s te zoeken bekijken we twee scenario’s. Het eerste is blinde schatting: we weten niet welke geluidsignalen aanwezig zijn in de kamer of waar de bron ervan zich bevindt. We kunnen enkel de geluidssignalen opmeten met microfoons. We veronderstellen hier wel dat alle signalen van dezelfde geluidsbron komen. Het is op basis van deze veronderstelling dat we de RIR’s kunnen schatten. Een tweede aanpak verondersteld dat we weten welk signaal wordt uitgezonden, wat het zoeken van de RIR’s sterk vereenvoudigt. Er kan bijvoorbeeld een zender aanwezig zijn in de kamer zoals ook in de inleiding aangehaald. 

Van de RIR’s naar een kamermodel

We gebruiken drie zaken om het 3D-model van de kamer te zoeken: de positie van de geluidsbron, de posities van de microfoons en tenslotte de tijdstippen waarop geluidsgolven die slechts één reflectie ondergaan met een kamerwand aankomen op de microfoons. Deze laatste halen we uit de RIR’s als tijdstippen waarop golven met de hoogste energie aankomen (op de energie van de golf die geen weerkaatsing ondergaat na). De redenering hiervoor is dat bij een reflectie de golf telkens energie verliest aan het oppervlak waardoor ze gereflecteerd wordt, hoe meer reflecties hoe zwakker de golf dus. Via de aankomststijden van de golven weten we voor elke microfoon hoe lang het totale pad is van bron tot wand en van wand weer tot microfoon. We weten daarmee echter niet waar deze wand zich bevindt, enkel de totale tijd dat de golf er over doet om dit pad af te leggen. Ook zien we in de RIR enkel de tijden dat golven aankomen, we weten niet welke golf van waar komt, en dus niet met welke wand de reflectie gebeurd is. Wat we wel weten is de verzameling van alle mogelijke locaties waarop zulke wand kan liggen. Deze kan je voorstellen als 3D-oppvervlaktes in de vorm van rugbyballen. Zoals in de scriptie wordt uitgewerkt, zijn de gezochte kamerwanden in feite niets anders dan raakvlakken aan deze rugbyballen. Omdat we de bronpositie ongekend veronderstellen, moeten we deze ook eerst bepalen. Dit doen we via de aankomsttijden van golven die geen reflecties ondergaan. Voor details hiervan verwijzen we naar de scriptie. 

Objectlokalisatie via geluid

Hier gebruiken we een gelijkaardige techniek als het zoeken naar het 3D-model van de kamer. Opnieuw zoeken we eerst aankomsttijden op de microfoons van golven die gereflecteerd worden door het object. Dit doen we door RIR’s te vergelijken van de kamer met object en zonder het object. Indien we een extra golf zien opduiken bij de RIR van de kamer met object, kunnen we aannemen dat deze door het object gereflecteerd werd. Elk zulke golf wordt nu door hetzelfde object gereflecteerd, gesteld dat er slechts één aanwezig is. Opnieuw kunnen we nu onze rugbyballen gaan tekenen. Maar omdat nu elke rugbybal hetzelfde object raakt, gaan deze elkaar snijden rond de locatie van het object. Dit is de manier waarop we deze locatie schatten. 

Besluit

Het is dus mogelijk om via geluid een kamer te modeleren en te weten waar een persoon erin zich bevindt. Dit kan gebruikt worden in toepassingen om een persoon te volgen, zoals games of bewaking. Maar bv. ook om echo’s die ontstaan door de kamer beter te onderdrukken bij het Skypen, tal van toepassingen zijn mogelijk.[1] Dokmanic, Y.M. Lu and M. Vetterli, “Can one hear the shape of a room: the 2D-polygonal case”

Bibliografie
  • [1] Sonar. [Online]. Available: http://en.wikipedia.org/wiki/Sonar
  • [2] J. L. Sutton, “Underwater acoustic imaging,” Proc. IEEE, vol. 67, pp. 554–566,Apr. 1979.
  • [3] N. Brahim, D. Guériot, S. Daniel, and B. Solaiman, “3D reconstruction of underwater scenes using image sequences from acoustic camera,” in IEEEOCEANS 2010, May 2010.
  • [4] D. Ba, F. Ribeiro, C. Zhang, and D. Florêncio, “L1 regularized room modeling with compact microphone arrays,” in IEEE International Conference onAcoustics, Speech and Signal Processing (ICASSP), 2010.
  • [5] A. M. O’Donovan, D. N. Zotkin, and R. Duraiswami, “Spherical microphone array based immersive audio scene rendering,” in Proceedings of the 14th InternationalConference on Auditory Display, Jun. 2008.
  • [6] acoustic camera. [Online]. Available: http://www.acoustic-camera.com
  • [7] A. O’Donovan, R. Duraiswami, and D. Zotkin, “Imaging concert hall acoustics using visual and audio cameras,” in IEEE International Conference on Acoustics,Speech and Signal Processing (ICASSP), 2008.
  • [8] F. Antonacci, A. Sarti, and S. Tubaro, “Geometric reconstruction of the environment from its response to multiple acoustic emissions,” in Acoustics Speechand Signal Processing (ICASSP), Mar. 2010.
  • [9] I. Dokmanic, Y. M. Lu, and M. Vetterli, “Can one hear the shape of a room: The 2D-polygonal csase,” in International Conference on Acoustics, Speech andSignal Processing (ICASSP), May 2011.
  • [10] W. G. Gardner, “3D audio and acoustic environment modeling,” Wave Arts inc., 99 Massachusetts Avenue, Suite 7, Arlington, MA 02474, Tech. Rep., 1999.
  • [11] F. Ribeiro, D. Ba, C. Zhang, and D. Florêncio, “Turning enemies into friends: Using reflections to improve sound source localization,” in IEEE InternationalConference on Multimedia and Expo (ICME), Jul. 2010.
  • [12] Xbox - kinect. [Online]. Available: http://www.xbox.com/nl-NL/Kinect/Home
  • [13] A. Canclini, P. Annibale, F. Antonacci, A. Sarti, R. Rabenstein, and S. Tubaro, “From direction of arrival estimates to localization of planar reflectors in a two dimensional geometry,” in IEEE International Conference on Acoustics, Speechand Signal Processing (ICASSP), Jan. 2011.
  • [14] E. Mabande, H. Sun, K. Kowalczyk, and W. Kellermann, “On 2D localization of reflectors using robust beamforming techniques,” in IEEE InternationalConference on Acoustics, Speech and Signal Processing (ICASSP), May 2011.
  • [15] S. S. Haykin and B. Widrow, Least-Mean-Square Adaptive Filters. New York, USA: Wiley, 2003.
  • [16] J. Chen, J. Benesty, and Y. Huang, “Time delay estimation in room acoustic environments: An overview,” EURASIP Journal on Applied Signal Processing, vol. 2006, pp. 1–19, 2006.
  • [17] G. Xu, H. Lui, L. Tong, and T. Kailath, “A least squares approach to blind channel identification,” IEEE Trans. Acoust., Speech, Signal Process., vol. 43, pp. 2982–2993, Dec. 1995.
  • [18] P. A. Naylor and N. D. Gaubitch, Speech Dereverberation, 1st ed. London, GB: Springer Verlag, 2010, pp. 129–143.
  • [19] J. Benesty, “Adaptive eigenvalue decomposition algorithm for passive acoustic source localization,” Acoustical Society of America, vol. 107, pp. 384–391, Jan. 2000.
  • [20] J. Filos, E. A. Habets, and P. A. Naylor, “A two-step approach to blindly infer room geometries,” in Proc. of the International Workshop on Acoustic Echo andNoise Control (IWAENC), Aug. 2010.
  • [21] J. O. Smith and J. S. Abel, “Closed-form least-squares source location estimation from range-difference measurements,” IEEE Trans. Acoust., Speech, SignalProcess., vol. 35, pp. 1661–1669, Dec. 1987.
  • [22] J. B. Allen and D. A. Berkley, “Image method for efficiently simulating smallroom acoustics,” JASA, vol. 65, pp. 943–950, Apr. 1979.
  • [23] Acoustics: The speed and attenuation of sound. [Online]. Available: http://www.kayelaby.npl.co.uk/general_physics/2_4/2_4_1.html
  • [24] Absorption coefficient chart. [Online]. Available: http://www.sae.edu/reference_material/pages/CoefficientChart.htm
  • [25] R. Hartley and A. Zisserman, Multiple View Geometry in Computer Vision, 2nd ed. Cambridge University Press, ISBN: 0521540518, 2004.
  • [26] D. Abermy, “Intersection of ellipses,” Geometric Tools, LCC, http://www.geometrictools.com/, Tech. Rep., 2010.
Universiteit of Hogeschool
Master in de ingenieurswetenschappen: Elektrotechniek
Publicatiejaar
2011
Kernwoorden
Share this on: