Levensechte foto’s genereren met verfspatten

Bert

Ramlot

Twee schijnbaar dezelfde beelden van een fiets naast elkaar.

Figuur 1: Er is schijnbaar geen verschil te zien tussen de linkse en rechtse foto. Nochtans is de linkse digitale 3D-voorstelling 250 keer groter dan deze rechts.

Je zou het misschien niet denken, maar bovenstaande foto’s van de fiets (figuur 1) zijn niet genomen met een camera. De levensechte beelden zijn gemaakt door een algoritme dat de fiets vanuit elk perspectief kan laten zien, gebaseerd op slechts enkele echte foto's. Om dit te verwezenlijken wordt er een digitale 3D-voorstelling van de fiets en zijn omgeving gemaakt aan de hand van miljoenen kleine verfspatten, ook wel splats genoemd (zie figuur 2). Dit vergt veel opslagruimte, wat een probleem vormt bij praktische toepassingen, bijvoorbeeld bij de online verkoop van de fiets via een 360°-weergave in een browser zoals Chrome. De benodigde opslagruimte kan je verminderen door compressie uit te voeren. Hierbij gooit een computer details weg die het oog minder snel opmerkt, om de bestandsgrootte te drukken. JPEG-afbeeldingen zijn een voorbeeld van zo een gecomprimeerd bestand, maar deze techniek is niet toepasbaar bij onze verfspatten. Verder zorgt compressie voor dubbel zo snelle beeldgeneratie, wat de gebruikerservaring aanzienlijk verbetert.

Wat is Gaussian splatting?

In de wereld van computergrafiek zijn er voortdurend innovaties die onze visuele ervaringen verbeteren. Een intrigerende recente ontwikkeling is Gaussian splatting, een techniek met het potentieel om de manier waarop we beelden genereren en manipuleren radicaal te veranderen. Gaussian splatting construeert 3D-omgevingen aan de hand van kleurrijke 3D-verfspatten met zachte randen die, door te mengen met elkaar, samen rijke en gedetailleerde beelden creëren (zie figuur 2). We spreken van Gaussian splatting omdat de zachte randen van de verfspatten verkregen worden met de hulp van de statistische normale verdeling (ook Gaussverdeling genoemd). Deze verdeling werd ontwikkeld door Carl Friedrich Gauss (1777-1855), een Duitse wiskundige die vooral bekend is vanwege zijn bijdragen aan de statistiek. Zo kennen we zijn Gaussverdeling onder andere als de verdeling van de lichaamslengte binnen de bevolking, en kan deze grafisch herkend worden als een klokkromme.

Illustratie van hoe verfspatten samenwerken om een scene te vormen.

Figuur 2: Weergave van fietszadel via verfspatten.

Hoe tovert Gaussian splatting echte foto’s om tot een digitale 3D-omgeving?

Gaussian splatting vertrekt van een beperkte verzameling van echte foto’s van een object en tovert deze om tot een digitale 3D-omgeving waarin we vrij kunnen rondlopen en kijken. Hierbij zoekt artificiële intelligentie naar de optimale positie, grootte, vorm, kleur en doorschijnbaarheid van elke verfspat. Al deze eigenschappen kunnen sterk verschillen per verfspat. Zo zal een verfspat die deel uitmaakt van het fietszadel minder langwerpig zijn dan die van een spaak van de fiets.

Wanneer gebruiken we Gaussian splatting in het alledaagse leven?

Gaussian splatting is uitermate geschikt voor het maken van een digitale kopie van een plaats of object. Dit kan gebruikt worden in games, maar is ook toepasselijk voor virtuele rondleidingen door een woning of museum via de website van een makelaarskantoor of museum. Wanneer dit bovendien wordt gecombineerd met Virtual of Augmented Reality, kan Gaussian splatting zorgen voor een nog nooit eerder geziene digitale, maar levensechte ervaring.

Hoe werkt mijn compressietechniek?

De compressie van computerbestanden draagt keuzes met zich mee. De computer moet beslissen welke informatie wordt behouden en welke wordt weggegooid. Om de computer te weerhouden van keuzestress heb ik drie compressiestrategieën ontwikkeld.

Ten eerste merkte ik op dat sommige verfspatten veel belangrijker zijn dan andere voor de beeldvorming. Ik heb daarom een algoritme ontwikkeld dat de verfspatten die minder bijdragen aan de beeldvorming, op een strategische wijze verwijdert. Het resultaat hiervan kan je zien in figuur 1 waar het rechtse beeld van de fiets maar 6% van de verfspatten bevat van het linkse beeld.

Ten tweede heb ik mij gericht op de kleur van de verfspatten. Om complexe lichtfenomenen te modelleren, zoals reflectie bij metaal en glas, veranderen de verfspatten van kleur op basis vanaf waar je naar de verfspat kijkt. Het beschrijven van deze variërende kleur kost veel bits en bytes. Ik heb een algoritme ontwikkeld dat een alternatieve, compacte beschrijving geeft die enkel de écht relevante kleurvariaties behoudt. Hierbij wordt rekening gehouden met zowel de relevantie van de verfspatten als vanaf waar deze bekeken worden.

Figuur 3: De eerste pagina van het boek "Meow" van M. E. Owmeow.

Ten slotte merkte ik op dat de eigenschappen van een verfspat (zoals kleur) zeer voorspelbaar zijn. Bijvoorbeeld, verfspatten die dicht bij elkaar liggen hebben de tendens om dezelfde kleur te delen. Hoe helpt deze observatie bij het verkleinen van bestanden? Neem het boek “Meow” (figuur 3) als voorbeeld waarin de nogal beperkte woordenschat zorgt voor een hoge voorspelbaarheid. De zin “Meow meow meow meow.” kan je compacter schrijven als “4 meow.”, wat aanzienlijk minder ruimte inneemt. Een soortgelijke aanpak pas ik toe bij verfspatten. Dit is trouwens hetzelfde idee dat gehanteerd wordt bij het 'zippen' van computerbestanden.

Welke voordelen heeft compressie bij Gaussian splatting?

Compressie bij Gaussian splatting leidt tot kleinere bestanden, waardoor het delen van digitale 3D-voorstellingen heel wat sneller verloopt. Dit is noodzakelijk als je dergelijke voorstellingen wilt streamen, bijvoorbeeld bij een digitaal huisbezoek. Doordat mijn techniek zoveel verfspatten weggooit, is het genereren van beelden bovendien meer dan dubbel zo snel. Voor een real-time ervaring is dit cruciaal om een gebruiksvriendelijke beleving te garanderen. Zo kan het rondlopen in een VR-omgeving met schokkende beelden zorgen voor nefaste effecten zoals hoofdpijn.

Conclusie

Dankzij het behoud van enkel de meest relevante verfspatten, een slimme representatie van variërende kleuren en het benutten van voorspelbaarheid, kunnen we genieten van snelle beeldgeneratie en kleine bestandsgroottes binnen Gaussian splatting. Dit alles zonder te moeten inboeten aan kwaliteit of detail. De snelle beeldgeneratie is essentieel voor een soepele ervaring bij het virtueel verkennen van bijvoorbeeld een woning of museum. In een wereld waarin visuele communicatie steeds belangrijker wordt, is Gaussian splatting een veelbelovende technologische ontwikkeling die ons helpt de digitale wereld levensecht te maken. Met mijn compressietechniek wordt de weg vrijgemaakt voor kleinere, snellere en levensechte digitale ervaringen in elke huiskamer.

Bibliografie

[1] B. Mildenhall, P. P. Srinivasan, M. Tancik, J. T. Barron, R. Ramamoorthi, and R. Ng, “Nerf: Representing scenes as neural
radiance fields for view synthesis,” in ECCV, 2020.
[2] B. Kerbl, G. Kopanas, T. Leimkühler, and G. Drettakis, “3d gaussian splatting for real-time radiance field rendering,” ACM
Transactions on Graphics, vol. 42, no. 4, July 2023. [Online]. Available: https://repo-sam.inria.fr/fungraph/3d-gaussiansplatting/
[3] J. T. Barron, B. Mildenhall, M. Tancik, P. Hedman, R. Martin-Brualla, and P. P. Srinivasan, “Mip-nerf: A multiscale representation
for anti-aliasing neural radiance fields,” ICCV, 2021.
[4] J. T. Barron, B. Mildenhall, D. Verbin, P. P. Srinivasan, and P. Hedman, “Mip-nerf 360: Unbounded anti-aliased neural
radiance fields,” CVPR, 2022.
[5] ——, “Zip-nerf: Anti-aliased grid-based neural radiance fields,” ICCV, 2023.
[6] J. C. Lee, D. Rho, X. Sun, J. H. Ko, and E. Park, “Compact 3d gaussian representation for radiance field,” arXiv preprint
arXiv:2311.13681, 2023.
[7] W. Morgenstern, F. Barthel, A. Hilsmann, and P. Eisert, “Compact 3d scene representation via self-organizing gaussian
grids,” 2023.
[8] K. Navaneet, K. P. Meibodi, S. A. Koohpayegani, and H. Pirsiavash, “Compact3d: Compressing gaussian splat radiance
field models with vector quantization,” 2023.
[9] S. Niedermayr, J. Stumpfegger, and R. Westermann, “Compressed 3d gaussian splatting for accelerated novel view synthesis,”
2023.
[10] Z. Fan, K. Wang, K. Wen, Z. Zhu, D. Xu, and Z. Wang, “Lightgaussian: Unbounded 3d gaussian compression with 15x
reduction and 200+ fps,” 2023.
[11] G. Lippmann, “Épreuves réversibles donnant la sensation du relief,” J. Phys. Theor. Appl., vol. 7, no. 1, pp. 821–825, 1908.
[12] E. H. Adelson and J. R. Bergen, “The plenoptic function and the elements of early vision,” in Computational Models of
Visual Processing. MIT Press, 1991, pp. 3–20.
[13] S. E. Chen and L. Williams, “View interpolation for image synthesis,” in Proceedings of the 20th Annual Conference on
Computer Graphics and Interactive Techniques, ser. SIGGRAPH ’93. New York, NY, USA: Association for Computing
Machinery, 1993, p. 279–288. [Online]. Available: https://doi.org/10.1145/166117.166153
[14] T. Müller, A. Evans, C. Schied, and A. Keller, “Instant neural graphics primitives with a multiresolution hash encoding,”
ACM Trans. Graph., vol. 41, no. 4, pp. 102:1–102:15, Jul. 2022. [Online]. Available: https://doi.org/10.1145/3528223.3530127
[15] W. Hu, Y. Wang, L. Ma, B. Yang, L. Gao, X. Liu, and Y. Ma, “Tri-miprf: Tri-mip representation for efficient anti-aliasing neural
radiance fields,” in ICCV, 2023.
[16] N. Snavely, S. Seitz, and R. Szeliski, “Photo tourism: exploring photo collections in 3d. acm trans graph 25(3):835-846,”
ACM Trans. Graph., vol. 25, pp. 835–846, 07 2006.
56
9 Bibliography
[17] M. Zwicker, H. Pfister, J. van Baar, and M. Gross, “Ewa volume splatting,” in Proceedings Visualization, 2001. VIS ’01., 2001,
pp. 29–538.
[18] R. Verhack, T. Sikora, G. Van Wallendael, and P. Lambert, “Steered mixture-of-experts for light field images and video:
Representation and coding,” IEEE Transactions on Multimedia, vol. 22, no. 3, pp. 579–593, 2020.
[19] R. Verhack, N. Madhu, G. Van Wallendael, P. Lambert, and T. Sikora, “Steered mixture-of-experts approximation of spherical
image data,” in 2018 26th European Signal Processing Conference (EUSIPCO), 2018, pp. 256–260.
[20] Y.-C. Guo, D. Kang, L. Bao, Y. He, and S.-H. Zhang, “Nerfren: Neural radiance fields with reflections,” in Proceedings of the
IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR), June 2022, pp. 18 409–18 418.
[21] R. Martin-Brualla, N. Radwan, M. S. M. Sajjadi, J. T. Barron, A. Dosovitskiy, and D. Duckworth, “NeRF in the Wild: Neural
Radiance Fields for Unconstrained Photo Collections,” in CVPR, 2021.
[22] R. Wu, B. Mildenhall, P. Henzler, K. Park, R. Gao, D. Watson, P. P. Srinivasan, D. Verbin, J. T. Barron, B. Poole, and A. Holynski,
“Reconfusion: 3d reconstruction with diffusion priors,” arXiv, 2023.
[23] C. Reiser, S. Peng, Y. Liao, and A. Geiger, “Kilonerf: Speeding up neural radiance fields with thousands of tiny mlps,” in
International Conference on Computer Vision (ICCV), 2021.
[24] H. Turki, D. Ramanan, and M. Satyanarayanan, “Mega-nerf: Scalable construction of large-scale nerfs for virtual flythroughs,”
in Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR), June 2022,
pp. 12 922–12 931.
[25] J. Lin, Z. Li, X. Tang, J. Liu, S. Liu, J. Liu, Y. Lu, X. Wu, S. Xu, Y. Yan, and W. Yang, “Vastgaussian: Vast 3d gaussians for large
scene reconstruction,” in CVPR, 2024.
[26] Z. Chen, T. Funkhouser, P. Hedman, and A. Tagliasacchi, “Mobilenerf: Exploiting the polygon rasterization pipeline for
efficient neural field rendering on mobile architectures,” 2023.
[27] S. Shin and J. Park, “Binary radiance fields,” 2023.
[28] R. Ramamoorthi and P. Hanrahan, “An efficient representation for irradiance environment maps,” in Proceedings of the
28th Annual Conference on Computer Graphics and Interactive Techniques, 2001, pp. 497–500.
[29] Sara Fridovich-Keil and Alex Yu, M. Tancik, Q. Chen, B. Recht, and A. Kanazawa, “Plenoxels: Radiance fields without neural
networks,” in CVPR, 2022.
[30] A. Knapitsch, J. Park, Q.-Y. Zhou, and V. Koltun, “Tanks and temples: Benchmarking large-scale scene reconstruction,”
ACM Transactions on Graphics, vol. 36, no. 4, 2017.
[31] R. Zhang, P. Isola, A. A. Efros, E. Shechtman, and O. Wang, “The unreasonable effectiveness of deep features as a perceptual
metric,” in CVPR, 2018.
[32] P. Hedman, J. Philip, T. Price, J.-M. Frahm, G. Drettakis, and G. Brostow, “Deep blending for free-viewpoint image-based
rendering,” ACM Transactions on Graphics (SIGGRAPH Asia Conference Proceedings), vol. 37, no. 6, November 2018.
[Online]. Available: http://www-sop.inria.fr/reves/