Interpretatie en modellering van multi instrumentele analytische data met Deep Learning

Marjolein
Saelens

De moderne analytische toestellen en technieken zorgen ervoor dat bedrijven en onderzoekers steeds meer te maken krijgen met een grote kwantiteit aan data. De dataset wordt daarbij ook steeds uitdagender om mee te werken. Dit is ook het geval bij de afdeling professionele textielverzorging van het bedrijf Christeyns NV te Gent. De textielstalen worden er met verschillende analytische toestellen zowel kwalitatief als kwantitatief geanalyseerd. Door het steeds groter wordend aantal geanalyseerde textielstalen en de grote hoeveelheid gegevens die per staal verkregen worden, werd bij de R&D-afdeling van de textielverzorging al een behoorlijk grote dataset met gegevens verworven.

De dataset bevat gegevens afkomstig van drie verschillende analysetechnieken namelijk witheidsmetingen met een spectrofotometer, Fourier-transformatie infraroodspectroscopie (FTIR) en high-performance liquid chromatography (HPLC). Er werd onderzocht hoe het best kan worden omgegaan met deze dataset en welke technieken het meest geschikt zijn voor het verkrijgen van nieuwe inzichten in de beschikbare data. Het hoofddoel is uiteindelijk om correlaties tussen de gegevens van de drie verschillende analysetoestellen op te sporen.

Na een theoretische studie over verschillende technieken voor de verwerking van de beschikbare dataset, werd uiteindelijk toegelegd op de techniek Deep Learning. Deep Learning is een onderdeel van Artificiële Intelligentie, wat een overkoepelende term is voor elke techniek waarmee computers menselijk gedrag nabootsen. Bij Deep Learning leert de logaritme zelf door input van de omgeving op te slaan, patronen erin te herkennen en deze vervolgens toe te passen met oog op succes. Dit kan het best uitgelegd worden aan de hand van het voorbeeld van AlphaZero. AlphaZero is een schaakcomputer die met behulp van Deep Learning zichzelf leerde schaken. Na slechts negen uur schaken tegen zichzelf kon AlphaZero tien keer achter elkaar winnen tegen een andere schaakcomputer Stockfish. Dit is zeer opmerkelijk aangezien experts al tientallen jaren bezig zijn om alle strategieën van het schaken in Stockfish te programmeren. Met behulp van Deep Learning wordt hetzelfde niveau behaald in slechts vier uur, zonder tussenkomst van de mens.

Deep learning is een algoritme dat gebaseerd is op de werking van onze hersenen. Er wordt bij deze techniek gebruikgemaakt van een zogenaamd computer neuraal netwerk, waarbij een groot aantal met elkaar verbonden neuronen in verschillende lagen gerangschikt zijn. Aan de ene kant is er de ingangslaag, waar de informatie binnenkomt, bijvoorbeeld een positie op een schaakbord. Aan de andere kant is er de uitgangslaag, hier komt de beslissing van het neuraal netwerk uit, bijvoorbeeld de beste zet op het schaakbord. Daartussen bevinden zich nog lagen. Deze worden de verborgen lagen genoemd. (Figuur 1) Alle neuronen in een neuraal netwerk zijn met elkaar verbonden met een verschillende sterkte. De werking van zo een neuraal netwerk kan worden uitgelegd aan de hand van een tweede voorbeeld, namelijk het herkennen van handgeschreven letters. Aan de ingangslaag is elk neuron de grijswaarde van een pixel van de geschreven letter. De uitgangslaag bestaat uit 26 neuronen die de letters van het alfabet voorstellen. Vanaf de ingangslaag geven de neuronen laag per laag hun informatie door. Door de verschillende sterktes van de verbindingen wordt er uiteindelijk een bepaalde voorspelling bekomen bij de uitgangslaag. Bij een niet getraind neuraal netwerk zijn de sterktes tussen de verbindingen een initiële gok, waardoor de kans groot is dat de voorspelling nog fout zal zijn. Het neuraal netwerk wordt getraind door telkens aan te geven dat het fout is, zodat het zich in de toekomst kan corrigeren. Wanneer het neuraal netwerk een verkeerde letter voorspelt, worden de verbindingen die voor die voorspelling gezocht hebben verzwakt. Wanneer er wel een juiste letter voorspeld wordt dan worden de verbindingen die daarvoor gezorgd hebben versterkt. Op die manier leert het algoritme om de juiste voorspelling te maken.

image 478

Figuur 1: Schematische voorstelling van een neuraal netwerk met twee verborgen lagen.

Neurale netwerken worden tegenwoordig in zeer veel domeinen ingezet. Zo wordt Deep Learning gebruikt bij het vertalen van teksten met Google Translate, bij de ontwikkeling van zelfrijdende auto’s of bij het praten tegen Siri of Alexa.  Ook bij steeds meer bedrijven wordt Deep Learning ingezet voor het in kaart brengen van data en bedrijfsprocessen.

In dit onderzoek werd Deep Learning gebruikt voor het verkrijgen van nieuwe informatie uit de beschikbare dataset en het zoeken van correlaties in de gegevens van de verschillende analysetoestellen. Dit gebeurt door het uitvoeren van verschillende classificaties en regressies. Enkele voorbeelden hiervan zijn de classificatie van de stalen naargelang de witheid van het textiel met behulp van gegevens uit HPLC analysen en de voorspelling van concentratie aan Diaminostilbeen en Distyrylbifenyl type optische witmakers op het textiel aan de hand van HPLC-data.

Wanneer Deep Learning gebruik werd voor classificaties en regressies met gegevens van slechts één analysetoestel, namelijk een Konica Minolta CM-3600 reflectantiespectrofotometer, werden zeer nauwkeurige voorspellingen behaald. Zo kon de witheidsindex in Ganz van textiel voorspeld worden uit het ruwe reflectie-spectrum met een procentuele fout van slechts 1 %. Hierdoor wordt de berekening van de witheidgraad in Ganz overbodig.

Verder werden de gegevens van de reflectantiespectrometrie gecombineerd met de concentratiebepaling van optische witmakers aanwezig op het textiel (HPLC). Op deze manier kan er voor een gegeven reflectantiespectrum een correlatie gemaakt worden met het gehalte aan optisch wit aanwezig. Op basis van de bestaande resultatensets werd een voorspellingsnauwkeurigheid behaald van 20%. De resultaten zijn hier minder nauwkeurig door een beperktere dataset, concentratievariatie binnen één stuk textiel en de logaritmische respons van de opbouw van optisch wit en de reflectantiewaarden. Hiernaast wordt duidelijk dat een optimalisatie van de dataset vooraf een zeer belangrijke stap is in het proces. 

Dit onderzoek toont aan dat Deep Learning een veelbelovende techniek kan zijn voor de verwerking van de dataset en het vinden van correlaties tussen de gegevens van de drie verschillende textiel analysemethoden. Deze thesis is echter nog maar het begin van het onderzoek en het is duidelijk dat met deze techniek nog veel verder kan gegaan worden. Het is gebleken dat het met een goede en slimme analyse door Deep Learning mogelijk is om de toenemende hoeveelheid data werkelijk te benutten.

Bibliografie

Bibliografie

1.        Christeyns NV [Internet]. [cited 2020 Apr 22]. Available from: https://www.christeyns.com/nl

2.        Rosen MJ. Surfactants and interfacial phenomena. Sons. JW&, editor. Hoboken, New Jersey; 1989. 444 p.

3.        Schmitt TM. Analysis of Surfactants. 2nd ed. New York: Taylor & Francis; 2001.

4.        Showell MS. Handbook of Detergents Part D: Formulation. New york: Taylor & Francis Group; 2006.

5.        Gerlache M, Kauffmann JM, Quarin G, Vire JC, Bryant GA, Talbot JM. Electrochemical analysis of surfactants: An overview. Talanta. 1996;43(4):507–19.

6.        Kosswig K. Surfactans. In: KGaA. W-VVG& C, editor. Ullmann’s encexlopedia of industrial chemistry. Weilheim, Germany; 2000. p. 432–501.

7.        Levinson MI. Rinse-added fabric softener technology at the close of the twentieth century. J Surfactants Deterg. 1999;2(2):223–35.

8.        Saraiva1 SA, Abdelnur P V., Catharino RR, Nunes G, Eberlin1 MN. Fabric softeners: nearly instantaneous characterization and quality control of cationic surfactants by easy ambient sonic-spray ionization mass spectrometry. Rapid Commun Mass Spectrom. 2009;23:357–62.

9.        Davey HM, Kell DB. Fluorescent brighteners: Novel stains for the flow cytometric analysis of microorganisms. Cytometry. 1997;28(4):311–5.

10.      Bruneel D. Cursus toepassingen in de chemische industrie: Deel: Toepassingen. In: Cursus toepassingen in de chemische industrie: Deel: Toepassingen. 2019.

11.      BASF. Technical information Tinopal® DMA-X [Internet]. Tinopal® DMA-X. 2011 [cited 2020 Mar 12]. p. 1–4. Available from: file:///C:/Users/marjo/Downloads/Tinopal_DMA-X_TI_en.pdf

12.      VestaChemicals. Viobrite DMS-X. 2020.

13.      BASF. Technical Information TINOPAL CBS-X [Internet]. 2011. p. 1–4. Available from: http://www.hss.gov.yk.ca/homecare.php

14.      BASF. Safety data sheet Tinopal CBS-X [Internet]. 2018. Available from: https://www.sdsinventory.com/substances/accessSDS/SDS-5638-5c333a86eab7…

15.      Pupchem. Disodium 4,4’-bis(2-sulfostyryl)biphenyl, (Z,Z)- _ C28H20Na2O6S2 [Internet]. [cited 2020 Mar 14]. Available from: https://pubchem.ncbi.nlm.nih.gov/compound/6434006

16.      POWER POINT.

17.      Shoemaker ML, Hughes DN, Kuchta  steven L. METHOD FOR CORRELATING COLOR MEASURING SCALES. United States; 5,150,199, 1992.

18.      De Vrindt L. Relatie tussen CIELAB en visuele kleurwaarneming. Ku leuven; 2019.

19.      Precise Color Communication. Konica Minolta; 2007.

20.      Števek J, Katuščák S, Dubinyová L, Fikar M. An automatic identification of wood materials from color images. 2016 Cybern Informatics, K I 2016 - Proc 28th Int Conf. 2016;200280301(2003).

21.      Ma S, Wei M, Liang J, Wang B, Chen Y, Pointer M, et al. Evaluation of whiteness metrics. Light Res Technol. 2018;50(3):429–45.

22.      Dietz C. Whiteness indices and UV standards. Konica Minolta. 2011;(2).

23.      Peets P, Leito I, Pelt J, Vahur S. Identification and classification of textile fibres using ATR-FT-IR spectroscopy with chemometric methods. Spectrochim Acta - Part A Mol Biomol Spectrosc. 2017;173:175–81.

24.      Van de Voorde I. Spectroscopische technieken: Infrarood. KU Leuven; 2018.

25.      Banwell CN. Fundamentals of Molecular Spectroscopy. 3rd ed. London: McGraw-Hill International; 1983.

26.      Roex H. Spectroscopie. Acco, editor. Leuven; 2017.

27.      Bunker Optics Inc. Attenuated Total Reflection (ATR) – a versatile tool for FT-IR spectroscopy. Appl Note AN # 79. 2011;4.

28.      Busca G. The use of vibrational spectroscopies in studies of heterogeneous catalysis by metal oxides: An introduction. Catal Today. 1996;27(3–4):323–52.

29.      Manyika J, Chui Brown M, B. J. B, Dobbs R, Roxburgh C, Hung Byers A. Big data: The next frontier for innovation, competition and productivity. McKinsey Glob Inst [Internet]. 2011;(June):156. Available from: https://bigdatawg.nist.gov/pdf/MGI_big_data_full_report.pdf

30.      Dearing T. Fundamentals of Chemometrics and Modeling. CPAC. 2010.

31.      Rajalahti T, Kvalheim OM. Multivariate data analysis in pharmaceutics: A tutorial review. Int J Pharm [Internet]. 2011;417:280–90. Available from: http://dx.doi.org/10.1016/j.ijpharm.2011.02.019

32.      Jacyna J, Kordalewska M, Markuszewski MJ. Design of Experiments in metabolomics-related studies : An overview. J Pharm Biomed Anal [Internet]. 2019;164:598–606. Available from: https://doi.org/10.1016/j.jpba.2018.11.027

33.      Filzmoser P, Varmuza K. Introduction to multivatiate statistical analysis in chemometrics. Boca Raton: Taylor & Francis Group; 2008.

34.      Box GEP, Hunter JS, Hunter WG. Statistics for Experilllenters. 2005;623.

35.      ElMasry G, Kamruzzaman M, Sun DW, Allen P. Principles and Applications of Hyperspectral Imaging in Quality Evaluation of Agro-Food Products: A Review. Crit Rev Food Sci Nutr. 2012;52(11):999–1023.

36.      Li X, Nsofor GC, Song L. A comparative analysis of predictive data mining techniques. Int J Rapid Manuf. 2009;1(2):150.

37.      Pearce TC, Schhiffman SS, Nagle HT, Gardner JW. Handbook of Machine Olfaction: Electronic Nose Technology. Weinheim: Wiley-VCH Verlag GmbH &Co; 2003. 3–527 p.

38.      Heater B. PCA basics. 2014;

39.      Jolliffe IT. Principal Component Analysis. New York: Springer; 1986.

40.      Kumar S, Kumar S, Mishra P. Multivariate analysis: An overview. .journalofdentofacialsciences. 2013;2(3):19–26.

41.      Steinfath M, Groth D, Lisec J, Selbig J. Metabolite profile analysis: From raw data to regression and classification. Physiol Plant. 2008;132(2):150–61.

42.      Ouyang M, Zhang Z, Chen C, Liu X, Liang Y. Application of sparse linear discriminant analysis for metabolomics data. Anal Methods. 2014;6(22):9037–44.

43.      Yang J, Xu J, Zhang X, Wu C, Lin T, Ying Y. Deep learning for vibrational spectral analysis: Recent progress and a practical guide. Anal Chim Acta [Internet]. 2019;1081:6–17. Available from: https://doi.org/10.1016/j.aca.2019.06.012

44.      Filzmoser P, Gschwandtner M, Todorov V. Review of sparse methods in regression and classification with application to chemometrics. J Chemom. 2012;26(3–4):42–51.

45.      Chollet F. Deep Learning mit Python und Keras: Das Praxis-Handbuch vom Entwickler der Keras-Bibliothek [Internet]. Manning Publications Co.; 2018. p. 447. Available from: https://books.google.de/books?id=ouVcDwAAQBAJ

46.      Srivastava T. Difference between Machine Learning & Statistical Modeling. Analytics Vidhya [Internet]. 2015; Available from: https://www.analyticsvidhya.com/blog/2015/07/difference-machine-learnin…

47.      Amini A. MIT Introduction to Deep Learning | 6.S191 [Internet]. 2020. Available from: https://www.youtube.com/watch?v=njKP3FqW3Sk&t=1269s

48.      Grimson E. Introduction to Machine Learning [Internet]. MIT OpenCourseWare; 2016. Available from: https://www.youtube.com/watch?v=h0e2HAPTGF4&t=670s

49.      Eynikel J. Robot aan het stuur. 4th ed. Tielt: Uitgeverij Lannoo nv; 2018.

50.      Feng J, He X, Teng Q, Ren C, Chen H, Li Y. Reconstruction of porous media from extremely limited information using conditional generative adversarial networks. Phys Rev E [Internet]. 2019;100(3):33308. Available from: https://doi.org/10.1103/PhysRevE.100.033308

51.      Keras. Layer activation functions [Internet]. [cited 2020 Jun 1]. Available from: https://keras.io/api/layers/activations/

52.      Brownlee J. What is the Difference Between a Batch and an Epoch in a Neural Network? [Internet]. Machine Learning Mastery. 2018 [cited 2020 Jun 1]. p. 3–4. Available from: https://machinelearningmastery.com/difference-between-a-batch-and-an-ep…

53.      Mishra A. Amazon Machine Learning. Mach Learn AWS Cloud. 2019;317–51.

54.      Chord diagram [Internet]. www.fromdatatoviz.be. [cited 2020 Mar 30]. Available from: https://www.data-to-viz.com/graph/chord.html

55.      Keras. About Keras [Internet]. 2020 [cited 2020 Jun 1]. Available from: https://keras.io/about/

56.      Brownlee J. TensorFlow 2 Tutorial: Get Started in Deep Learning With tf.keras [Internet]. Machinelearningmastery.com. 2020. Available from: https://machinelearningmastery.com/tensorflow-tutorial-deep-learning-wi…

57.      Developer N. Jetson Nano [Internet]. 2020 [cited 2020 May 25]. Available from: https://developer.nvidia.com/embedded/jetson-nano

58.      Raspberry PI 4 [Internet]. [cited 2020 May 25]. Available from: raspberrypi.org

59.      Kaggle. House Prices: Advanced Regression Techniques [Internet]. 2020 [cited 2020 May 25]. Available from: https://www.kaggle.com/c/house-prices-advanced-regression-techniques

60.      Brownlee J. How to use Data Scaling Improve Deep Learning Model Stability and Performance [Internet]. Machine Learning Matter. 2019 [cited 2020 May 26]. p. 1–39. Available from: https://machinelearningmastery.com/how-to-improve-neural-network-stabil…

61.      Rinnan Å, Berg F van den, Engelsen SB. Review of the most common pre-processing techniques for near-infrared spectra. TrAC - Trends Anal Chem. 2009;28(10):1201–22.

Download scriptie (4.75 MB)
Universiteit of Hogeschool
KU Leuven
Thesis jaar
2020
Promotor(en)
Eddy Courtijn