30.11.2021

GisSOM-ohjelmisto monimuuttuja-aineiston klusterointiin ‒ GisSOM

Kolmiosaisen blogisarjan viimeisessä osassa esitellään GisSOM-ohjelmisto, joka on kehitetty itseorganisoituvien karttojen (self-organizing maps, SOM) laskemiseen erityisesti paikkaan sidotulle aineistolle. Mikäli aihepiiri on tuntematon, on hyvä lukea ensin blogisarjan kaksi ensimmäistä osaa. Blogissa pyritään välttämään erityisterminologiaa, mutta kaksi SOM-menetelmään liittyvää käsitettä esiintyy tekstissä useaan otteeseen: painovektori on SOM-hilan neuronin ominaisuuksia kuvaava vektori, jonka komponentit vastaavat aineiston muuttujia (datavektorin komponentit), ja datapisteen voittajaneuroni (best-matching unit, BMU) on se SOM-hilan neuroni, jonka painovektori on lähinnä datavektoria.

GisSOM (Kuva 1) kehitettiin New Exploration Technologies (NEXT) projektissa (päättyi syyskuussa, 2021), jonka tavoitteena oli kehittää uusia geologisia malleja, herkkää mittaus- ja havaintoteknologiaa sekä aineiston analysointimenetelmiä malminetsintää varten. GisSOM:n tehtävänä on tässä yhteydessä helpottaa mittausaineiston esiprosessointia ja moniulotteisen aineiston tulkintaa. GisSOM:n ydin on itseorganisoituvien karttojen (self-organizing maps, SOM) laskenta. Lisäksi ohjelmisto tarjoaa keinoja aineiston esikäsittelyyn sekä SOM-tuloksen klusterointiin ja visualisointiin. GisSOM:n käyttöliittymä tarjoaa helposti ymmärrettävän rajapinnan ohjelmiston toiminnallisuuksiin. Seuraavassa esitellään, miten GisSOM:lla muodostetaan aineistopaketti SOM-laskentaa varten, määritetään SOM-laskentaan tarvittavat parametrit ja esitetään tulokset eri tavoin.

Aineiston luku ja esikäsittely GisSOM:lla

Aineiston voi lukea GisSOM:in tekstimuodossa CSV-taulukkona (sarake-erottimena pilkku) tai georeferoituna TIF-tiedostona. Aineisto voi olla paikkaan sidottua, jolloin se on hilamuotoista tai hajanaista. Se voi myös olla paikkaan sitomatonta. CSV-taulukkona voi esittää minkä tahansa muotoisen aineiston, mutta hilamuotoisen paikkaan sidotun aineiston (rasterit, kartat) tapauksessa käytetään usein TIF-tiedostoa. CSV-taulukkoon voi sisällyttää myös luokkatiedon. Jos esimerkiksi haluaa luokitella satelliittikuvan alueisiin, jotka edustavat luokkia “pilvi”, “pelto”, “vesi”, “metsä”, luokkatiedon voi antaa niille datapisteille (pikseleille), joille se tiedetään.

Usein aineisto, joka luetaan GisSOM:in, on käsitelty jo monin tavoin. GisSOM:ssa aineistolle on mahdollista tehdä logaritminen muunnos tai winsorointi, joita useimmiten tarvitaan onnistuneen SOM-laskennan suorittamiseen. Näitä muunnoksia käytetään pitkähäntäisen jakauman muuntamiseen, jotta erot jakauman mediaanin lähellä voimistuvat ja jakauman hännät lyhenevät. GisSOM piirtää kunkin muuttujan histogrammin, mikä helpottaa oikean muunnosfunktion valitsemista.

Tulosten esittäminen

Koska SOM-tulosten esittäminen monin tavoin on GisSOM-ohjelmiston vahvuus, näytetään tässä esimerkein, miten tuloksia voidaan visualisoida ja tulkita. Esimerkkiaineistona käytetään orogeenisten kultaesiintymien prospektiivisuusmallinnukseen käytettyä aineistoa keski-Lapin vihreäkivivyöhykkeeltä (Kuva 2, Torppa et al., 2019).

Aineiston yhdeksän muuttujan perinpohjainen ymmärtäminen ei tässä ole olennaista, mutta kuvaamme ne kolme muuttujaa, joita käytetään esimerkeissä. Albitiitti (Albitite) -kartta edustaa painotettua etäisyyttä paikkoihin, joissa on tehty kivilajianalyysi joko kairasydännäytteestä tai paljastumahavainnosta. Kartalla esitetyn suureen arvo on suuri lähellä albitiittiesiintymiä ja pieni lähellä paikkoja, joista kerätyssä aineistossa albitiittia ei ole havaittu. Metamorfoosiaste (Metamorphic facies) -kartta edustaa asiantuntijan tulkitsemaa kallioperän metamorfoosiastetta ja AEM Re on lentogeofysikaalisilla matalalennoilla mitatun sähkömagneettisen vasteen reaalikomponentti. Aineisto sisältää myös tutkimusalueella tunnetut orogeeniset kultaesiintymät, joita vastaavat datapisteet edustavat luokkaa ”prospektiivinen”. Tunnetut esiintymät näkyvät kartalla, joka kuvaa metamorfoosiastetta (Kuva 2).

GisSOM:ssa tulokset näytetään karttakuvina ja kuvaajina, jotka on jaettu kuudelle välilehdelle. Neljällä välilehdellä näytetään staattisina kuvina tulokset SOM-hilassa ja maantieteellisessä koordinaatistossa, laatikko- ja viiksikaaviona, sekä pistediagrammina. Yhdellä välilehdellä voi suorittaa k-means klusteroinnin SOM-tulokselle, ja yhdellä tutkia SOM-hilan ja maantieteellisen koordinaatiston välistä suhdetta. Visualisoinnin lisäksi kaikki tulokset tallennetaan numeerisessa muodossa tekstitiedostoihin, joita voi käyttää jatkoprosessointiin ja -tulkintaan muissa sovelluksissa.

Kuva 2. GisSOM:n esittelyssä käytettyyn orogeenisten kultaesiintymien prospektiivisuusmallinnukseen liittyvä aineisto (Torppa et al., 2019). Tunnetut mineraaliesiintymät on merkitty ylärivin keskimmäiseen Metamorphic facies -karttaan.

Tulokset SOM-hilassa

GisSOM näyttää SOM-hilassa (Kuva 3) k-means klusterit, kunkin muuttujan arvon, U-matriisin sekä datapisteiden osumien lukumäärän kussakin SOM-hilan neuronissa. Vertaamalla kolmen esimerkkimuuttujan jakaumaa (Kuva 3a-c) tunnettujen esiintymien jakautumiseen k-means klustereihin (Kuva 3d), nähdään, että orogeenisia kultaesiintymiä on erityisesti alueilla, joissa albitiitti-arvo on korkea ja metamorfoosiaste alhainen. Riippumatta k-means klusteroinnin tuloksesta, aineiston rakennetta voidaan tutkia U-matriisin (Kuva 3e) avulla. U-matriisi esittää painovektoreiden eroa vierekkäisissä neuroneissa. Tämä auttaa tunnistamaan klustereita ja klustereiden välisiä rajapintoja, eli erottamaan aineistossa esiintyviä populaatioita. Rajapinnat tulevat selvästi näkyviin vain, jos SOM-hila on kyllin suuri, toisin sanoen siinä on tarpeeksi neuroneja pienten piirteiden esittämiseen. Monilla esimerkin klustereilla on pieni sisäinen hajonta ja hyvin erottuva rajapinta viereiseen klusteriin, mutta esimerkiksi klusteri, joka edustaa suuria AEM Re arvoja, ei ole kompakti, mikä taas näkyy suurina U-matriisin arvoina klusterin alueella.

Tulokset maantieteellisessä koordinaatistossa

Jos aineisto on paikkaan sidottua, GisSOM näyttää maantieteellisessä koordinaatistossa (Kuva 4) k-means klusterit, kvantisointivirheen ja voittajaneuronin painon kullekin muuttujalle. Korkea kvantisointivirhe (Kuva 4b) tarkoittaa sitä, että kyseinen datapiste on yhden tai useamman muuttujan osalta poikkeava, eikä sen kaltaista painovektoria esiinny SOM-hilassa. Tällaiset poikkeavat datapisteet ovat usein tieteellisesti mielenkiintoisia, mikäli poikkeama ei johdu mittausvirheestä.

Laatikko- ja viiksikaaviot sekä pistediagrammit

Kunkin muuttujan jakauma klustereissa esitetään laatikko- ja viiksikaavioina. Tämä on tehokas tapa tutkia miten hyvin k-means klusterointi on onnistunut: hyvin klusteroituneen aineiston jakaumat eri klustereissa eroavat selvästi toisistaan. Esimerkin laatikko- ja viiksikaaviossa albitiitti-aineisto ja metamorfoosiaste osoittavat selviä eroavaisuuksia klustereiden välillä (Kuva 5a).

Pistediagrammien avulla voidaan tutkia kahden muuttujan välistä suhdetta. Diagrammin pisteet on väritetty sen perusteella, mihin klusteriin ne kuuluvat. Tämä auttaa havaitsemaan mahdollisia eroja muuttujien suhteissa eri klustereiden välillä. Esimerkkidiagrammeissa (Kuva 5b) näkyy albitiitin ja metamorfoosiasteen suhde muuttujaan AEM Re. Kuvaajista voidaan nähdä muun muassa, että muuttujien albitiitti ja AEM Re kohonneita arvoja esiintyy vain muutamassa klusterissa, ja että alueilla, joilla on korkea metamorfoosiaste, ei yleisesti esiinny korkeita AEM Re -arvoja.

Kuva 5. Esimerkki (a) laatikko- ja viiksikaavioista ja (b) pistediagrammeista.

K-means klusterointi -välilehti

GisSOM-ohjelman antama ratkaisu k-means klusteroinnille ei välttämättä ole paras mahdollinen ajatellen käsillä olevaa tutkimusongelmaa. K-means klusterointi -välilehdellä (Kuva 6) klusteroinnin voi tehdä uudestaan eri klusterilukumäärille. GisSOM piirtää klusteroinnin laatua kuvaavalle Davies-Bouldin indeksille kuvaajan, jonka perusteella sopivimman klusterointiratkaisun voi valita manuaalisesti.

SOM-hilan suhde maantieteelliseen koordinaatistoon

Mikäli aineisto on paikkaan sidottua, SOM-hilan ja maantieteellisen koordinaatiston välistä suhdetta voi tutkia interaktiivisesti (Kuva 7). Valitsemalla SOM-hilasta (kuvassa vasemmalla) neuronin tai klusterin, värittyvät vastaavat datapisteet maantieteellisellä kartalla (kuva oikealla). Tämä auttaa ymmärtämään, miten datapisteet ovat sijoittuneet SOM-hilaan ja k-means klustereihin. Maantieteellisessä koordinaatistossa työkalu näyttää vaihtoehtoisesti k-means klusterit tai jonkin muuttujan arvon.

Kuva 7. SOM-hilan ja maantieteellisen koordinaatiston välinen suhde. Vasemmalla: k-means klusterit SOM-hilassa. Oikealla: SOM-hilasta valittua klusteria vastaavien datapisteiden muuttujan arvot maantieteellisessä koordinaatistossa.

Voisitko sinä olla GisSOM käyttäjä?

GisSOM on kehitetty ideasta lähtien ohjelmiston julkaisemiseen saakka GTK:ssa. Suurimman osan kehitystyöstä on tehnyt allekirjoittaneen lisäksi Sakari Hautala, ja mukana ovat olleet myös Bijal Chudasama ja Jaakko Madetoja. Asialleen omistautuneen kehitystiimin ansiosta GisSOM:sta muodostui työkalu, joka on hyödynnettävissä sekä tieteelliseen tutkimukseen että kaupallisten aineistotuotteiden tekemiseen. Juuri nyt tarvitaan lisää käyttäjiä, jotta palautteen perusteella työkalua voidaan kehittää edelleen vastaamaan erilaisten sovelluskohteiden tarpeita. Tässä blogisarjassa annettujen tietojen pohjalta voit arvioida, olisiko SOM käyttökelpoinen menetelmä myös sinun aineistosi prosessointiin ja tulkintaan, ja kannattaisiko GisSOM:a kokeilla.

Sarjan edelliset blogit ovat: GisSOM-ohjelmisto monimuuttuja-aineiston klusterointiin ‒ Katsaus klusterointiin ja itseorganisoituviin karttoihin ja GisSOM-ohjelmisto monimuuttuja-aineiston klusterointiin ‒ Itseorganisoituvat kartat. Sarjan aiheita, sekä esimerkkitutkimus SOM:n käyttämisestä orogeenisten kultaesiintymien prospektiivisuusmallinnukseen (Chudasama et al., 2021), käsitellään julkaisussa Torppa et al. (2021).

GisSOM asennuspaketti, käyttöopas sekä tekninen kuvaus ovat ladattavissa GitHubista.

GisSOM-ohjelmisto on kehitetty Euroopan Unionin Horisontti 2020 ohjelmasta rahoitetussa NEXT projektissa (Grant Agreement No. 776804 – H2020-SC5-2017 NEXT – New Exploration Technologies).

Teksti:

Johanna Torppa, erikoistutkija, Tietoratkaisut, johanna.torppa@gtk.fi

Kirjallisuusluettelo:

Chudasama B., Torppa J., Nykänen V. and Kinnunen J., 2021. Target-scale prospectivity modeling for gold mineralization within the Rajapalot Au-Co project area in northern Fennoscandian Shield, Finland. Part 2: Application of self-organizing maps and artificial neural networks for exploration targeting, Ore Geology Reviews (submitted).

Torppa J., Nykänen V. and Molnár F., 2019. Unsupervised clustering and empirical fuzzy memberships for mineral prospectivity modelling, Ore Geology Reviews 107, pp 58-71.

Torppa J., Chudasama B., Hautala S. and Kim YongHwi, 2021. GisSOM for clustering multivariate data, Geological Survey of Finland, Open File Research Report, 52.