GisSOM-ohjelmisto monimuuttuja-aineiston klusterointiin ‒ Katsaus klusterointiin ja itseorganisoituviin karttoihin

Mitä ovat monimuuttuja-aineistot ja itseorganisoituvat kartat? Ja miten nämä liittyvät geologisiin tietoaineistoihin ja koneoppimiseen? GTK:n erikoistutkija Johanna Torppa kertoo blogisarjassaan GisSOM-ohjelmiston mahdollisuuksista tietoaineistojen visualisoinnissa ja tulkinnassa.

Tässä blogissa oli tarkoitus kuvata GisSOM-ohjelmisto, mutta kirjoituksen pituus ylitti kohtuuden rajat jo ennen kuin termi GisSOM oli edes mainittu. Ratkaisuna oli jakaa sisältö kolmeen osaan, joista tämä on ensimmäinen. Otsikon mukaisesti ensimmäisessä blogissa käydään läpi monimuuttuja-aineistojen olemusta ja luokittelua. Tarkastelemme myös lyhyesti, mitä itseorganisoituvilla kartoilla voi tehdä.

Monimuuttuja-aineistot

Ajatellaan, että haluamme jakaa satelliitista käsin otetun valokuvan osa-alueisiin värin perusteella. Kenties päämääränä on erotella vesi, pilvet, metsät ja pellot toisistaan.

Kuva 1. Vasen: Satelliittikuva (heijastunut auringonvalo sähkömagneettisen spektrin punaisella, vihreällä ja sinisellä kaistalla). Oikea: Harmaasävykuvat heijastuneen valon määrästä punaisella, vihreällä ja sinisellä kaistalla.

Kuvan (Kuva 1) voi ajatella koostuvan mittauspisteistä, joissa jokaisessa on arvot kolmelle muuttujalle: heijastuneen auringonvalon määrälle punaisella, vihreällä ja sinisellä aallonpituusalueella. Mikäli tämä vaikuttaa päivänselvältä, pystyy varmasti kuvittelemaan tapauksen, jossa muuttujia mittauspisteessä on enemmän. Monimuuttuja-aineistoksi sanotaan aineistoa, jossa mittauspisteissä on tietoa useammasta kuin yhdestä muuttujasta. Geotieteissä muuttujat ovat usein jotain, mitä emme voi nähdä, kuten magneettikentän voimakkuus, sähkönjohtavuus, alkuainepitoisuus, pH ym. Käyttämällä RGB-värijärjestelmää voidaan visualisoida mitkä tahansa kolme muuttujaa – tai jopa neljä, mikäli värien lisäksi käytetään läpinäkyvyyden määrittävää alfa-kanavaa. Useimmiten muuttujia on enemmän kuin kolme tai neljä, eikä visualisointi värikuvana ole mahdollista. Käytetään kuitenkin esimerkkinä visualisoitavissa olevaa kolmimuuttuja-aineistoa, koska kuvien avulla on helpompi ymmärtää mitä aineiston analyysissa on tapahtunut. Kaikki menetelmät, joita tässä käsitellään, voidaan kuitenkin suoraan soveltaa mille tahansa muuttujamäärälle.

Toinen syy satelliittikuvan valinnalle esimerkkiaineistoksi on mittauspisteiden paikkasidonnaisuus: jokainen mittauspiste voidaan esittää kartalla (yksi pikseli edustaa yhtä mittauspistettä), mikä edelleen helpottaa aineiston ja analyysin tulosten visualisointia ja siten ymmärtämistä. Vaikka tässä ei käsitellä paikkatietoanalyysimenetelmiä, kulkevat koordinaatit mukana passiivisina muuttujina, jolloin myös prosessoinnin läpikäynyt aineisto voidaan esittää karttana.

Monimuuttuja-aineiston klusterointi

Alussa esitettiin tehtävä, jossa satelliittikuva jaetaan osa-alueisiin kuvan värin perusteella. Tehtävää varten on perehdyttävä klusterointiin. Klusteri määritellään ryhmänä mittauspisteitä, joissa mitatut suureet ovat samankaltaisia. Klusteri ei ole sama asia kuin luokka, jolla lähtökohtaisesti on jokin olemassa oleva rooli ja ominaisuudet. Klusteroinnin tulos on kullekin aineistolle ominainen, ja klustereiden määrä ja laatu voivat poiketa huomattavasti kahdelle samasta aineistosta tehdylle satunnaisotokselle. Ainoastaan, jos aineiston muuttujat saavat vain tietyn tyyppisiä arvoja, on klusteroinnin tulos stabiili. Geotieteellisessä tutkimuksessa useat muuttujat kuitenkin voivat saada mitä tahansa arvoja, jolloin klustereiden määrittäminen ei ole yksiselitteistä, vaan riippuu voimakkaasti sekä aineiston että klusterointimenetelmän valinnasta. Tällaisissa tapauksissa ei yleensä ole olemassa sitä yhtä oikeaa klusterointitulosta, vaan sopiva klusterien määrä ja ominaisuudet riippuvat tutkimusongelmasta.

Esimerkkinä klusteroinnista jaamme satelliittikuvan osa-alueisiin käyttäen ArcGIS-ohjelmiston Iso Clustering työkalua ja 12 klusteria.

Kuva 2. Klusteroinnin tulos satelliittikuvalle käyttäen 12 klusteria. Pikselit on väritetty käyttäen a) klusterin indeksiä, b) klusterin edustamaa RGB-väritystä.

Kuvassa 2 klusteroidut mittauspisteet on sijoitettu takaisin kartalle. Klusteroiduilla mittauspisteillä on alkuperäisten kolmen väriparametrin lisäksi neljäs parametri, klusterin indeksi, jota on käytetty pikseleiden väritykseen kuvassa 2a. Kuvassa 2b pikselit on väritetty käyttäen kunkin klusterin edustamaa väriä. Klusterien värit kuvaavat alkuperäistä aineistoa (Kuva 1) kohtalaisen hyvin, eli klusterointi on visuaalisen tarkastelun perusteella melko onnistunut. Tulos on kuitenkin vain yksi monista hyvistä vaihtoehtoisista klusterointimalleista. Voimme arvioida klusteroinnin onnistumista lukuisilla eri metriikoilla, jotka mittaavat muuttujien hajontaa yhden klusterin sisällä sekä muuttujien eroa klustereiden välillä.

Eri metriikat mittaavat klusteroinnin onnistuneisuutta hieman eri tavoin, ja siten antavat myös eri tuloksia. Sopivan metriikan ja parhaan lopputuloksen löytäminen on työläs tehtävä, eikä selvitystyötä aina tehdä kovin perinpohjaisesti. Yksi apukeino aineiston rakenteen ja klusterointimallin tutkimiseen on itseorganisoituvien karttojen (SOM = Self-organizing Maps) käyttö. SOM on tehokas menetelmä myös esimerkiksi suuren aineiston yksinkertaistamiseen sekä vielä havaitsemattomien muuttujien arvojen ennustamiseen.

Itseorganisoituvat kartat

Lyhykäisyydessään itseorganisoituvat kartat (Self-organizing Maps = SOM) ovat hiloja, joille mittauspisteet järjestetään siten, että samankaltaiset pisteet ovat lähellä toisiaan. Koska SOM ei lähtökohtaisesti ota huomioon paikkatietoa, mittauspisteiden etäisyydellä maantieteellisessä koordinaatistossa ei ole yleisesti vaikutusta siihen miten ne sijoittuvat SOM hilaan. Eikä aineiston itse asiassa tarvitse olla paikkaan sidottua ensinkään. Tässä käsitellään vielä mitä SOM tekee aineistolle, kun taas toinen blogi GisSOM-ohjelmisto monimuuttuja-aineiston klusterointiin ‒ Itseorganisoituvat kartat kuvaa miten SOM sen tekee. Käytetään esimerkkinä satelliittikuvaamme, joka on klusteroitu Horizon 2020 NEXT -projektissa kehitetyllä GisSOM-ohjelmalla.

Satelliittikuvassa jokainen pikseli on mittauspiste, jossa on arvot kolmelle muuttujalle. Tässä harjoituksessa järjestettiin mittauspisteet kaksiulotteiselle 20×22 hilapisteen SOM:lle, jolla on heksagoninen rakenne. SOM prosessoinnin tuloksena aineiston kolme muuttujaa (punainen, vihreä ja sininen väri) voidaan esittää omilla SOM hiloillaan (Kuva 3). Kussakin kuvassa sama hilapiste vastaa samoja satelliittikuvan pikseleitä. Kuvista voi esimerkiksi nähdä suoraan, että kaikkien muuttujien suurimmat arvot osuvat samaan SOM hilapisteeseen (A), ja siten samoihin satelliittikuvan pikseleihin. Sama pätee muuttujien pienimpiin arvoihin (B). Tämä tarkoittaa, että kuvassa ei ole kirkkaita vihreitä, punaisia tai sinisiä alueita, vaan muuttujien arvot kulkevat enemmän tai vähemmän käsi kädessä. Vihreä kuitenkin hallitsee kaikkialla muualla paitsi alueelle C sijoittuneissa pikseleissä, jossa punainen hallitsee muutaman SOM hilapisteen alueella. SOM:n avulla voi tällä tavoin muodostaa yleiskäsityksen alkuperäisen aineiston muuttujien arvoista, ja satelliittikuvan tapauksessa kuvan väreistä.

Kuva 3. R, G ja B värien jakauma SOM:lla.

SOM tuloksen voi edelleen klusteroida pienempään määrään luokkia. GisSOM-ohjelman k-means klusterointitoiminnolla saatiin GisSOM:n käyttämän metriikan perusteella paras tulos kahdeksalla klusterilla (Kuva 4). Vertaamalla muuttujien jakaumaa SOM:lla (Kuva 3) luokkarajoihin (Kuva 4) nähdään, että luokat kuvaavat muuttujien jakaumaa kohtalaisen hyvin. SOM myös paljastaa, mitkä klusterit voidaan suurimmalla varmuudella erottaa toisistaan. Mittauspisteet klustereissa 4 ja 5 ovat todennäköisimmin hyvin erilaisia, koska klusterit sijaitsevat SOM:lla kaukana toisistaan, ja niiden välissä on muita klustereita. Sen sijaan klusterit 4 ja 1 sijaitsevat SOM:lla vierekkäin, jolloin osa niihin sijoittuneista mittauspisteistä voi olla hyvinkin samankaltaisia ja sijaita niin sanotusti klustereiden rajalla.

Maantieteellisten karttojen tuottaminen (Kuvat 4a ja 5a) ei ole välttämätöntä SOM tulosten tulkintaa ajatellen, mutta se on olennainen ja hyvin hyödyllinen toiminto GisSOM:ssa, joka helpottaa paikkatietoaineiston tulkintaa.

Kuva 4. SOM ja k-means menetelmiä käyttämällä lasketut klusterit satelliittiaineistolle a) maantieteellisissä koordinaateissa ja b) SOM hilassa.

Kuvan 4 värit perustuvat klusteri-indeksiin, joka tässä vaiheessa on ainoa yleispätevä tapa erottaa klusterit toisistaan. Jotta klusterilla olisi jokin merkitys, kuten luokka ”vesi”, ”metsä”, ”pilvi” tai ”pelto”, tulee olla opetusaineistoa, eli mittauspisteitä joiden luokka tunnetaan (Kuva 5). Tutkimalla opetusaineiston jakaumaa klustereissa, voidaan määrittää mitä luokkaa kukin klusteri edustaa. Satelliittikuvan tapauksessa klusterit 4, 1, 3 ja 0 edustavat pilvisiä alueita, joilla on eri paksuinen pilvipeite, klusteri 6 edustaa rusehtavaa peltoa ja klusteri 5 vettä. Luokkia ”metsä” ja ”pelto” ei pysty analyysin perusteella erottelemaan, vaan klusterit 2 ja 7 edustavat eri vihreän sävyisiä metsiä ja peltoja.

Kuva 5. Opetuspisteet maantieteellisessä koordinaatistossa (mustat pisteet) ja luokat SOM:lla.

Seuraavaa blogia odotellessa

Tässä on hyvä pysähtyä pureskelemaan monimuuttuja-asioita ja itseorganisoituvia karttoja. On hyvä huomioida, että yllä esitetty on yksinkertaistettu, jotta asia olisi helpommin ymmärrettävissä. Tärkeintä on muistaa SOM:in liittyen, että sen perustana on SOM hila, jolle aineisto järjestetään siten, että samankaltaiset pisteet ovat lähellä toisiaan. SOM toimii erinomaisena visuaalisena yleiskatsauksena aineiston rakenteeseen.

Seuraavassa blogissa GisSOM-ohjelmisto monimuuttuja-aineiston klusterointiin ‒ Itseorganisoituvat kartat kuvataan miten SOM järjestää mittauspisteet SOM hilaan. Vertaamme kahdentyyppiselle aineistolle tehtyä SOM analyysia. Yhdessä aineistossa on vain muutama muuttuja ja paljon mittauspisteitä (satelliittikuvamme), ja toisessa on vähän mittauspisteitä ja paljon muuttujia (mineraalispektriaineisto). Sarjan viimeisessä blogissa GisSOM-ohjelmisto monimuuttuja-aineiston klusterointiin ‒ GisSOM pääsemme vihdoin ohjelmiston esittelyyn.

Mikäli haluat vilkaista GisSOM-ohjelmistoa, löydät sen GitHubista, josta sen voi ladata ja asentaa.

GisSOM-ohjelmisto on kehitetty Euroopan Unionin Horisontti 2020 ohjelmasta rahoitetussa NEXT projektissa (Grant Agreement No. 776804 – H2020-SC5-2017 NEXT – New Exploration Technologies).

Teksti:

Johanna Torppa, erikoistutkija, Tietoratkaisut, johanna.torppa@gtk.fi