Esimerkki sankey-kuvaajasta, joiden välillä siirtyy arvoja seuraavastia: A:n lähtöarvo on 500, ja tämä siirtyy kokonaan pisteeseen Y. B:n lähtöarvo on 650, joka jakautuu pisteiden Y ja Z välillä siten, että pisteeseen Y siirtyy 250 ja pisteeseen Z 400. Pisteestä Y siirtyy edelleen 300 pisteeseen X ja 300 pisteeseen Z.

Sankey-diagrammit analyysin tukena ja työkaluja sankey-vuokaavioiden luomiseen

Yleinen

Julkaistu 30.5.2024, päivitetty 20.7.2024.

Sankey-diagrammit esittävät asioiden lukumäärien ja osuuksien siirtymistä tai jakautumista eri vaiheiden tai kohteiden välillä. Ne osoittavat esimerkiksi toimijoiden, asioiden tai arvojen siirtymisen alkupisteistä loppupisteisiin, ja niistä käy ilmi myös näihin pisteisiin jakaantuvien toimijoiden lukumäärät ja suhteelliset osuudet.

Sankey-kuvaajat ovat virtausdiagrammeja verkostokuvaajien, liikenteen määrää teillä kuvaavien karttojen tai muiden vaiheita kuvaavien diagrammien tavoin (Lamer ym., 2020). Robert Harrisin (1999, s. 153) mukaan “[v]irtauskuvaajat ovat diagrammeja jotka kuvaavat visuaalisesti toisiinsa liittyvää informaatiota kuten tapahtumia, prosessin vaiheita, toimintoja, ym., organisoidulla tavalla, kuten vaiheittaisesti tai kronologisesti.”

Otto ym. (2022) tunnistivat kirjallisuuskatsauksessaan Sankey-diagrammeille kolme eri käyttökohdetta: niillä voidaan tuoda näkyväksi tutkimuskohteessa tapahtuvia

  • ajallisia muutoksia,
  • virtauksia ja siirtymiä, tai
  • tutkimuskohteeseen sisältyviä tai tutkimuksen kannalta kiinnostavia yhteyksiä 

Sankey-diagrammien etuna voidaan pitää sitä, että ne visualisoivat aineiston sisällään pitämää informaatiota muotoon, joka tuo esiin kiinnostuksen kohteena olevan asian vaiheittaiset lukumääräiset liikkeet eri pisteiden tai tilojen välillä. Tämä voi auttaa kiinnittämään huomiota tilan vaihdoksiltaan harvinaisimpiin tai yleisimpiin tapauksiin. Kuvaajien miinuksena voidaan pitää sitä, että ne eivät sovi kovinkaan monimutkaisiin tilanteisiin, vaan lähinnä yksittäisessä muuttujassa tapahtuvien laadullisten tai määrällisten muutosten kuvaamiseen kahden tai useamman pisteen välillä (Lamer ym., 2020). Lisäksi yhdellä kuvaajalla voidaan kuvata ainoastaan yhdessä muuttujassa tapahtuvia muutoksia, eikä kuvaajaan voi sisällyttää esimerkiksi niitä tekijöitä, jotka tämän muutoksen ovat aiheuttaneet.

Sankey-tyyppisiä kuvaajia kutsutaan suomeksi usein puukaavioiksi tai vuokaavioiksi. Näistä puukaaviot ovat simppelimpiä niiden osoittaessa vain jonkin suuremman kokonaisuuden jakaantumista sen muodostaviin pienempiin paloihin (ks. Tilastokeskus). Tilastokeskuksen mukaan vuokaavioissa ovat mukana myös “sekä oksat että juuret” eli ne kuvaavat useammasta lähteestä koostuvia alkupisteitä (juuret) sekä näiden jakautumista loppupisteen oksiin.

Sankey-kuvaajien piirteitä ja käyttökohteita yhteiskuntatieteellisessä tutkimuksessa

Sankey-kuvaajien keskeisenä ominaisuutena on se, että kuvaajien elementtien koot esitetään suhteessa toisiinsa (Otto ym., 2022). Alla olevassa esimerkkikuvassa alkupisteen kohdasta A loppupisteen kohtaan Y siirtyy yhteensä 500 yksikköä, kun taas kohdasta B kohtaan Y siirtyy 250 yksikköä. Kohdan A-Y välinen virtausta kuvaava viiva on siten kaksi kertaa niin iso kuin viiva B-Y. Kuvaaja jakautuu edelleen eteenpäin Y:stä X:ään, ja Z:aan, ja B-Z hyppää myös kokonaan Y:n yli. Sankey-kuvaajat voivat siis esittää monimutkaisiakin siirtymiä verkostojen pisteiden välillä.

Esimerkki sankey-kuvaajasta, joiden välillä siirtyy arvoja seuraavastia: A:n lähtöarvo on 500, ja tämä siirtyy kokonaan pisteeseen Y. B:n lähtöarvo on 650, joka jakautuu pisteiden Y ja Z välillä siten, että pisteeseen Y siirtyy 250 ja pisteeseen Z 400. Pisteestä Y siirtyy edelleen 300 pisteeseen X ja 300 pisteeseen Z.
SankeyMatic-työkalulla tehty sankey-kaavio

Sankey-kuvaajia on käytetty perinteisesti esimerkiksi aineiden, energian ja rahan virtausten kuvaamiseen aikapisteiden välillä. Suomessa sankey-tyyppiset puukaaviot ovat tuttuja esim. Hesarin valtion budjettia visualisoineista uutisista (esimerkkejä vuosilta 2018 ja 2023) ja valtion rajallisen budjetin jakamiseen perustuvista  “budjettipeleistä”.  Sankey-kuvaajat sopivat kuitenkin myös yhteiskuntatieteellisten aineistojen analyysin tukemiseen.

Kokemukseni mukaan ne ovat parhaimmillaan suurten ja keskikokoisten aineistojen kuvaamisessa, joissa analyysiyksiköitä on joitakin kymmeniä tai enemmän, ja joissa mahdollisia kategorioita tai tiloja, joiden välillä analyysiyksiköt voivat siirtyä on useita. Tällöin Sankey-kuvaajien pohjalta voi tehdä muutoin hankalasti havaittavia päätelmiä (vrt. Otto ym., 2022).

Itse olen innostunut Sankey-diagrammeista monimenetelmäisempien näkökulmien tuomisessa laadullisiin tai määrällisiin aineistoihin: Sankey-kuvaajat voivat paljastaa suhteellisen pienistäkin  määrällisistä aineistoista kahden tai useamman ajallisen pisteen välillä aineistossa tapahtuneita muutoksia, tai tuoda esiin aineiston laadullisissa muuttujissa tapahtuvia muutoksia. Ne sopivat siten kuvaamaan esim. yksilöiden ajallisesti muuttuvaa tilaa (esim. työtön-opiskelija-työssä) sekä mahdollistavat sen tarkastelun, missä kategorioissa tai minkä tilan omaavissa ryhmissä muutokset erityisesti tapahtuvat ja mihin suuntaan. Sankey-diagrammit voivat sopia myös kahden tai useamman asian välisten suhteiden kuvaamiseen eli yksinkertaisina tapoina kuvata verkostoja. Tällöin diagrammi kuvaa esimerkiksi sitä, kuinka moni ja kuinka suuri osuus asioista A, B ja C ovat yhteydessä asioihin X, Y ja Z.

Työkaluja Sankey-diagrammien toteuttamiseen

Excelistä ja Google Sheetsistä työkalut Sankey-diagrammien muotoiluun puuttuvat, mutta R:ään niiden rakentelun mahdollistavia paketteja on saatavilla.

Kokeilemani, hyväksi havaitsemani ja ilmainen työkalu Sankey-diagrammien tekoon ilmaisesti käytettävä SankeyMATIC-verkkosovellus. Mikäli omaa tutkimusaineistoa ei tahdo syöttää tietoturvasyistä tuntemattomalle sivulle, on sovelluksesta saatavilla myös tietokoneelle ladattava versio Githubista. Omalla tietokoneella käytettävää versiota ei tarvitse asentaa erikseen, vaan se toimi suoraan verkkoselaimessa klikkaamalla mukana tuleva index.html-tiedosto auki.

Lähteet

Harris, Robert L. (1999). Information Graphics. A Comprehensive Illustrated Reference. Oxford University Press.

Lamer, A., Laurent, G., Pelayo, S., Amrani, E. L., Chazard, E., & Marcilly, R. (2020). Exploring patient path through Sankey diagram: a proof of concept. Studies in health technology and informatics, 270. https://doi.org/10.3233/SHTI200154

Otto, E., Culakova, E., Meng, S., Zhang, Z., Xu, H., Mohile, S., & Flannery, M. A. (2022). Overview of Sankey flow diagrams: Focusing on symptom trajectories in older adults with advanced cancer. Journal of geriatric oncology, 13(5), 742–746. https://doi.org/10.1016%2Fj.jgo.2021.12.017

Tilastokeskus (2022). Muita kuviotyyppejä. Teoksessa Tilastokuviot tutuiksi. Haettu osoitteesta https://guides.stat.fi/tilastokuviot-tutuksi/muita-kuviotyyppeja 30.5.2024. 

Työkaluja

SankeyMatic-verkkosovellus Sankey-virtauskuvaajien tekemiseen: https://sankeymatic.com/

SankeyMatic on ladattavissa myös tietokoneelle GitHubista: https://github.com/nowthis/sankeymatic

NetworkD3-paketti R:ään: https://r-graph-gallery.com/sankey-diagram.html

Ville-Pekka Niskanen

Ville-Pekka Niskanen - Toteutus & tiede