MetaX-Blogi

Teemme ketterästi Suomen tutkimusaineistojen metatietovarantoa, joka tulee palvelemaan OKM:n tutkimusaineistopalveluita (esim. TPAS, IDA ja Etsin). Tässä blogissa käsitellään kehityksessä ajankohtaisia ja usein avoimia asioita, eikä mikään tässä esitetty edusta mitään virallisia linjauksia. Sen sijaan toivomme palautetta ja avointa keskustelua.

måndag 18 december 2017

Katalogeista

By Stuart Caie from Edinburgh, Scotland (Indexed) CC BY 2.0, via Wikimedia Commons


Tänään vaihtui taas sprintti. Edellisen sprintin aikana on paljon pohdittu versiointia (johon palaan joku toinen kerta piakkoin) sekä hakemistojen versus yksittäisten tiedostojen kuvailemista. Koska järjestelmiä on palvelukokonaisuudessamme useita (esimerkiksi tässä kyse on pitkälti MetaXin keskustelusta IDA:n ja kuvailutyökalun kanssa) pienilläkin yksityiskohdilla voi olla yllättävän suuria vaikutuksia järjestelmäkokonaisuuden muissa osissa. Pyrimme koko ajan varmistamaan sen, että käyttäjälle toiminnallisuudet näyttäytyvät selkeinä ja että aineistojen hallinta on luotettavaa. Pysyväksi tarkoitetun aineiston pitää olla suojassa tahattomilta muutoksilta, mutta järjestelmä ei toisaalta saa olla liian jäykkä. MetaXin monitasoisuus ja joustavuus ovat käsittääkseni aika uniikkeja. Tuntuu oikeasti, että olemme tekemässä jotain ihan uudenlaista, uudenaikaista palvelua.

Yksi juonne on järjestelmän sisäiset katalogit (Research Data Catalog). Ne mahdollistavat eri tietolähteistä tulevien metatietojen hallinnan yhdessä ja erikseen. Esimerkiksi kukin haravointilähde saa omat metatietonsa katalogiluetteloon. Haravointi tapahtuu Etsimen CKANin avulla. Haravointilähteinä ovat tähän asti olleet Tietoarkisto, Kielipankki ja SYKE. Myös esimerkiksi Zenodosta haravointi on onnistunut vanhaan Etsimeen. Kun haravointi ensi vuonna siirtyy MetaXiin, entistä tarkemmat mappaukset mahdollistuvat. Olemmekin jo hieman suunnitelleet uusia haravia, tosin esimerkiksi odottelemme vielä Tietoarkiston uuden rajapinnan DataCite-formaattia. Katsotaan miten saamme mahdollisimman nättiä ja täydellistä tietoa asiakkaillemme.

Seuraavassa sprintissä tehdään arkkitehtuuridokumentaatioita, perehdytetään uutta tiimiläistämme ja kirjoitellaan skriptejä aineistojen tiedoston kokojen ja määrien koostamiseen. Lisäksi esiin on noussut pohdintaa migraatiosta ja kasvavien aineistojen joustavasta ja selkeästä hallinnasta.

tisdag 12 december 2017

MetaX elää ja kehittyy


Auringonnousu Keilarannassa

MetaX-metatietovarantoa on nyt tehty neljäntoista sprintin verran. Työskentelemme noin kahden viikon sprinteissä. Tässä uudessa blogissa kerromme kehityksen etenemisestä ja toivomme palautetta ja kommentteja. Blogi on tarkoitettu henkilöille, jotka kehittävät ja ylläpitävät järjestelmiä ja palveluita, jotka tulevaisuudessa mahdollisesti hyödyntävät varantoa. Kehitystyötä tehdään pääosin CSC:llä, mutta meillä on läheistä yhteistyötä myös Kansalliskirjaston kehittäjien kanssa. 
Itse olen juuri aloittanut MetaX:in PO:na ja olen tästä innoissani. MetaX tulee olemaan täysin uudenlainen palvelu, joka palvelee niin IDAa ja tutkimusaineistojen pitkäaikaissäilytystä kuin kansallisia hakupalvelujakin. Tietomalli on uudenlainen ja rakentuu linkitetyn datan varaan. Tämä tarkoittaa, että tulemme kokoamaan tärkeitä referenssitietoja, joita muutkin voivat hyödyntää ja tällä tavoin helpottaa yhteentoimivuutta. Metaxin tietomalleja on useampia, ja niitä ylläpidetään ajantasaisesti IOW-palvelussa. 
MetaX tulee sisältämään useita eri katalogeja. Katalogien tiedot löytyvät omasta rakenteestaan, Research Data Catalog. Lisäksi kuvailemme IDAssa olevia tiedostoja omassa luettelossaan Data Storage Metadata -tietomallia hyödyntäen. Varsinaiset tutkimusaineistojen metatiedot ovat sitten Dataset-mallissa. Kaikki nämä ovat sovelluksia yhteisestä ATT -sovellusprofiilista
Työn edetessä tietomallit muuttuvat, ja joissain kohdissa muutoksia on myös viety ATT-sovellusprofiiliin. Varsinkin MetaX:in mallit saattavat vielä muuttua eli niitä voi vielä hyvin kommentoida ja toivommekin palautetta.