MetaX-Blogi

Teemme ketterästi Suomen tutkimusaineistojen metatietovarantoa, joka tulee palvelemaan OKM:n tutkimusaineistopalveluita (esim. TPAS, IDA ja Etsin). Tässä blogissa käsitellään kehityksessä ajankohtaisia ja usein avoimia asioita, eikä mikään tässä esitetty edusta mitään virallisia linjauksia. Sen sijaan toivomme palautetta ja avointa keskustelua.

fredag 26 januari 2018

Tutkimuksen aineistot ja niiden pysyvät tunnisteet



Tutkimusdataa on monenlaista ja sitä voi luokitella ja jaotella monella eri tavalla. Yksi tapa, joka on erityisen keskeinen kun puhutaan aineistojen elinkaaren hallinnasta ja tutkimuksen toistettavuuden tarpeista, on jakaa aineistot dynaamisiin, karttuviin ja staattisiin aineistoihin. Olemme Metaxin tiimissä työstäneet seuraavanlaista ratkaisua.

Dynaamiset aineistot ovat tietokantatyyppisiä ja niissä tehdään versionhallintaa. Niissä viittaukset (ja niissä käytettävät pysyvät tunnisteet) voivat vaikka olla tietokantakyselyitä. Näille aineistoille on tehty Research Data Alliance-työryhmässä omat viittausohjeet. Tällä hetkellä palvelukokonaisuutemme ei ainakaan vielä suoraan kata tämän tyyppisten aineistojen pitkäaikaista aineistonhallintaa tai pysyviä tunnisteita. Dynaamisia aineistoja ylläpidetäänkin pääosin tutkimusalakohtaissa asiantuntijaorganisaatioissa, sillä niiden ylläpitäminen ja hallinnointi vaatii erityisosaamista. Ne voivat myös olla riippuvaisia eri alojen erilaisista tarpeista ja käytännöistä. Mutta jos haluaa, metatietovarantoon voi tallentaa tällaisen luotettavan lähteen uri-tunnisteen remote resource-kohtaan ja kuvailla sen.


Staattinen aineisto on “perinteinen” tutkimusjulkaisu, jonka tunniste on ehdoton tae aineiston ainutkertaisuudesta ja siitä, että se on aina identtinen milloin ja mistä vaan siihen löytää tiensä. Kunnes se ehkä poistetaan tarpeettomana tai virheellisenä. Silloinkin sen tunniste resolvoituu edelleen kuvailusivulle. Jos staattinen aineisto muuttuu, siitä syntyy uusi versio, joka saa uuden oman pysyvän tunnisteen, joka linkittyy edellisiin versioihin. Tulemme hakupalvelussamme indeksoimaan vain uusimman version metatiedot, mutta niistä pääsee aina myös edellisiin versioihin. Vanhan version tunniste johtaa aina oikealle sivulle, mutta siitä näkee, että uudempiakin versioita on. Tällä tavoin viittaaminen on tutkijoille turvallista ja selkeää.


Karttuvat aineistot ovat hieman uudenlainen aineistotyyppi, vaikka sitä on jo suositeltu aiemmin.  Se sopii erityisesti erilaiselle mittausdatalle tai muille kasvaville aineistoille, joita kertyy aikasarjoina ja formaatiltaan täysin yhtenäisenä. Tällaista tarvetta varten ei ole tarpeen luoda uusia tunnisteita (metatietosettejä) joka kerta kun uutta dataa lisätään uudessa tiedostossa. Sen sijaan tällaisen avoimen datasetin kohdalla sallitaan vain yhdenlainen muutos: tiedoston lisääminen, mikä tallennetaan tapahtumana. Mikäli parametrit tai laatu jotenkin muuttuu, aineisto on suljettava. Siitä voi tehdä uuden version tai aloittaa uuden aineiston keräämisen uusilla metatiedoilla. Tällainen aineisto, joka on avoimessa tilassa, ei siis ole kokonaisuutena välttämättä täysin identtinen joka kerta kun tunnisteen kautta sinne päätyy. Silti viittaaminen on turvallista, koska olemassa oleviin tiedostoihin ei voi kajota. Mikäli tekijä poistaa tiedostoja, aineisto rikkoontuu ja poistuu, mutta muistosivu jää. Aineistosta voi tehdä uuden version, johon voi sitten viitata. Koska viittaamisohje on osa hakupalveluiden tehtävää, voidaan viittausohje laatia tälle aineistotyypille sopivalla tavalla, siten että viittamisen yhteydessä on syytä tarkentaa mitä osaa ainestossa on käytetty esim. päivämäärien avulla.

måndag 8 januari 2018

Lomiltapaluu isojen kysymysten äärelle


Ensimmäinen hahmotelma MetaXin softa-arkkitehtuurista


Tänään alkoi joululomien jälkeen uusi sprintti ja palattiin taas hieman paremmin organisoituun toimintamalliin. Lomien jälkeiset keskustelut koskivat muun muassa dokumentaation ja arkkitehtuurikuvien tuottamista. Sovimme myös pysyvien tunnisteiden käytöstä taas vähän lisää ja keskustelimme karttuvien aineistojen asettamista vaatimuksista. Ennen joulua tutkimusaineisto (Dataset) tietomalliin ilmestyi myös Restriction grounds eli assosiaatio, jonka avulla kerrotaan käyttörajoitusten peruste. Muuten käyttöoikeuksien metatiedoista voi lukea lisää viime vuonna julkaistusta selvityksestä,  jonka liitteistä löytää paljon relevanttia tietoa.

Pysyvien tunnisteiden osalta tärkeimpiä ovat tutkimusaineistojen ja aineistokatalogien tunnisteet. Ne tulevat näillä näkymin saamaan urn-muotoiset resolvoituvat tunnisteet. MetaX antaa näitä tunnisteita ja huolehtii siitä, että Kansalliskirjaston resolverilla on oikea tieto kuvailusivujen verkko-osoitteista. Tässä vaiheessa vältämme resolvoituvien tunnisteiden jakamista millekään muulle, ja palvelukokonaisuudessa tullaan operoimaan UUID:n varassa. Pyrimme välttämään semantiikkaa mahdollisimman tarkkaan, jotta tunnisteet olisivat tyhmiä, kuten sekä EU:n että kypsissä tutkimusaineistoyhteyksissä suositellaan.