MetaX-Blogi

Teemme ketterästi Suomen tutkimusaineistojen metatietovarantoa, joka tulee palvelemaan OKM:n tutkimusaineistopalveluita (esim. TPAS, IDA ja Etsin). Tässä blogissa käsitellään kehityksessä ajankohtaisia ja usein avoimia asioita, eikä mikään tässä esitetty edusta mitään virallisia linjauksia. Sen sijaan toivomme palautetta ja avointa keskustelua.

tisdag 10 juli 2018

Referenssidata

Eilisessä sprinttipalaverissa oli Joonas mukana viimeistä kertaa. Tällaista se on tällä alalla, kun mielenkiintoista tekemistä riittää ja tekijöistä on huutava pula. Käytännössä tämä tarkoittaa, että tiimimme hieman kutistuu, mutta onneksi meillä on messissä edelleen Miika, joka on oikeastaan koko Metaxin loistavan mallin isä. Muullakin tiimillä on niin rautainen osaaminen ja, mikä ihaninta, kyky ymmärtää äärimmäisen kompleksista Fairdata-PAS-kokonaisuuta ja suhtautua luovasti ja rohkeasti alati muuttuvaan tilanteeseen. PO:na tässä on suhteellisen helppoa olla osana tällaisen tiimin touhua. Vaikka Joonasta jäämmekin kaipaamaan.

Olen aiemmin tässä blogissa maininnut referenssidatan tärkeänä osana Metaxin tarjontaa organisaatioille. Se on vielä kaikkea muuta kuin valmista, eikä se koskaan varmaan edes valmiiksi tule, kuten ei mikään tietomalli koskaan tässä muuttuvassa maailmassa. Tavoitteena on lisäksi yhdistää tutkimustietovarannon (TTV) referenssidatoja meidän datoihin, mutta miten työnjako tulevaisuudessa tulee tapahtumaan akselilla yhteentoimiva.suomi.fi, Finto, TTV ja Fairdata on vielä hämärän peitossa. Tavoitteena on tietenkin mahdollisimman yhtenäinen ja yksinkertainen referenssidatojen hallinta ja hyödyntäminen. Toistaiseksi olemme kuitenkin keränneet kaikkia mahdollisia relevantteja listoja ja tunnisteita. Haluamme, että Metaxin data on todella yhteentoimivaa, sillä on korkea prioriteetti.

Tällä hetkellä meillä on seuraavanlaisia settejä käytössä:


  • Asiasanat (Finto, KOKO)
  • Tieteenala (Finto, OKM-tieteenalat, nämä pitäisi vielä mapata re2orgin listaan kunhan ehdin)
  • Luonnollinen kieli (Finto, Lexvo)
  • Sijainti (Finto, YSO-paikat)
  • Tutkimusifrat (APIsta https://avointiede.fi/ri-rajapinta)
  • Organisaatio (Olemme koonneet oman json-tiedoston, jossa hyödynnetään samoja koodeja kuin tiedonkeruussa)
  • MIME type (IANA - tämä on mielestäni suhteellisen turha, mutta on uinut moniin metatietoformaatteihin)
  • Muiden resurssien luokitus (tämä on meidän oma listamme, osittain DC, halusimme mukaan esim APit)
  • Tiedostotyyppiluokitus (myötäilee myös DCtermsejä, ääni, teksti, binääri jne)
  • Resurssin kategorialuokitus, Use category. Tämä on mielestämme tärkeä innovaatio, jolla kerrotaan tiedoston funktio osana tiettyä datasettiä. Esimerkiksi onko kyseessä lisenssitiedosto, readme-tyyppinen dokumentaatio tai itse dataa. 
  • Tarkistussumman algoritmi
  • Lisenssit 
  • Tekijän rooli (CASRAI contributorRole; Credit Taxonomy)
  • Muun tekijän rooli (DataCite ContributorType)
  • Tunnistetyyppi
  • Saatavuusluokat (niitä on nyt 9, mutta toivomme, että käytössä olisi vain 7, linkittyy teknisesti myös käyttölupaprosessin ja pääsynhallintaan)
  • Rajoitusperusteluokka (uuden tyyppinen metatieto: Jos rajoittaa saatavuutta on tälle annettava yksi yhdeksästä perusteesta, esim sopimus, etiikka tai joku lainsäädäntö)
  • Rahoittajat (oma lista)
  • Relaatiotyypit (näitä on 14, kaikki linkitetty muihin esim dctermsiin tai owliin)
  • Aineiston elinkaaren tapahtumat. Näitä on kaksi eri settiä: "normaali" aineiston elinkaari sekä pitkäaikaissäilytykseen liittyvät (kuten migraatio tai PASsin tekemä validointi jne) Tähän liittyy myös tulossa oleva oma setti jossa on toimenpiteen tulos. Näissä on taustalla PREMIS-standardi. Kuten myös viimeisessä
  • Tiedostoformaatin versiotieto.

Use Category

Niille tiedoille joilla ei ole URI-tunnistetta luomme PURL-tunnisteen. Kaikkia näitä tulemme tarjoamaan sitten rajapinnan kautta avoimesti muillekin käyttöön, jotta on helppoa tuottaa yhteentoimivaa metatietoa tutkimusaineistoista. Tosin tässä on oltava tarkkana dokumentaation suhteen. Sitäkin pohdimme eilen, miten APIt parhaiten dokumentoitaisiin. Nyt ajateltiin jonkinlaista Swagger - Read the Docs - yhdistelmää. Kuulemmekin mielellämme mielipiteitä aiheesta, mikä mahtaisi olla hyvä ja selkeä tapa käyttäjiemme kannalta?