Olen aiemmin tässä blogissa maininnut referenssidatan tärkeänä osana Metaxin tarjontaa organisaatioille. Se on vielä kaikkea muuta kuin valmista, eikä se koskaan varmaan edes valmiiksi tule, kuten ei mikään tietomalli koskaan tässä muuttuvassa maailmassa. Tavoitteena on lisäksi yhdistää tutkimustietovarannon (TTV) referenssidatoja meidän datoihin, mutta miten työnjako tulevaisuudessa tulee tapahtumaan akselilla yhteentoimiva.suomi.fi, Finto, TTV ja Fairdata on vielä hämärän peitossa. Tavoitteena on tietenkin mahdollisimman yhtenäinen ja yksinkertainen referenssidatojen hallinta ja hyödyntäminen. Toistaiseksi olemme kuitenkin keränneet kaikkia mahdollisia relevantteja listoja ja tunnisteita. Haluamme, että Metaxin data on todella yhteentoimivaa, sillä on korkea prioriteetti.
Tällä hetkellä meillä on seuraavanlaisia settejä käytössä:
- Asiasanat (Finto, KOKO)
- Tieteenala (Finto, OKM-tieteenalat, nämä pitäisi vielä mapata re2orgin listaan kunhan ehdin)
- Luonnollinen kieli (Finto, Lexvo)
- Sijainti (Finto, YSO-paikat)
- Tutkimusifrat (APIsta https://avointiede.fi/ri-rajapinta)
- Organisaatio (Olemme koonneet oman json-tiedoston, jossa hyödynnetään samoja koodeja kuin tiedonkeruussa)
- MIME type (IANA - tämä on mielestäni suhteellisen turha, mutta on uinut moniin metatietoformaatteihin)
- Muiden resurssien luokitus (tämä on meidän oma listamme, osittain DC, halusimme mukaan esim APit)
- Tiedostotyyppiluokitus (myötäilee myös DCtermsejä, ääni, teksti, binääri jne)
- Resurssin kategorialuokitus, Use category. Tämä on mielestämme tärkeä innovaatio, jolla kerrotaan tiedoston funktio osana tiettyä datasettiä. Esimerkiksi onko kyseessä lisenssitiedosto, readme-tyyppinen dokumentaatio tai itse dataa.
- Tarkistussumman algoritmi
- Lisenssit
- Tekijän rooli (CASRAI contributorRole; Credit Taxonomy)
- Muun tekijän rooli (DataCite ContributorType)
- Tunnistetyyppi
- Saatavuusluokat (niitä on nyt 9, mutta toivomme, että käytössä olisi vain 7, linkittyy teknisesti myös käyttölupaprosessin ja pääsynhallintaan)
- Rajoitusperusteluokka (uuden tyyppinen metatieto: Jos rajoittaa saatavuutta on tälle annettava yksi yhdeksästä perusteesta, esim sopimus, etiikka tai joku lainsäädäntö)
- Rahoittajat (oma lista)
- Relaatiotyypit (näitä on 14, kaikki linkitetty muihin esim dctermsiin tai owliin)
- Aineiston elinkaaren tapahtumat. Näitä on kaksi eri settiä: "normaali" aineiston elinkaari sekä pitkäaikaissäilytykseen liittyvät (kuten migraatio tai PASsin tekemä validointi jne) Tähän liittyy myös tulossa oleva oma setti jossa on toimenpiteen tulos. Näissä on taustalla PREMIS-standardi. Kuten myös viimeisessä
- Tiedostoformaatin versiotieto.
Use Category |
Niille tiedoille joilla ei ole URI-tunnistetta luomme PURL-tunnisteen. Kaikkia näitä tulemme tarjoamaan sitten rajapinnan kautta avoimesti muillekin käyttöön, jotta on helppoa tuottaa yhteentoimivaa metatietoa tutkimusaineistoista. Tosin tässä on oltava tarkkana dokumentaation suhteen. Sitäkin pohdimme eilen, miten APIt parhaiten dokumentoitaisiin. Nyt ajateltiin jonkinlaista Swagger - Read the Docs - yhdistelmää. Kuulemmekin mielellämme mielipiteitä aiheesta, mikä mahtaisi olla hyvä ja selkeä tapa käyttäjiemme kannalta?
Inga kommentarer:
Skicka en kommentar