MetaX-Blogi

Teemme ketterästi Suomen tutkimusaineistojen metatietovarantoa, joka tulee palvelemaan OKM:n tutkimusaineistopalveluita (esim. TPAS, IDA ja Etsin). Tässä blogissa käsitellään kehityksessä ajankohtaisia ja usein avoimia asioita, eikä mikään tässä esitetty edusta mitään virallisia linjauksia. Sen sijaan toivomme palautetta ja avointa keskustelua.

fredag 31 augusti 2018

Pohdintaa metatietovirroista


Metax sisältää paljon tietoa suomalaisista tutkimusaineistoista. Varannon ytimen muodostavat Fairdata-palveluissa olevat tutkimusaineistojen metatiedot (IDA, pitkäaikaissaatavuuspalvelu) mutta Metax sisältää tulevaisuudessa myös muita järjestelmään manuaalisesti tai rajapinnan kautta luotuja metatietoja. Nämä metatiedot, joihin ei liity välttämättä suoraan datatiedostoja, viedään erilliseen ATT-katalogiin. Lisäksi Metaxiin luodaan jokaiselle haravointilähteelle oma katalogi. Eri katalogit mahdollistavat metatietojen hallinnan ja validoinnin erilaisten edellytysten ja tarpeiden pohjalta.

Metax tarjoaa aineistoille ja niiden kuvailuille URN-tunnisteita ja Etsin kuvailusivun. Pitkäaikaissäilytykseen menevät aineistot saavat DataCite-metatiedot. Fairdata-palveluilla on oma DOI-nimiavaruus, josta voidaan tulevaisuudessa tarjota DOI-tunnisteita myös IDA-säilytyspalvelussa oleville aineistoille. DOI-tunnisteita EI anneta Fairdata-palvelukokonaisuuden ulkopuolella säilytettäville aineistoille, koska niiden eheyttä emme voi mitenkään valvoa.

Metaxiin on tarkoitus kerätä mahdollisimman kattavasti tietoa suomalaisen tutkimuksen aineistoista. Siksi voimme kerätä myös aineistojen julkaisutietoja eri lähteistä, joiden laadun suhteen ei ole tarvitse olla niin tiukkoja vaatimuksia. Tästä Metaxiin mahdollisesti luotavasta Legacy-katalogista voidaan tutkia tunnisteita ja niiden avulla hakea alkuperäisiä metatietoja luotetuista tietoarkistoista. Niiden löytyessä, aineiston tiedot kopioitaisiin Metaxin ATT-katalogiin ja ne näkyisivät Etsimessä.


Tällä hetkellä haravoidaan jo uuteenkin järjestelmään metatietoja Kielipankista, Yhteiskuntatieteellisestä tietoarkistosta ja SYKE:n metatietokatalogista.  Yliopistojen kanssa on aiemmin käyty keskustelua tietojen siirtämisestä ja useat yliopistot ovat lähiaikoinakin olleet taas yhteydessä asian tiimoilta. Aihe on ollut välillä jäissä palvelu-uudistuksesta johtuen. Ammattikorkeakoulujen puolella järjestelmiä ei ole vielä yhtä paljon, mutta tutkimusaineistopalvelu on pystytetty ainakin SeAMKiin. Myös tutkimuslaitoksilla on hyvin paljon erilaisia tutkimusaineistoja, joiden metatietoja hallinnoidaan erilaisissa järjestelmissä. Tällä hetkellä ainoa käynnissä oleva haravointi on SYKE. Tälläkin puolella on kuitenkin hyviä mahdollisuuksia laajentaa tietojen siirtoa, joko haravoinnin tai kirjoitusrajapinnan kautta. Tärkeää on myös vielä miettiä miten saamme tiedot mahdollisimman tehokkaasti näkyviin kansainvälisissä palveluissa, sekä tietoja haettua hyvin maailmalta kotiin alkuperäislähteistä.

Prioisioinnin suhteen olemme miettineet seuraavanlaisia kriteereitä:
  • Metatiedot sisältävät URN- tai DOI-tunnisteen 
  • Kokonaisuus palvelee suurta määrää tutkijoita 
  • Tutkimusaineistoja ja metatietoja on paljon 
  • Tiedot ovat hyvälaatuisia ja sisältävät paljon pysyviä tunnisteita




Tutkimusaineistojen kopioituja metatietoja voidaan tarjota myös organisaatioille rajapinnan kautta "legacy"-katalogista käytettäväksi. Vaikka ne eivät ole välttämättä hyvälaatuisia, niiden avulla organisaatiot voisivat rikastaa omaa dataansa ja tutkia julkaisutietoja, eikä kaikkien organisaatioiden tarvitse itse tuoda dataa eri palveluista. 

Inga kommentarer:

Skicka en kommentar