MetaX-Blogi

Teemme ketterästi Suomen tutkimusaineistojen metatietovarantoa, joka tulee palvelemaan OKM:n tutkimusaineistopalveluita (esim. TPAS, IDA ja Etsin). Tässä blogissa käsitellään kehityksessä ajankohtaisia ja usein avoimia asioita, eikä mikään tässä esitetty edusta mitään virallisia linjauksia. Sen sijaan toivomme palautetta ja avointa keskustelua.

fredag 31 augusti 2018

Pohdintaa metatietovirroista


Metax sisältää paljon tietoa suomalaisista tutkimusaineistoista. Varannon ytimen muodostavat Fairdata-palveluissa olevat tutkimusaineistojen metatiedot (IDA, pitkäaikaissaatavuuspalvelu) mutta Metax sisältää tulevaisuudessa myös muita järjestelmään manuaalisesti tai rajapinnan kautta luotuja metatietoja. Nämä metatiedot, joihin ei liity välttämättä suoraan datatiedostoja, viedään erilliseen ATT-katalogiin. Lisäksi Metaxiin luodaan jokaiselle haravointilähteelle oma katalogi. Eri katalogit mahdollistavat metatietojen hallinnan ja validoinnin erilaisten edellytysten ja tarpeiden pohjalta.

Metax tarjoaa aineistoille ja niiden kuvailuille URN-tunnisteita ja Etsin kuvailusivun. Pitkäaikaissäilytykseen menevät aineistot saavat DataCite-metatiedot. Fairdata-palveluilla on oma DOI-nimiavaruus, josta voidaan tulevaisuudessa tarjota DOI-tunnisteita myös IDA-säilytyspalvelussa oleville aineistoille. DOI-tunnisteita EI anneta Fairdata-palvelukokonaisuuden ulkopuolella säilytettäville aineistoille, koska niiden eheyttä emme voi mitenkään valvoa.

Metaxiin on tarkoitus kerätä mahdollisimman kattavasti tietoa suomalaisen tutkimuksen aineistoista. Siksi voimme kerätä myös aineistojen julkaisutietoja eri lähteistä, joiden laadun suhteen ei ole tarvitse olla niin tiukkoja vaatimuksia. Tästä Metaxiin mahdollisesti luotavasta Legacy-katalogista voidaan tutkia tunnisteita ja niiden avulla hakea alkuperäisiä metatietoja luotetuista tietoarkistoista. Niiden löytyessä, aineiston tiedot kopioitaisiin Metaxin ATT-katalogiin ja ne näkyisivät Etsimessä.


Tällä hetkellä haravoidaan jo uuteenkin järjestelmään metatietoja Kielipankista, Yhteiskuntatieteellisestä tietoarkistosta ja SYKE:n metatietokatalogista.  Yliopistojen kanssa on aiemmin käyty keskustelua tietojen siirtämisestä ja useat yliopistot ovat lähiaikoinakin olleet taas yhteydessä asian tiimoilta. Aihe on ollut välillä jäissä palvelu-uudistuksesta johtuen. Ammattikorkeakoulujen puolella järjestelmiä ei ole vielä yhtä paljon, mutta tutkimusaineistopalvelu on pystytetty ainakin SeAMKiin. Myös tutkimuslaitoksilla on hyvin paljon erilaisia tutkimusaineistoja, joiden metatietoja hallinnoidaan erilaisissa järjestelmissä. Tällä hetkellä ainoa käynnissä oleva haravointi on SYKE. Tälläkin puolella on kuitenkin hyviä mahdollisuuksia laajentaa tietojen siirtoa, joko haravoinnin tai kirjoitusrajapinnan kautta. Tärkeää on myös vielä miettiä miten saamme tiedot mahdollisimman tehokkaasti näkyviin kansainvälisissä palveluissa, sekä tietoja haettua hyvin maailmalta kotiin alkuperäislähteistä.

Prioisioinnin suhteen olemme miettineet seuraavanlaisia kriteereitä:
  • Metatiedot sisältävät URN- tai DOI-tunnisteen 
  • Kokonaisuus palvelee suurta määrää tutkijoita 
  • Tutkimusaineistoja ja metatietoja on paljon 
  • Tiedot ovat hyvälaatuisia ja sisältävät paljon pysyviä tunnisteita




Tutkimusaineistojen kopioituja metatietoja voidaan tarjota myös organisaatioille rajapinnan kautta "legacy"-katalogista käytettäväksi. Vaikka ne eivät ole välttämättä hyvälaatuisia, niiden avulla organisaatiot voisivat rikastaa omaa dataansa ja tutkia julkaisutietoja, eikä kaikkien organisaatioiden tarvitse itse tuoda dataa eri palveluista. 

torsdag 23 augusti 2018

Fairdata-kokonaisuuden tuotantoonmeno etenee

Fairdata-palvelukokonaisuuden tuotantoonmeno on edennyt. Kesän aikana on tapahtunut seuraavaa:
  • Kesäkuu 2018: uusi fairdata.fi -sivusto avatttiin ja palvelujen dokumentaatiota päivitettiin sivuille. Tuotantoon valmiille palvelukomponenteille tehtiin integraatiotestausta.
  • Heinäkuu 2018: uudistettu IDA avattiin uusille käyttäjille ja samalla MetaX siirtyi tiedostojen metatietojen osalta tuotantoon. Uusi Etsin avautui ja se näyttää harvestoitujen aineistojen metatietoja. Heinäkuussa valmistuivat myös ensimmäiset migraatiot vanhasta IDAsta uuteen IDAan.
  • Elokuu 2018: IDAn data- ja projektimigraatiot jatkuvat. MetaXin tietomalli lukitaan tuotantoonmenoa varten. Valmistaudutaan vanhan Etsimen metatietojen migroimiseen.
Syyskuulle on suunnitelmissa erityisesti Qvaimen testausta, komponenttien integraatiotestausta sekä testaamisessa havaittujen muutostarpeiden toteuttamista. Testausvaiheen jälkeen vanha Etsin suljetaan kuvailun osalta ja sen metatiedot migroidaan MetaXiin ja ne näytetään uudessa Etsimessä. Näillä näkymin IDAn projekti- ja datamigraatiot valmistuvat tai ovat ainakin lähes valmiit syyskuun loppuun mennessä.