MetaX-Blogi

Teemme ketterästi Suomen tutkimusaineistojen metatietovarantoa, joka tulee palvelemaan OKM:n tutkimusaineistopalveluita (esim. TPAS, IDA ja Etsin). Tässä blogissa käsitellään kehityksessä ajankohtaisia ja usein avoimia asioita, eikä mikään tässä esitetty edusta mitään virallisia linjauksia. Sen sijaan toivomme palautetta ja avointa keskustelua.

måndag 29 oktober 2018

Fairdata-koulutus ja Metax-työpaja

Viime perjantaina oli ensimmäinen Fairdata-koulutustilaisuus CSC:llä. Kävimme yhdessä läpi palveluita ja testailimme IDAa ja Etsintä.





Lounaan jälkeen meillä oli pieni mutta rautainen Metax-työpaja. jossa aluksi kävimme läpi Metaxin rakennetta ja mahdollisia tietovirtoja/rajapintojen käyttötapauksia. Keskustelu oli tosin hyvin yleisellä tasolla ja pääosin keskityimme sitten käytäntöön, eli Hannun johdolla REST API:n testaamiseen. Totesimme, että olisi hyvä pitää vielä uusi työpaja tietovirroista ja rajapinnan käytöstä, joka sinänsä on suhteellisen selkeää. Eniten vaatii pohdintaa ehkä referenssidatojen käyttö. Koska osa niistä on pakollisia, asia vaatii hieman opiskelua, vaikka metatietojen tuottamisen alkuun pääsee muuten aika helposti.

tisdag 23 oktober 2018

Referenssidatasta koodistoja

Metaxissa on ollut jonkin aikaa pieni radiohiljaisuus, koska olemme valmistautumassa Fairdata-palvelukokonaisuuden tuotantoonvientiin lähiaikoina. Perjantaina on koulutustilaisuus, jossa muun muassa tutustumme Metaxin uuteen rajapintaan.

Referenssidatat on nyt siirretty kansalliseen koodistopalveluun. Ajatuksena on, että organisaatioista tehtäisiin vuosittaiset uudet versiot.

Muuten pohdimme esimerkiksi pitkäaikaissäilytykseen viemiseen liittyvien prosessien yksityiskohtia.

Olettehan kaikki huomanneet IDA:n uudet hienot esittelyvideot?

fredag 31 augusti 2018

Pohdintaa metatietovirroista


Metax sisältää paljon tietoa suomalaisista tutkimusaineistoista. Varannon ytimen muodostavat Fairdata-palveluissa olevat tutkimusaineistojen metatiedot (IDA, pitkäaikaissaatavuuspalvelu) mutta Metax sisältää tulevaisuudessa myös muita järjestelmään manuaalisesti tai rajapinnan kautta luotuja metatietoja. Nämä metatiedot, joihin ei liity välttämättä suoraan datatiedostoja, viedään erilliseen ATT-katalogiin. Lisäksi Metaxiin luodaan jokaiselle haravointilähteelle oma katalogi. Eri katalogit mahdollistavat metatietojen hallinnan ja validoinnin erilaisten edellytysten ja tarpeiden pohjalta.

Metax tarjoaa aineistoille ja niiden kuvailuille URN-tunnisteita ja Etsin kuvailusivun. Pitkäaikaissäilytykseen menevät aineistot saavat DataCite-metatiedot. Fairdata-palveluilla on oma DOI-nimiavaruus, josta voidaan tulevaisuudessa tarjota DOI-tunnisteita myös IDA-säilytyspalvelussa oleville aineistoille. DOI-tunnisteita EI anneta Fairdata-palvelukokonaisuuden ulkopuolella säilytettäville aineistoille, koska niiden eheyttä emme voi mitenkään valvoa.

Metaxiin on tarkoitus kerätä mahdollisimman kattavasti tietoa suomalaisen tutkimuksen aineistoista. Siksi voimme kerätä myös aineistojen julkaisutietoja eri lähteistä, joiden laadun suhteen ei ole tarvitse olla niin tiukkoja vaatimuksia. Tästä Metaxiin mahdollisesti luotavasta Legacy-katalogista voidaan tutkia tunnisteita ja niiden avulla hakea alkuperäisiä metatietoja luotetuista tietoarkistoista. Niiden löytyessä, aineiston tiedot kopioitaisiin Metaxin ATT-katalogiin ja ne näkyisivät Etsimessä.


Tällä hetkellä haravoidaan jo uuteenkin järjestelmään metatietoja Kielipankista, Yhteiskuntatieteellisestä tietoarkistosta ja SYKE:n metatietokatalogista.  Yliopistojen kanssa on aiemmin käyty keskustelua tietojen siirtämisestä ja useat yliopistot ovat lähiaikoinakin olleet taas yhteydessä asian tiimoilta. Aihe on ollut välillä jäissä palvelu-uudistuksesta johtuen. Ammattikorkeakoulujen puolella järjestelmiä ei ole vielä yhtä paljon, mutta tutkimusaineistopalvelu on pystytetty ainakin SeAMKiin. Myös tutkimuslaitoksilla on hyvin paljon erilaisia tutkimusaineistoja, joiden metatietoja hallinnoidaan erilaisissa järjestelmissä. Tällä hetkellä ainoa käynnissä oleva haravointi on SYKE. Tälläkin puolella on kuitenkin hyviä mahdollisuuksia laajentaa tietojen siirtoa, joko haravoinnin tai kirjoitusrajapinnan kautta. Tärkeää on myös vielä miettiä miten saamme tiedot mahdollisimman tehokkaasti näkyviin kansainvälisissä palveluissa, sekä tietoja haettua hyvin maailmalta kotiin alkuperäislähteistä.

Prioisioinnin suhteen olemme miettineet seuraavanlaisia kriteereitä:
  • Metatiedot sisältävät URN- tai DOI-tunnisteen 
  • Kokonaisuus palvelee suurta määrää tutkijoita 
  • Tutkimusaineistoja ja metatietoja on paljon 
  • Tiedot ovat hyvälaatuisia ja sisältävät paljon pysyviä tunnisteita




Tutkimusaineistojen kopioituja metatietoja voidaan tarjota myös organisaatioille rajapinnan kautta "legacy"-katalogista käytettäväksi. Vaikka ne eivät ole välttämättä hyvälaatuisia, niiden avulla organisaatiot voisivat rikastaa omaa dataansa ja tutkia julkaisutietoja, eikä kaikkien organisaatioiden tarvitse itse tuoda dataa eri palveluista. 

torsdag 23 augusti 2018

Fairdata-kokonaisuuden tuotantoonmeno etenee

Fairdata-palvelukokonaisuuden tuotantoonmeno on edennyt. Kesän aikana on tapahtunut seuraavaa:
  • Kesäkuu 2018: uusi fairdata.fi -sivusto avatttiin ja palvelujen dokumentaatiota päivitettiin sivuille. Tuotantoon valmiille palvelukomponenteille tehtiin integraatiotestausta.
  • Heinäkuu 2018: uudistettu IDA avattiin uusille käyttäjille ja samalla MetaX siirtyi tiedostojen metatietojen osalta tuotantoon. Uusi Etsin avautui ja se näyttää harvestoitujen aineistojen metatietoja. Heinäkuussa valmistuivat myös ensimmäiset migraatiot vanhasta IDAsta uuteen IDAan.
  • Elokuu 2018: IDAn data- ja projektimigraatiot jatkuvat. MetaXin tietomalli lukitaan tuotantoonmenoa varten. Valmistaudutaan vanhan Etsimen metatietojen migroimiseen.
Syyskuulle on suunnitelmissa erityisesti Qvaimen testausta, komponenttien integraatiotestausta sekä testaamisessa havaittujen muutostarpeiden toteuttamista. Testausvaiheen jälkeen vanha Etsin suljetaan kuvailun osalta ja sen metatiedot migroidaan MetaXiin ja ne näytetään uudessa Etsimessä. Näillä näkymin IDAn projekti- ja datamigraatiot valmistuvat tai ovat ainakin lähes valmiit syyskuun loppuun mennessä.



tisdag 10 juli 2018

Referenssidata

Eilisessä sprinttipalaverissa oli Joonas mukana viimeistä kertaa. Tällaista se on tällä alalla, kun mielenkiintoista tekemistä riittää ja tekijöistä on huutava pula. Käytännössä tämä tarkoittaa, että tiimimme hieman kutistuu, mutta onneksi meillä on messissä edelleen Miika, joka on oikeastaan koko Metaxin loistavan mallin isä. Muullakin tiimillä on niin rautainen osaaminen ja, mikä ihaninta, kyky ymmärtää äärimmäisen kompleksista Fairdata-PAS-kokonaisuuta ja suhtautua luovasti ja rohkeasti alati muuttuvaan tilanteeseen. PO:na tässä on suhteellisen helppoa olla osana tällaisen tiimin touhua. Vaikka Joonasta jäämmekin kaipaamaan.

Olen aiemmin tässä blogissa maininnut referenssidatan tärkeänä osana Metaxin tarjontaa organisaatioille. Se on vielä kaikkea muuta kuin valmista, eikä se koskaan varmaan edes valmiiksi tule, kuten ei mikään tietomalli koskaan tässä muuttuvassa maailmassa. Tavoitteena on lisäksi yhdistää tutkimustietovarannon (TTV) referenssidatoja meidän datoihin, mutta miten työnjako tulevaisuudessa tulee tapahtumaan akselilla yhteentoimiva.suomi.fi, Finto, TTV ja Fairdata on vielä hämärän peitossa. Tavoitteena on tietenkin mahdollisimman yhtenäinen ja yksinkertainen referenssidatojen hallinta ja hyödyntäminen. Toistaiseksi olemme kuitenkin keränneet kaikkia mahdollisia relevantteja listoja ja tunnisteita. Haluamme, että Metaxin data on todella yhteentoimivaa, sillä on korkea prioriteetti.

Tällä hetkellä meillä on seuraavanlaisia settejä käytössä:


  • Asiasanat (Finto, KOKO)
  • Tieteenala (Finto, OKM-tieteenalat, nämä pitäisi vielä mapata re2orgin listaan kunhan ehdin)
  • Luonnollinen kieli (Finto, Lexvo)
  • Sijainti (Finto, YSO-paikat)
  • Tutkimusifrat (APIsta https://avointiede.fi/ri-rajapinta)
  • Organisaatio (Olemme koonneet oman json-tiedoston, jossa hyödynnetään samoja koodeja kuin tiedonkeruussa)
  • MIME type (IANA - tämä on mielestäni suhteellisen turha, mutta on uinut moniin metatietoformaatteihin)
  • Muiden resurssien luokitus (tämä on meidän oma listamme, osittain DC, halusimme mukaan esim APit)
  • Tiedostotyyppiluokitus (myötäilee myös DCtermsejä, ääni, teksti, binääri jne)
  • Resurssin kategorialuokitus, Use category. Tämä on mielestämme tärkeä innovaatio, jolla kerrotaan tiedoston funktio osana tiettyä datasettiä. Esimerkiksi onko kyseessä lisenssitiedosto, readme-tyyppinen dokumentaatio tai itse dataa. 
  • Tarkistussumman algoritmi
  • Lisenssit 
  • Tekijän rooli (CASRAI contributorRole; Credit Taxonomy)
  • Muun tekijän rooli (DataCite ContributorType)
  • Tunnistetyyppi
  • Saatavuusluokat (niitä on nyt 9, mutta toivomme, että käytössä olisi vain 7, linkittyy teknisesti myös käyttölupaprosessin ja pääsynhallintaan)
  • Rajoitusperusteluokka (uuden tyyppinen metatieto: Jos rajoittaa saatavuutta on tälle annettava yksi yhdeksästä perusteesta, esim sopimus, etiikka tai joku lainsäädäntö)
  • Rahoittajat (oma lista)
  • Relaatiotyypit (näitä on 14, kaikki linkitetty muihin esim dctermsiin tai owliin)
  • Aineiston elinkaaren tapahtumat. Näitä on kaksi eri settiä: "normaali" aineiston elinkaari sekä pitkäaikaissäilytykseen liittyvät (kuten migraatio tai PASsin tekemä validointi jne) Tähän liittyy myös tulossa oleva oma setti jossa on toimenpiteen tulos. Näissä on taustalla PREMIS-standardi. Kuten myös viimeisessä
  • Tiedostoformaatin versiotieto.

Use Category

Niille tiedoille joilla ei ole URI-tunnistetta luomme PURL-tunnisteen. Kaikkia näitä tulemme tarjoamaan sitten rajapinnan kautta avoimesti muillekin käyttöön, jotta on helppoa tuottaa yhteentoimivaa metatietoa tutkimusaineistoista. Tosin tässä on oltava tarkkana dokumentaation suhteen. Sitäkin pohdimme eilen, miten APIt parhaiten dokumentoitaisiin. Nyt ajateltiin jonkinlaista Swagger - Read the Docs - yhdistelmää. Kuulemmekin mielellämme mielipiteitä aiheesta, mikä mahtaisi olla hyvä ja selkeä tapa käyttäjiemme kannalta?



onsdag 20 juni 2018

Metax & OAI-PMH metadata harvesting

Soon to be launched Metax is the metadata repository at the heart of the Fairdata services. Since it does not have a graphical user interface, all of the interactions are handled through APIs. Metax REST API provide a set of restricted endpoints for integrated services to manipulate the state of the repository, as well as an openly available read-only data regarding datasets, data catalogs and schemas.

In order to match the capabilities of the current/old/to be deprecated Etsin service, Metax also acts as an OAI-PMH data provider. OAI-PMH specification defines a set of actions and an xml based container format for harvesting metadata according to different schemas. The API can be used for bulk harvesting, where the all the metadata is downloaded in its entirety, or for selective harvesting based on sets and/or modification date of the record.

Currently Metax exposes the following sets for harvesting:


  • att_dataset - datasets that consists of external/remote resources. 
  • ida_datasets - datasets whose content is stored and maintained by the IDA service.
  • datasets - records from both ATT and IDA catalogs
  • datacatalogs - List of available data catalogs. This includes also catalogs that are populated with externally harvested content.


Harvested records contain a header with an identifier, timestamp and possible set specification, and a metadata section that conforms to the requested metadata format. There has been a lot of internal discussion about versions and identifiers in Metax (see blog this blog post). The OAI-PMH interface uses the metadata identifier (i.e. metadata version identifier) as opposed to dataset's preferred identifier for its dataset records. Metadata identifiers are always UUIDs created internally by Metax. Some of the dataset identifiers are also URN's generated by Metax, but they can also be for example DOIs assigned and maintained outside Metax and Fairdata services. Data catalogs are purely internal concept so the same one identifier is used to refer to the metadata and the actual catalog.

Metax currently has support for simple oai_dc (link) and a more complex and usable Datacite 4.1 formats for metadata output. The OAI-PMH output is geared towards harvesting through "standard" formats, and the full data according to Metax's internal data model is available through the REST API. There are however couple of deviations from the Datacite specs. The specification only allows DOIs as the primary identifier for the dataset, but at least for now, the most prominent type of identifier is URN that has been minted by Metax itself. Also the content of the element is expressed using three letter code instead of two letters. These are hopefully small potatoes for the consumers of the data and something that can be fixed as the development of Metax moves along.

What is still missing from the implementation is the handling of deleted records. When a user removes a dataset records, Metax flags it as deleted and retains the actual record. This would allow us to implement persistent handling of deleted records in the OAI-PMH interface. The twist that complicates the implementation is that the URN resolver is going to be using the OAI-PMH interface as its source data. The resolver is responsible for providing redirection from urn.fi/[identifier] addresses to the Fairdata Etsin urls. Should the identifiers of deleted datasets still resolve to a page in Etsin that says that dataset was deleted? This would be beneficial for example, if the page contains contains links to newer/other versions of the deleted dataset.

fredag 25 maj 2018

API-pohdintaa

Olemme käyneet hieman läpi millaisia rajapintoja meillä Metaxissa on nyt ensimmäisessä vaiheessa. Kun vanha Etsin poistuu käytöstä kuvailun siirtyessä Qvain-palveluun, Etsimen nykyinen rajapintakin vanhenee. Tulevaisuudessahan ajantasaiset metatiedot löytyvät meiltä MetaXista. Tosin MetaXin APIssa ei ole mitään sen hienompia hakutoiminnallisuuksia (vielä ainakaan) vaan se lähinnä vastaille pid-kyselyihin. Varsinainen indeksinti tehdään Etsimen puolella, mutta siellä taas ei ole täydellisiä tietoja kaikista dataseteistä (esim. vanhat versiot).

Toinen kiinnostava fairdata-rajapinta tulee olemaan Metaxin kyljessä oleva ElasticSearch, joka tarjoaa referenssidatoja, eli relevantteja tunnisteita, joista voi olla hyötyä myös tutkimusorganisaatioille.

Tässä alustava lista varsinaisen Metaxin rajapinnoista (huom: voi vielä muuttua!) Nykyisen Etsimen rajapintojen hyödyntäjien on siis syytä varautua muutoksiin ja olla yhteydessä meihin, jotta voimme auttaa ylimenokauden aikana.

API
URL
Fairdata users
World Access
Comment
OAI-PMH
URN resolving
Read only
Format: DataCite
Dataset/rest/datasets
Writes: Qvain, Etsin, PAS
Reads: Qvain, Etsin, PAS, OD
Read only
For non-service users, the following fields are removed:
  • phone
  • email
Data Catalog/rest/datacatalogs
Writes: Metax, Etsin
Reads: Qvain
Read only
Schemas/rest/schemasReads: Qvain(?)Read onlyServes the schemas used by datacatalogs
File
Writes: IDA
Reads: IDA,OD, PAS
Closed
Contract
Writes: PAS
Reads: PAS
Closed
File Storage
Writes: MetaxClosed
Directories
Writes: Non-writable
Reads: Etsin, Qvain, OD
Closed
Api for browsing files:
  • Frozen files
  • Files associated with a dataset
Api Errors
Writes: Metax
Reads: Metax
ClosedServes details about errors occurred during requests