MetaX-Blogi

Teemme ketterästi Suomen tutkimusaineistojen metatietovarantoa, joka tulee palvelemaan OKM:n tutkimusaineistopalveluita (esim. TPAS, IDA ja Etsin). Tässä blogissa käsitellään kehityksessä ajankohtaisia ja usein avoimia asioita, eikä mikään tässä esitetty edusta mitään virallisia linjauksia. Sen sijaan toivomme palautetta ja avointa keskustelua.

tisdag 10 juli 2018

Referenssidata

Eilisessä sprinttipalaverissa oli Joonas mukana viimeistä kertaa. Tällaista se on tällä alalla, kun mielenkiintoista tekemistä riittää ja tekijöistä on huutava pula. Käytännössä tämä tarkoittaa, että tiimimme hieman kutistuu, mutta onneksi meillä on messissä edelleen Miika, joka on oikeastaan koko Metaxin loistavan mallin isä. Muullakin tiimillä on niin rautainen osaaminen ja, mikä ihaninta, kyky ymmärtää äärimmäisen kompleksista Fairdata-PAS-kokonaisuuta ja suhtautua luovasti ja rohkeasti alati muuttuvaan tilanteeseen. PO:na tässä on suhteellisen helppoa olla osana tällaisen tiimin touhua. Vaikka Joonasta jäämmekin kaipaamaan.

Olen aiemmin tässä blogissa maininnut referenssidatan tärkeänä osana Metaxin tarjontaa organisaatioille. Se on vielä kaikkea muuta kuin valmista, eikä se koskaan varmaan edes valmiiksi tule, kuten ei mikään tietomalli koskaan tässä muuttuvassa maailmassa. Tavoitteena on lisäksi yhdistää tutkimustietovarannon (TTV) referenssidatoja meidän datoihin, mutta miten työnjako tulevaisuudessa tulee tapahtumaan akselilla yhteentoimiva.suomi.fi, Finto, TTV ja Fairdata on vielä hämärän peitossa. Tavoitteena on tietenkin mahdollisimman yhtenäinen ja yksinkertainen referenssidatojen hallinta ja hyödyntäminen. Toistaiseksi olemme kuitenkin keränneet kaikkia mahdollisia relevantteja listoja ja tunnisteita. Haluamme, että Metaxin data on todella yhteentoimivaa, sillä on korkea prioriteetti.

Tällä hetkellä meillä on seuraavanlaisia settejä käytössä:


  • Asiasanat (Finto, KOKO)
  • Tieteenala (Finto, OKM-tieteenalat, nämä pitäisi vielä mapata re2orgin listaan kunhan ehdin)
  • Luonnollinen kieli (Finto, Lexvo)
  • Sijainti (Finto, YSO-paikat)
  • Tutkimusifrat (APIsta https://avointiede.fi/ri-rajapinta)
  • Organisaatio (Olemme koonneet oman json-tiedoston, jossa hyödynnetään samoja koodeja kuin tiedonkeruussa)
  • MIME type (IANA - tämä on mielestäni suhteellisen turha, mutta on uinut moniin metatietoformaatteihin)
  • Muiden resurssien luokitus (tämä on meidän oma listamme, osittain DC, halusimme mukaan esim APit)
  • Tiedostotyyppiluokitus (myötäilee myös DCtermsejä, ääni, teksti, binääri jne)
  • Resurssin kategorialuokitus, Use category. Tämä on mielestämme tärkeä innovaatio, jolla kerrotaan tiedoston funktio osana tiettyä datasettiä. Esimerkiksi onko kyseessä lisenssitiedosto, readme-tyyppinen dokumentaatio tai itse dataa. 
  • Tarkistussumman algoritmi
  • Lisenssit 
  • Tekijän rooli (CASRAI contributorRole; Credit Taxonomy)
  • Muun tekijän rooli (DataCite ContributorType)
  • Tunnistetyyppi
  • Saatavuusluokat (niitä on nyt 9, mutta toivomme, että käytössä olisi vain 7, linkittyy teknisesti myös käyttölupaprosessin ja pääsynhallintaan)
  • Rajoitusperusteluokka (uuden tyyppinen metatieto: Jos rajoittaa saatavuutta on tälle annettava yksi yhdeksästä perusteesta, esim sopimus, etiikka tai joku lainsäädäntö)
  • Rahoittajat (oma lista)
  • Relaatiotyypit (näitä on 14, kaikki linkitetty muihin esim dctermsiin tai owliin)
  • Aineiston elinkaaren tapahtumat. Näitä on kaksi eri settiä: "normaali" aineiston elinkaari sekä pitkäaikaissäilytykseen liittyvät (kuten migraatio tai PASsin tekemä validointi jne) Tähän liittyy myös tulossa oleva oma setti jossa on toimenpiteen tulos. Näissä on taustalla PREMIS-standardi. Kuten myös viimeisessä
  • Tiedostoformaatin versiotieto.

Use Category

Niille tiedoille joilla ei ole URI-tunnistetta luomme PURL-tunnisteen. Kaikkia näitä tulemme tarjoamaan sitten rajapinnan kautta avoimesti muillekin käyttöön, jotta on helppoa tuottaa yhteentoimivaa metatietoa tutkimusaineistoista. Tosin tässä on oltava tarkkana dokumentaation suhteen. Sitäkin pohdimme eilen, miten APIt parhaiten dokumentoitaisiin. Nyt ajateltiin jonkinlaista Swagger - Read the Docs - yhdistelmää. Kuulemmekin mielellämme mielipiteitä aiheesta, mikä mahtaisi olla hyvä ja selkeä tapa käyttäjiemme kannalta?



onsdag 20 juni 2018

Metax & OAI-PMH metadata harvesting

Soon to be launched Metax is the metadata repository at the heart of the Fairdata services. Since it does not have a graphical user interface, all of the interactions are handled through APIs. Metax REST API provide a set of restricted endpoints for integrated services to manipulate the state of the repository, as well as an openly available read-only data regarding datasets, data catalogs and schemas.

In order to match the capabilities of the current/old/to be deprecated Etsin service, Metax also acts as an OAI-PMH data provider. OAI-PMH specification defines a set of actions and an xml based container format for harvesting metadata according to different schemas. The API can be used for bulk harvesting, where the all the metadata is downloaded in its entirety, or for selective harvesting based on sets and/or modification date of the record.

Currently Metax exposes the following sets for harvesting:


  • att_dataset - datasets that consists of external/remote resources. 
  • ida_datasets - datasets whose content is stored and maintained by the IDA service.
  • datasets - records from both ATT and IDA catalogs
  • datacatalogs - List of available data catalogs. This includes also catalogs that are populated with externally harvested content.


Harvested records contain a header with an identifier, timestamp and possible set specification, and a metadata section that conforms to the requested metadata format. There has been a lot of internal discussion about versions and identifiers in Metax (see blog this blog post). The OAI-PMH interface uses the metadata identifier (i.e. metadata version identifier) as opposed to dataset's preferred identifier for its dataset records. Metadata identifiers are always UUIDs created internally by Metax. Some of the dataset identifiers are also URN's generated by Metax, but they can also be for example DOIs assigned and maintained outside Metax and Fairdata services. Data catalogs are purely internal concept so the same one identifier is used to refer to the metadata and the actual catalog.

Metax currently has support for simple oai_dc (link) and a more complex and usable Datacite 4.1 formats for metadata output. The OAI-PMH output is geared towards harvesting through "standard" formats, and the full data according to Metax's internal data model is available through the REST API. There are however couple of deviations from the Datacite specs. The specification only allows DOIs as the primary identifier for the dataset, but at least for now, the most prominent type of identifier is URN that has been minted by Metax itself. Also the content of the element is expressed using three letter code instead of two letters. These are hopefully small potatoes for the consumers of the data and something that can be fixed as the development of Metax moves along.

What is still missing from the implementation is the handling of deleted records. When a user removes a dataset records, Metax flags it as deleted and retains the actual record. This would allow us to implement persistent handling of deleted records in the OAI-PMH interface. The twist that complicates the implementation is that the URN resolver is going to be using the OAI-PMH interface as its source data. The resolver is responsible for providing redirection from urn.fi/[identifier] addresses to the Fairdata Etsin urls. Should the identifiers of deleted datasets still resolve to a page in Etsin that says that dataset was deleted? This would be beneficial for example, if the page contains contains links to newer/other versions of the deleted dataset.

fredag 25 maj 2018

API-pohdintaa

Olemme käyneet hieman läpi millaisia rajapintoja meillä Metaxissa on nyt ensimmäisessä vaiheessa. Kun vanha Etsin poistuu käytöstä kuvailun siirtyessä Qvain-palveluun, Etsimen nykyinen rajapintakin vanhenee. Tulevaisuudessahan ajantasaiset metatiedot löytyvät meiltä MetaXista. Tosin MetaXin APIssa ei ole mitään sen hienompia hakutoiminnallisuuksia (vielä ainakaan) vaan se lähinnä vastaille pid-kyselyihin. Varsinainen indeksinti tehdään Etsimen puolella, mutta siellä taas ei ole täydellisiä tietoja kaikista dataseteistä (esim. vanhat versiot).

Toinen kiinnostava fairdata-rajapinta tulee olemaan Metaxin kyljessä oleva ElasticSearch, joka tarjoaa referenssidatoja, eli relevantteja tunnisteita, joista voi olla hyötyä myös tutkimusorganisaatioille.

Tässä alustava lista varsinaisen Metaxin rajapinnoista (huom: voi vielä muuttua!) Nykyisen Etsimen rajapintojen hyödyntäjien on siis syytä varautua muutoksiin ja olla yhteydessä meihin, jotta voimme auttaa ylimenokauden aikana.

API
URL
Fairdata users
World Access
Comment
OAI-PMH
URN resolving
Read only
Format: DataCite
Dataset/rest/datasets
Writes: Qvain, Etsin, PAS
Reads: Qvain, Etsin, PAS, OD
Read only
For non-service users, the following fields are removed:
  • phone
  • email
Data Catalog/rest/datacatalogs
Writes: Metax, Etsin
Reads: Qvain
Read only
Schemas/rest/schemasReads: Qvain(?)Read onlyServes the schemas used by datacatalogs
File
Writes: IDA
Reads: IDA,OD, PAS
Closed
Contract
Writes: PAS
Reads: PAS
Closed
File Storage
Writes: MetaxClosed
Directories
Writes: Non-writable
Reads: Etsin, Qvain, OD
Closed
Api for browsing files:
  • Frozen files
  • Files associated with a dataset
Api Errors
Writes: Metax
Reads: Metax
ClosedServes details about errors occurred during requests

onsdag 16 maj 2018

Toimijat ja tutkimusaineistot


 Oscar Wilde by Napoleon Sarony - http://hdl.loc.gov/loc.pnp/ppmsca.07756, Public Domain.

Tutkimusaineistoihin ja niiden metatietoihin liittyy monenlaista toimijaa, niin henkilöä kuin organisaatiota. Aineiston kuvailuun liittyvät metatiedot palvelevat erilaisia tarkoituksia. Tiedot tukevat niin oikeuksien hallintaa, viittaamista ja meritoitumista kuin löydettävyyttä ja tiedon linkittymistä.

Eri metatietoformaateissa on kuitenkin erilaisia toimijoita ja rooleja ja ne on määritelty joskus hyvin löyhästi. On curatoria, data stewardia, custoidiania ja kaiken maailman contributortypeä. Asiaa ei helpota sekään, että viittausohjeita halutaan yleensä generoida automaagisesti, jotta niitäkin voi tehdä eri ohjeiden mukaan. Miten voisimme määritellä eri roolit, jotta niitä voisi ohjeistaa selkeästi ja käyttää yhdenmukaisesti!?

Kävimme läpi tavallisimpia metatietomalleja ja päädyimme seuraavanlaiseen hahmotelmaan:

Tekijä

Tämä on se perinteinen aineiston luoja, eli joskus creator, author tai originator. Suhteellisen selkä (vaikka tässäkin kohtaa jotkut tutkijat ilmoittavat organisaationsa ...)

Muu tekijä

Contributor. DataCitessä tähän liittyy iso kasa rooleja, joista vain osa (mutta suuri osa) menee tähän kategoriaan. Eri formaateista löytyy m.m. editor, processor, validator, producer, ...

Omistaja

Omistaminen on ehkä sähköisten aineistojen kohdalla vähän hassu konsepti. Puhummekin mieluummin RightsHolderista.  "Person or institution owning or managing property rights, including intellectual property rights over the resource", sanoo DataCite, jossa ei ole owneria lainkaan. Eli kyseessä on taho, jolla on päätösvaltaa aineistoon ja sen käyttöön liittyvissä kysymyksissä. Ja samalla myös vastuu siitä. Oikeuksien omistajia voi olla useita.

Kuraattori

Tähän haluaisimme henkilön ja hänen yhteystietonsa. Keneltä kysyä, kuka on hoitanut ja huoltanut aineistoa ja osaa kertoa siitä lisää? Käytettyjä termejä ovat curator, custodian, point of contact, data manager ja data steward.

Jakelija

Tämä taho on se perinteinen julkaisija, joka saattaa aineiston käytettäväksi. Metatiedossa kulkee nimellä distributor, publisher tai hosting institution. Tähän kohtaan sopii mieluiten organisaation tieto ja se ilmoitetaan viittauksessa, mikä on järkevää löydettävyyden tukemisen kannalta.


Tällaisella karkealla ryhmittelyllä toivomme sekä auttavamme ohjeistamista että helpottavamme mäppäyksiä. Kuulemme mielellämme millaisia ajatuksia ehdotuksemme herättää!


P.S. Testietsin on muuten avoinna maailmalle. Se on tosiaan tosi testiversio, eli se välillä toimii ja välillä ei. Eikä ole muutenkaan valmis. Mutta ainahan voi vähän kokeilla. Ja kommentoida.





onsdag 4 april 2018

Metaxporukka taas vauhdissa

Edellinen sprinttimme oli eräänlainen välisprintti, kun kehittäjämme pääosin tekivät muita Fairdata-palveluita, mm IDAa ja Etsintä. Tämän sprintin aikana selvittelemme tutkimuksen pitkäaikaissäilytyksen vaatimien metatietojen luonti- ja kirjoitusprosessia sekä mietimme tietojen luovuttamista ulos. Näyttäisi siltä, että ensi askel avaamiseen on OAI-PMH, joka tarjoaa DataCite -formaattia. Valmistaudumme näin myös mahdollisuuteen tulevaisuudessa tarjota DOI-tunnisteita Fairdata.fi-kokonaisuuden palveluille.

Toinen kokonaisuus, joka voisi olla mielenkiintoinen datasetti myös tutkimusorganisaatioille, on ElasticSearchissa olevat referenssidatamme, jossa on tarjolla tunnisteita esimerkiksi tutkimusinfrastruktuureille, tieteenaloille, käyttöoikeusluokille, lisensseille ja sen sellaisille asioille. Joskus nämä ovat primääridataa, joskus muualta kopioitua (esim. Finto).

Eräs asia, jota myös tulemme pohtimaan on Metaxin sisäisten aineistokatalogien kuvauksia ja määritelmiä. Ensinnäkin, jokainen haravointilähde on saa oman kataloginsa. Lisäksi pidämme erillämme IDA:ssa (ida-katalogi) olevat aineistot sekä muut palvelukokonaisuuden "omat" metatiedot (att-katalogi). Näille katalogeille pitää luoda kuvaukset. Ajatukseni on myös tällä hetkellä, että PAS-aineistot olisivat omassa katalogissaan, sillä tällä tavoin näitä aineistoja ja niiden kuvailutietomallia ja metatietoja olisi todennäköisemmin helpompi hallinnoida joustavasti, jos uusia tarpeita ilmenee. Haasteena tässä on ehkä määritellä suhde aineistoversioiden välille, jos tietueet ovat eri katalogeissa.



Katalogien tietomalli löytyy Yhteentoimiva Suomi -palvelusta.





måndag 26 mars 2018

Älykkäästi tietoa Suomessa tehtävästä tutkimuksesta

MetaX on tietenkin osa ympäröivää maailmaa, isompaa kokonaisuutta ja sen arvokkaat tiedot voivat tukea tutkimusorganisaatioitamme monella tavalla. Siksi vieraileva  naapuritiimimme CSC:stä kertoo tässä kirjoituksessa kansallisesta Tutkimustietovarannosta, jota ovat tekemässä. Metatiedoilla on nimittäin monenlaista käyttöä.

Tutkimuksessa, kuten kaikessa, on tavallista, että vuorollaan jotkut asiat ovat toisia trendikkäämpiä ja paremmin esillä. Puhutaan jopa hypestä. Tällä hetkellä keskustelu niin tutkimuksessa kuin muillakin kentillä käy kiivaana tekoälystä. Mitä tekoälyllä tarkoitetaan? Tiedätkö, keneen otat yhteyttä, jos haluat tietää lisää tekoälystä? Kuinka paljon Suomessa todellisuudessa tutkitaan tekoälyä? Ja miten tekoälyä voi edes tutkia, mitä aineistoja tutkijat voivat siihen käyttää? Kuka tekoälyn tutkimusta rahoittaa? Onko suomalainen tekoälytutkimus kiinnostavaa myös muualla maailmassa? Mikä muu tutkijoita tällä hetkellä kiinnostaa?


Tutkimustietovaranto vastaa älykkäästi esimerkiksi näihin kysymyksiin. Se kokoaa metatiedot Suomesta tehtävästä tutkimuksesta ja liittää yhteen muun muassa tiedot tutkijoista, tutkimuksen tuotoksista, organisaatioista, aineistoista ja rahoittajista. Voit tulevaisuudessa tarkistaa yhdestä paikasta, mitä tutkimusta tekoälystä on tehty, kuka on tehnyt ja kuka rahoittanut. Pysyvien tunnisteiden ansioista näet, mitä muuta alaan perehtynyt tutkija on urallaan tutkinut ja kuka muu on tutkinut samaa. Trendien ohella tutkimustietovaranto mahdollistaa myös uusien asiantuntijoiden ja tutkimusalojen esiintuomisen.


Kaikkein älykkäintä tutkimustietovarannossa on, ettei se vaadi ylimääräistä työtä vaan vähentää hallinnollisen työn taakkaa. Kaikki tietojensyöttö automatisoidaan useista eri lähdejärjestelmistä – kuten MetaXista – jonka jälkeen tieto on vapaasti käyttävissä erilaisissa sähköisissä järjestelmissä. Esimerkiksi tutkijan ei tarvitse joka kerta syöttää julkaisuluetteloaan eri hakemuksiin, vaan tiedot saa kätevästi poimittua tutkimustietovarannosta. Tutkimustietovarannon avoin rajapinta mahdollistaa myös lukuisten uusien tutkimustietoa hyödyntävien palveluiden ja sovellusten kehittämisen.


Kansallinen tutkimustietovaranto on kansainvälisesti uraauurtava palvelu. Tutkimustietovarannon suunnittelu on aloitettu vuonna 2017 ja valmistuminen on arvioitu vuodelle 2020. CSC – Tieteen tietotekniikan keskus kehittää valtakunnallista tutkimustietovarantoa opetus-ja kulttuuriministeriön toimeksiannosta. Lisää tutkimustietovarannosta voit lukea tutkimustietovarannon blogista research.fi.

fredag 2 mars 2018

A Fair(y)data service user Tale

My wonderful colleagues suddenly felt an urge to tell a nice story in English about how they envision their mission providing a convenient research data service. It presents a user perspective and we hope it can help us spot issues in the integration processes. Please, feel free to comment, honoured colleagues from near and far! 

So, buckle up: Once upon a time ...


1. There are three wise researchers from University of Turku, Tampere and from the Jyväskylä University of applied sciences. They have gathered amazing data about one special flea species that lives in house sparrows. They (the researchers, not the sparrows) are now finalizing an article and they want to include a data citation to their data, to give it the visibility it deserves. Therefore, they need a persistent identifier for their dataset. The researchers have a common storage space in the far-famed IDA service. To gather the data they use their IDA project’s staging area, which is a folder with full editing rights for all project members. Each researcher, of course, uses sensible file names and well-organised folder structures to make it easy to keep track of data files. 

However, when they’re ready to publish their final results they feel that they could reorganize their data once more. No worries: all project members are free to rename and rearrange data in the staging area. 

After deciding to publish the sparrow-flea-data the project members carefully arrange the data under one root folder in the staging area. After they’re happy with the new folder structure and file names one of the researchers chooses the root folder of the ready data and clicks on the button "Freeze".



2. The freezing feature moves all data under the chosen root folder to the projects frozen area and makes it read-only. The file metadata is stored in MetaX in a background operation, which makes the file metadata available for other services in the ecosystem.

The other two researchers go to check the files in the project’s freezing area and download it on their own computers. They both see that it’s the final version of the data and everything’s good to go. The researchers are now ready to publish the data. Hooray!








3. One of the researchers clicks “create a new dataset” button in IDA and is taken to Qvain. She’s presented with a metadata editor where she can fill out metadata about the dataset she’s about to publish. She clicks the Get persistent identifier button and the UI now shows a PID she can send over to her colleague for the article. She then fills the required fields and even adds geospatial data about the locations where the data was gathered “Pretty neat”, she thinks and hits a button in Qvain called “IDA file picker”.





4. The researcher is now presented with a file system view similar that she has in IDA. One big difference is that she only sees the data that is in the project’s frozen area. The other older versions and raw data that the researchers had stored in the staging area are not visible. The file picker is actually not showing IDA, but the file metadata (file path, name, size, checksum etc..) that was stored in MetaX when the file was frozen in IDA.

The user selects the root folder of the frozen data, which automatically selects all files and subfolders that are under it. She sets the data as freely accessible. This means that once the dataset metadata is published, anyone browsing the dataset can download the files linked to it on their own computer.





5. The researcher is a bit unsure about what licence they should use for the dataset. She hits “Save as Draft” (and not “Save and Publish”) which saves a local copy of the dataset description in Qvain. She goes talk to her colleague in the next room. The colleague tells her that the default in Qvain called CC-BY-4.0 is a good and recommended option for research data.







6. The researcher is happy with the way the dataset description looks and clicks the “Save and publish” button. She’s presented with a link to Etsin research data finder to view the published data. What she doesn’t see, is that the dataset metadata and links to IDA file metadata have now been stored to MetaX. 

All the dataset metadata, including links to file metadata that MetaX knows, are shown by Etsin. However, the metadata about files in IDA’s frozen area that are not linked to any dataset metadata are not shown nor searchable in Etsin.







7. The researcher clicks the link that takes her to Etsin and sees a page that is called a dataset landing page. The page shows the metadata and the file links that she created using Qvain. Next to the information about the data files there’s a button that says “Download all”. The researcher clicks the button and her browser starts to download the files. When she clicks the button the information about the dataset identifier and about the internal identifiers of the files is taken to the Fairdata data access service, which then queries MetaX. The Fairdata data access service needs to know that the dataset identifier and the file identifiers exist, and that the dataset truly is downloadable by all users. They are, so MetaX answers tells the Fairdata access service where the files are located in IDA. The Fairdata data access service then uses a special API in IDA to fetch the files.


8. The researcher now sees that anyone can download their data on their own computer and knows how to use and cite it! 


-- Updated 7.3. step 7, details about downloading files