Thursday 9 October 2014

Collectie en observatiedata in GBIF; het gebruik van DarwinCore

Dit artikel geeft een korte beschrijving van de beste praktische invulling van de DarwinCore datastandaard voor GBIF. Voor detailinformatie over de verschillende termen kun je de hyperlinks naar de DarwinCore reference guide gebruiken.

DarwinCore (DwC) is op dit moment de belangrijkste internationale datastandaard voor biodiversiteitdata. DarwinCore is gebaseerd op de zeer algemeen gebruikte DublinCore (DC) datastandaard en specifiek ontwikkeld voor biodiversiteitinformatie. DarwinCore maakt voor meer algemene informatie, bijvoorbeeld tijd- en plaatsaanduidingen, weer gebruik van bestaande standaarden als ISO. De infrastructuur van GBIF, en vele andere internationale biologische data-initiatieven, is toegesneden op de DwC standaard.
In de DwC standaard is voor een biodiversiteitsdataset vastgelegd welke informatie in welke vorm in welke velden moet worden opgeslagen. Er zijn voor-gedefinieerde veldnamen (terms genoemd) en geadviseerde opslagformaten. Zo wordt een datum van een waarneming opgeslagen in het veld eventDate in het formaat 1980-06-17 (jjjj-mm-dd). De meest recente publicatie tool van GBIF, de Integrated Publishing Toolkit (IPT), is volledig om de DwC standaard heen gebouwd en praktisch alle Nederlandse GBIF dataleveranciers gebruiken momenteel de IPT en de DwC standaard. Dit artikel beschrijft hoe en welke velden van de (120) DwC termen het beste gebruikt kunnen worden als u (uw eerste) data gaat leveren aan GBIF.


Verplichte velden

In GBIF zijn vijf velden verplicht. Voor de identificatie van een record in de dataset wordt er een institutionCode, collectionCode en catalogNumber meegegeven. Deze velden bevatten respectievelijk een code van de dataleverende organisatie die wereldwijd uniek is, een code voor de dataset die binnen de dataleverende organisatie unieke is en een code voor de record die binnen de dataset uniek is. Deze drie codes samen maken een unieke code, die elke record binnen de GBIF dataportal uniek maakt en individueel opvraagbaar. 

De basisOfRecord en scientificName zijn verder verplicht en bevatten informatie over de soort data, bijvoorbeeld een museumcollectie (specimen) of een veldobservatie (human observation), en de wetenschappelijke soortnaam. De scientificName bij voorkeur zo volledig mogelijk, dus genusnaam, soortnaam, auteur en jaar van eerste beschrijving. Het is ook mogelijk om hogere taxa in het scientificName veld op te slaan, bijvoorbeeld alleen de genus naam. Het wordt aanbevolen om dan ook het veld taxonRank te gebruiken om aan te geven welk niveau is ingevoerd, zie hieronder.


Geadviseerde velden

NLBIF adviseert naast de verplichte velden om ook informatie over het moment en de locatie van de waarneming vast te leggen in de GBIF data portal. Een waarneming zonder deze informatie is voor de meest biodiversiteitonderzoeken niet bruikbaar. De datum wordt opgeslagen in de eventDate in een tekstueel format YYYY-MM-DD.


locatie
Binnen GBIF worden alle waarnemingen in decimale graden opgeslagen en alle lokale formaten van datasets, zoals rijksdriehoek, moeten dus door de dataleverancier omgezet worden naar dit formaat (DwC: decimalLatitude, decimalLongitude). Er zit altijd een bepaalde onnauwkeurigheid in de locatiemeting. Een kilometerhok is immers grover dan een GPS puntmeting. De nauwkeurigheid wordt in meters vastgelegd in het coordinateUncertaintyInMeters veld. In het veld geodeticDatum wordt de datum opgeslagen, WGS84 is hier de wereldwijde standaard. Wanneer er voor GBIF een lokaal geografisch formaat is geconverteerd naar decimale graden adviseert NLBIF om de orginele waarden ook op te slaan in de verbatim locatievelden: verbatimLatitude, verbatimLongitude en verbatimCoordinateSystem.

De hoogte (of diepte) wordt in DwC als een minimum-maximum bereik opgeslagen. Voor een hoogte boven zeeniveau gebruik je minimumElevationinMeters en maximumElevationInMeters en bij een vaste hoogte voer je dezelfde hoogte-waarde in beide velden in. Voor een diepte beneden zeeniveau gebruik je de volgende velden op een gelijke wijze: minimumDepthInMeters en maximumDepthInMeters. Vul als waarde altijd een positieve getal in meters vanaf zeeniveau in.

GBIF voert intern allerlei controles uit om de data kwaliteit te optimaliseren. Zo controleert GBIF bijvoorbeeld ook of een opgegeven coördinaat in het land ligt dat is meegegeven. NLBIF adviseert om het veld country mee te geven zodat GBIF in staat is om een grove check op de coördinaten uit te voeren.


taxonomie
In het veld scientificName kunnen verschillende taxonniveaus aangegeven worden. Het is daarom aan te raden het gebruikte niveau aan te geven in het veld taxonRank (voorbeelden waarden: “species” of “genus”).
Als een dataset in GBIF wordt ingeladen wordt de alle velden ingelezen en geïnterpreteerd, zodat verschillende schrijfwijzen van een zelfde soort bijvoorbeeld niet tot andere soorten leidt in de GBIF dataportal. Juist omdat de taxonomieën van de verschillende rijken een eigen indeling en regels hebben, kan het voorkomen dat er plantennaam ook in het dierenrijk voorkomt en andersom. Om te voorkomen dat GBIF deze soorten met een zelfde naam door elkaar haalt is het goed om het veld kingdom en eventueel lagere groepen mee te geven. Lagere taxonomische groepen kunnen ook helpen als een opgegeven soortnaam niet herkend wordt.


waarnemer
Om de kwaliteit van de data op waarde te schatten en verificatie mogelijk te maken is het goed om zo veel mogelijk de waarnemer en de determinator vast te leggen respectievelijk in de velden recordedBy en identifiedBy.

No comments:

Post a Comment