Dit artikel geeft een
korte beschrijving van de beste praktische invulling van de DarwinCore datastandaard
voor GBIF. Voor detailinformatie over de verschillende termen kun je de
hyperlinks naar de DarwinCore reference guide gebruiken.
DarwinCore (DwC) is op dit moment de belangrijkste internationale datastandaard
voor biodiversiteitdata. DarwinCore is gebaseerd op de zeer algemeen gebruikte DublinCore (DC) datastandaard en specifiek ontwikkeld voor biodiversiteitinformatie. DarwinCore maakt voor meer algemene informatie, bijvoorbeeld tijd- en plaatsaanduidingen, weer gebruik van bestaande standaarden als ISO. De infrastructuur van GBIF, en vele andere internationale biologische data-initiatieven, is toegesneden op de DwC standaard.
In de DwC standaard is voor een biodiversiteitsdataset vastgelegd welke informatie in welke vorm in welke velden moet worden opgeslagen. Er zijn voor-gedefinieerde veldnamen (terms genoemd) en geadviseerde opslagformaten. Zo wordt een datum van een waarneming opgeslagen in het veld eventDate in het formaat 1980-06-17 (jjjj-mm-dd). De meest recente publicatie tool van GBIF, de Integrated Publishing Toolkit (IPT), is volledig om de DwC standaard heen gebouwd en praktisch alle Nederlandse GBIF dataleveranciers gebruiken momenteel de IPT en de DwC standaard. Dit artikel beschrijft hoe en welke velden van de (120) DwC termen het beste gebruikt kunnen worden als u (uw eerste) data gaat leveren aan GBIF.
In de DwC standaard is voor een biodiversiteitsdataset vastgelegd welke informatie in welke vorm in welke velden moet worden opgeslagen. Er zijn voor-gedefinieerde veldnamen (terms genoemd) en geadviseerde opslagformaten. Zo wordt een datum van een waarneming opgeslagen in het veld eventDate in het formaat 1980-06-17 (jjjj-mm-dd). De meest recente publicatie tool van GBIF, de Integrated Publishing Toolkit (IPT), is volledig om de DwC standaard heen gebouwd en praktisch alle Nederlandse GBIF dataleveranciers gebruiken momenteel de IPT en de DwC standaard. Dit artikel beschrijft hoe en welke velden van de (120) DwC termen het beste gebruikt kunnen worden als u (uw eerste) data gaat leveren aan GBIF.
Verplichte velden
In GBIF zijn vijf velden verplicht. Voor de identificatie
van een record in de dataset wordt er een institutionCode,
collectionCode en catalogNumber meegegeven. Deze velden
bevatten respectievelijk een code van de dataleverende organisatie die
wereldwijd uniek is, een code voor de dataset die binnen de dataleverende
organisatie unieke is en een code voor de record die binnen de dataset uniek is. Deze drie codes
samen maken een unieke code, die elke record binnen de GBIF dataportal uniek
maakt en individueel opvraagbaar.
De basisOfRecord
en scientificName zijn verder verplicht
en bevatten informatie over de soort data, bijvoorbeeld een museumcollectie (specimen) of een veldobservatie (human observation), en de wetenschappelijke soortnaam. De scientificName bij voorkeur zo volledig
mogelijk, dus genusnaam, soortnaam, auteur en jaar van eerste beschrijving. Het
is ook mogelijk om hogere taxa in het scientificName
veld op te slaan, bijvoorbeeld alleen de genus naam. Het wordt aanbevolen om dan ook het veld taxonRank te gebruiken om aan te geven
welk niveau is ingevoerd, zie hieronder.
Geadviseerde velden
NLBIF adviseert naast de verplichte velden om ook informatie over het moment en de locatie van de waarneming vast te leggen in de GBIF data portal. Een waarneming zonder deze informatie is voor de meest biodiversiteitonderzoeken niet bruikbaar. De datum wordt opgeslagen in de eventDate in een tekstueel format YYYY-MM-DD.
locatie
Binnen GBIF worden alle waarnemingen in decimale graden
opgeslagen en alle lokale formaten van datasets, zoals rijksdriehoek, moeten
dus door de dataleverancier omgezet worden naar dit formaat (DwC: decimalLatitude, decimalLongitude). Er zit altijd een bepaalde onnauwkeurigheid in
de locatiemeting. Een kilometerhok is immers grover dan een GPS puntmeting. De
nauwkeurigheid wordt in meters vastgelegd in het coordinateUncertaintyInMeters veld. In het veld geodeticDatum wordt de datum opgeslagen,
WGS84 is hier de wereldwijde standaard. Wanneer er voor GBIF een lokaal
geografisch formaat is geconverteerd naar decimale graden adviseert NLBIF om de
orginele waarden ook op te slaan in de verbatim locatievelden: verbatimLatitude, verbatimLongitude en verbatimCoordinateSystem.
De hoogte (of diepte) wordt in DwC als een minimum-maximum bereik opgeslagen. Voor een hoogte boven zeeniveau gebruik je minimumElevationinMeters en maximumElevationInMeters en bij een vaste hoogte voer je dezelfde hoogte-waarde in beide velden in. Voor een diepte beneden zeeniveau gebruik je de volgende velden op een gelijke wijze: minimumDepthInMeters en maximumDepthInMeters. Vul als waarde altijd een positieve getal in meters vanaf zeeniveau in.
De hoogte (of diepte) wordt in DwC als een minimum-maximum bereik opgeslagen. Voor een hoogte boven zeeniveau gebruik je minimumElevationinMeters en maximumElevationInMeters en bij een vaste hoogte voer je dezelfde hoogte-waarde in beide velden in. Voor een diepte beneden zeeniveau gebruik je de volgende velden op een gelijke wijze: minimumDepthInMeters en maximumDepthInMeters. Vul als waarde altijd een positieve getal in meters vanaf zeeniveau in.
GBIF voert intern allerlei controles uit om de data
kwaliteit te optimaliseren. Zo controleert GBIF bijvoorbeeld ook of een
opgegeven coördinaat in het land ligt dat is meegegeven. NLBIF adviseert om het
veld country mee te geven zodat GBIF
in staat is om een grove check op de coördinaten uit te voeren.
http://rs.tdwg.org/dwc/terms/#verbatimCoordinateSystem
http://rs.tdwg.org/dwc/terms/#minimumElevationInMeters
http://rs.tdwg.org/dwc/terms/#minimumElevationInMeters
taxonomie
In het veld scientificName
kunnen verschillende taxonniveaus aangegeven worden. Het is daarom aan te raden het gebruikte niveau aan te geven in het veld taxonRank (voorbeelden waarden: “species” of “genus”).
Als een dataset in GBIF wordt ingeladen wordt de alle velden
ingelezen en geïnterpreteerd, zodat verschillende schrijfwijzen van een zelfde
soort bijvoorbeeld niet tot andere soorten leidt in de GBIF dataportal. Juist
omdat de taxonomieën van de verschillende rijken een eigen indeling en regels
hebben, kan het voorkomen dat er plantennaam ook in het dierenrijk voorkomt en
andersom. Om te voorkomen dat GBIF deze soorten met een zelfde naam door elkaar
haalt is het goed om het veld kingdom
en eventueel lagere groepen mee te geven. Lagere taxonomische groepen kunnen ook helpen
als een opgegeven soortnaam niet herkend wordt.
waarnemer
Om de kwaliteit van de data op waarde te schatten en
verificatie mogelijk te maken is het goed om zo veel mogelijk de waarnemer en
de determinator vast te leggen respectievelijk in de velden recordedBy en identifiedBy.
No comments:
Post a Comment