Validatieregels

Iedereen die met meetgegevens werkt en er analyses mee uitvoert, herkent het nut van datavalidatie. Daarvoor zijn goede validatieregels nodig.

Datavalidatie navolgbaar

Dit is een voorbeeld van een logbestand van de toegepaste valdidatie. Het bestand laat zien op basis van welke regel de meetwaarde als 'invalide' is gemarkeerd.

Eenvoudig of ingewikkeld

De regels voor validatie van meetwaarden kunnen eenvoudig tot heel ingewikkeld zijn. Het grote voordeel van eenvoudige validatieregels is dat ze goed te begrijpen zijn. Het is snel duidelijk waarom een meetwaarde als ‘waarschijnlijk fout’ of ‘misschien fout’ wordt aangemerkt. Het nadeel van eenvoudige regels is dat deze veel mogelijkheden onbenut laten om de betrouwbaarheid van meetwaarden beter te controleren. Als een meetwaarde van grote invloed is op de uitkomsten van de analyses of de analyseresultaten van groot belang zijn, dan is er al snel behoefte aan uitgebreider, meer ingewikkelde validatieregels.

Vier categorieën validatieregels

Validatieregels zijn er in alle soorten en maten. Op hoofdlijnen zijn alle regels in 4 categorieën in te delen, waarbij de validatie gebeurt door:

1. Controle van de betreffende meetwaarde

Bijvoorbeeld of een meetwaarde tussen een minimum en maximum waarde ligt.

2. Vergelijking met meetwaarden van hetzelfde meetinstrument

Eenvoudige voorbeelden hiervan zijn: geen verandering van de meetwaarde over een lange periode, een plotse grote sprong in een reeks van meetwaarden of ontbrekende waarden.

Deze eerste 2 categorieën validatieregels zijn voor elk meetinstrument toepasbaar. Het enige wat nodig is, zijn de metingen van het betreffende meetinstrument. Er zijn geen andere metingen of berekeningen voor nodig.

3. Vergelijking met meetwaarden van andere meetinstrumenten

Dit kan een vergelijking tussen gelijksoortige metingen zijn, bijvoorbeeld de (trend van de) meetwaarde van twee nabijgelegen grondwaterniveaumetingen of twee niveaumetingen in hetzelfde rioolbemalingsgebied. Maar het kan ook een vergelijking met andersoortige metingen zijn, bijvoorbeeld de meetwaarde van een niveaumeting bij een riooloverstort vergeleken met de neerslagmeting.

4. Vergelijking met een verwachte, berekende waarde

Hierbij wordt de meetwaarde vergeleken met de verwachte waarde die met een model is berekend. Voor dit type validatie zijn (veel) meer gegevens van de omgeving nodig, tot complete hydrologische rekenmodellen.

Transparant en navolgbaar

Welke validatieregels er ook worden toegepast, voor het vertrouwen in het validatieresultaat is het wenselijk dat de wijze van validatie transparant is en de uitkomsten ervan navolgbaar zijn. Het moet duidelijk zijn op basis van welke regel een bepaalde meetwaarde als ‘waarschijnlijk fout’ of ‘misschien fout’ is aangemerkt.