Einde inhoudsopgave
Waarschijnlijkheid van fiscale rechtsgevolgen (FM nr. 145) 2016/9.3.1
9.3.1 Data-analyse
C. Bruijsten, datum 04-05-2016
- Datum
04-05-2016
- Auteur
C. Bruijsten
- JCDI
JCDI:ADS620532:1
- Vakgebied(en)
Belastingrecht algemeen / Algemeen
Voetnoten
Voetnoten
In het geval van een grote hoeveelheid data, spreken we over ‘big data’. Er zijn geen harde criteria om big data te onderscheiden van traditionele data. Veelal wordt onder big data verstaan een databestand dat zo groot en complex is, dat traditionele databasesoftware niet meer toereikend is om die data te verwerken. Big data wordt ook wel gekarakteriseerd door ‘high dimensionality’ en ‘large sample size’ (J. Fan, F. Han en H. Lui, Challenges of Big Data analysis, National Science Review 1, 2014, p. 293-314, http://nrs.oxfordjournals.org/content/ 1/2/293.full.pdf+html).
De wet van Moore stelt dat het aantal transistors op een processor (en daarmee de processorcapaciteit) ongeveer elke twee jaar verdubbelt.
De wet van Kryder stelt dat de opslagcapaciteit zich mogelijk nog sneller ontwikkelt dan de processorcapaciteit.
De term ‘voorspelling’ is misschien niet helemaal correct, net zoals een ‘weersvoorspelling’ eigenlijk een ‘weersverwachting’ is. Toch houd ik vast aan de term ‘voorspelling’ omdat die goed aansluit bij de in de Engelstalige literatuur gangbare term prediction.
Dat wil zeggen: niet op basis van logische en juridische afleidingsregels.
V. Mayer-Schönberger en K. Cikier, De big data revolutie, Amsterdam: Maven Publishing BV 2013, p. 266.
Stel dat we de logische en juridische relaties tussen de feiten en rechtsnormen aan de ene kant en de mogelijke rechtsgevolgen aan de andere kant helemaal los zouden laten. In mijn model (zie paragraaf 4.6) zou dan geen rechtsvinding meer mogelijk zijn. Dat is overigens niet alleen een theoretische consequentie. In de praktijk zou iedere rechtsvinder dan namelijk hulpeloos ronddolen tussen de feiten en rechtsnormen zonder ook maar één mogelijk rechtsgevolg af te kunnen leiden. We kunnen niet zonder de interne afleidingsmechanismen van het model.
Toch is het loslaten van die interne afleidingsmechanismen niet zo’n vreemde gedachte. We zouden namelijk kunnen kijken of het mogelijk is om de waarschijnlijkheid van de mogelijke uitkomsten van een onzeker rechtsvindingsvraagstuk te benaderen aan de hand van correlaties en patronen. We kijken dan bijvoorbeeld hoe groot de correlatie is tussen bepaalde variabelen. Als er een sterke correlatie bestaat tussen twee variabelen, dan is er een grote waarschijnlijkheid dat er een verband is tussen die variabelen. We kijken dan echter niet meer naar logische en juridische relaties. We vinden dan enkel dat er een verband is tussen twee variabelen, niet wat dat verband dan is. We doen enkel nog statistische uitspraken. De ‘waarom’-vraag blijft achterwege.
We begeven ons dan op het terrein van de data-analyse.1 Mede als gevolg van de exponentiële toename van de processorcapaciteit2 en de opslagcapaciteit3 zijn computers tegenwoordig in staat om enorme hoeveelheden data te verwerken en aan de hand daarvan voorspellingen te doen. Wellicht dat we data-analyse ook kunnen gebruiken om aan de hand van de beschikbare informatie na te gaan wat de waarschijnlijkheid is van de mogelijke uitkomsten van een onzeker rechtsvindingsvraagstuk.
Die waarschijnlijkheid is waar ik in mijn onderzoek naar op zoek was. Maar als we een systeem ontwikkelen dat op basis van data voorspellingen4 kan doen (stel dat dat mogelijk zou zijn), dan levert dat systeem niet alleen de waarschijnlijkheden van de mogelijke uitkomsten, maar ook die uitkomsten zelf. Als het systeem aan de hand van de rechtsvraag en de feiten van het specifieke geval de mogelijke rechtsgevolgen zou kunnen produceren, dan hebben we in feite een rechtsvindingsysteem gecreëerd. Dat is dan echter wel een rechtsvindingsysteem dat enkel aan de hand van patronen en correlaties tot de mogelijke rechtsgevolgen en de daarbij behorende waarschijnlijkheden komt. Met andere woorden: het systeem laat zien wat de mogelijke rechtsgevolgen zijn, niet hoe die kunnen worden afgeleid. Het systeem produceert geen bewijsverzameling bij de mogelijke rechtsgevolgen. En het is nu juist die bewijsverzameling die in de praktijk zo belangrijk is, vooral in geval van een dispuut tussen een belastingplichtige en de Belastingdienst. Toch kan het op data-analyse gebaseerde rechtsvindingsysteem heel waardevol zijn. Een niet-causale analyse5 van de mogelijke uitkomsten van een fiscaal rechtsvindingsvraagstuk kan relatief snel en goedkoop worden uitgevoerd. De wiskundige en statistische methoden die daarvoor nodig zijn, zijn namelijk veel eenvoudiger te automatiseren dan het met behulp van logische en juridische afleidingsregels afleiden van mogelijke rechtsgevolgen. Een dergelijk systeem zou prima kunnen worden ingezet om een fiscalist te helpen om alvast de mogelijke oplossingen in kaart te brengen, of om de succes- c.q. proceskansen in te schatten. Een dergelijk voorspellend systeem past ook in het wereldbeeld dat door Mayer-Schönberger en Cikier wordt geschetst:
‘Een wereldbeeld dat in het teken stond van causaliteit wordt verdrongen door een hegemonie van correlaties. Het bezit van kennis, dat vroeger stond voor het doorgronden van het verleden, zal straks staan voor het vermogen de toekomst te voorspellen’.6