Waarschijnlijkheid van fiscale rechtsgevolgen
Einde inhoudsopgave
Waarschijnlijkheid van fiscale rechtsgevolgen (FM nr. 145) 2016/9.3.2:9.3.2 Data en variabelen
Waarschijnlijkheid van fiscale rechtsgevolgen (FM nr. 145) 2016/9.3.2
9.3.2 Data en variabelen
Documentgegevens:
C. Bruijsten, datum 04-05-2016
- Datum
04-05-2016
- Auteur
C. Bruijsten
- JCDI
JCDI:ADS614489:1
- Vakgebied(en)
Belastingrecht algemeen / Algemeen
Toon alle voetnoten
Voetnoten
Voetnoten
D.M. Katz, M.J. Bommarito II en J. Blackman, Predicting the Behavior of the Supreme Court of the United States: A General Approach, 2014, http://papers.ssrn.com/sol3/papers.cfm? abstract_id=2463244.
Dit voorbeeld is ontleend aan V. Mayer-Schönberger en K. Cikier, De big data revolutie, Amsterdam: Maven Publishing BV 2013, p. 81.
Deze functie is alleen te gebruiken als je bent ingelogd.
Om een analyse te kunnen maken van de mogelijke uitkomsten van een onzeker rechtsvindingsvraagstuk met de daarbij behorende waarschijnlijkheden, moet het systeem worden gevoed met relevante data. We hebben het dan niet alleen over specifiek fiscale data, maar over alle data die mogelijk van belang kan zijn om de mogelijke uitkomsten te achterhalen.
Interessant in dit kader is een onderzoek van Katz, Bommarito en Blackman naar een model om uitspraken van het Federaal Hooggerechtshof van de Verenigde Staten (Supreme Court of the United States) te voorspellen.1Het model dat zij hebben gemaakt is uiteindelijk behoorlijk succesvol met ongeveer 70% juiste voorspellingen. De voorspelling van een uitspraak vindt plaats aan de hand van de data die beschikbaar zijn voorafgaand aan die uitspraak. In hun model maken Katz, Bommarito en Blackman gebruik van de data van de Supreme Court Database. Deze database bevat tot 247 variabelen voor elke zaak. Dat zijn niet alleen inhoudelijke variabelen, maar bijvoorbeeld ook het geslacht van de rechters, de geboortedatum van de rechters, etc. De vraag is dan welke variabelen in aanmerking moeten worden genomen. Katz, Bommarito en Blackman merken daar het volgende over op:
‘What features actually contribute to forecasting the behavior of the Supreme Court? What is the relative contribution of these factors to overall prediction? There exists a long-standing debate about the subset of the feature space that actually assists in predicting judicial decision making. Traditional legal scholars tend to emphasize the legal features and legal questions presented in individual cases. They tend to downplay weighted non-legal factors (…).’
Hoewel juristen volgens hen de nadruk leggen op juridische data, lijken Katz, Bommarito en Blackman hiermee aan te geven dat ook niet-juridische data in aanmerking moet worden genomen. De vraag is dan welke gegevens in aanmerking moeten worden genomen:
‘While there is likely merit in elements of many existing theories, the challenging question is how to properly characterize the ensemble of legal, political and social factors which collectively drive observed outcomes.’
Het onderzoek van Katz, Bommarito en Blackman is zeker interessant. Ik wil er echter wel een paar opmerkingen bij plaatsen. In de eerste plaats ben ik niet enkel geïnteresseerd in voorspellingen van mogelijke uitkomsten van zaken die bij de Hoge Raad liggen (vanuit een Nederlands perspectief), maar in de mogelijke uitkomsten van onzekere fiscale rechtsvindingsvraagstukken ongeacht of deze bij de Hoge Raad liggen. Dat neemt niet weg dat we natuurlijk kunnen doen alsof een rechtsvindingsvraagstuk bij de Hoge Raad ligt en de Hoge Raad in laatste instantie een uitspraak moet doen. Een ander punt is dat het Nederlandse rechtssysteem niet identiek is aan het Amerikaanse rechtssysteem. De variabelen die Katz, Bommarito en Blackman hebben gebruikt zijn dus niet een-op-een bruikbaar bij een analyse van de mogelijke uitkomsten van Nederlandse fiscale rechtsvindingsvraagstukken. Desalniettemin is hun suggestie dat ook niet-juridische data in aanmerking moet worden genomen naar mijn idee wel juist.
Katz, Bommarito en Blackman hebben aangegeven dat juristen de nadruk leggen op juridische kenmerken. Vertaald naar de Nederlandse situatie denk ik dan aan gegevens die zijn te vinden in typisch juridische bronnen zoals
formele en materiële wetgeving;
internationale verdragen;
beleidsbesluiten;
rechtspraak;
vaktechnische literatuur;
in het specifieke geval relevante overeenkomsten (huwelijk, koop- en verkoop, geldlening, etc.);
in het specifiek geval relevante cijfermatige vastleggingen (boekingen in grootboekrekeningen, etc.).
Lastiger is het om niet-juridische data te vinden die mogelijk relevant kunnen zijn bij de analyse van de mogelijke uitkomsten van fiscale rechtsvindingsvraagstukken. De correlaties en patronen kunnen namelijk verborgen zitten op plaatsen en dus in data waar we ze op voorhand niet verwachten. Is bijvoorbeeld het financieel belang mede bepalend voor de uitkomst? De provincie waar de belastingplichtige woont of is gevestigd? De samenstelling van de regering? Of de gemiddelde neerslag in het jaar waarin het fiscale vraagstuk is opgekomen?
Om tot zo betrouwbaar mogelijke uitkomsten te komen, willen we een zo compleet mogelijk databestand. Dat betekent dat we alle relevante data verzamelen, van verschillende bronnen en over verschillende onderwerpen. We krijgen dan wel een omvangrijk (high volume) databestand. Maar met moderne computertechnologie mag dat geen probleem zijn.
Het databestand kan bestaan uit verschillende documenten. (Dus geen database met enkel variabelen, maar een enorme hoeveelheid documenten met tekst en cijfers.) Die documenten kunnen weer worden verdeeld in verschillende elementen, de bouwstenen van die documenten. De bouwstenen van de documenten zijn de daarin voorkomende namen (bijvoorbeeld namen van arresten zoals het ‘Baksteenarrest’), vaktermen, ‘gewone’ Nederlandse woorden, buitenlandse termen (bijvoorbeeld ‘loan’ en ‘equity’), cijfers, etc. waaruit het document is opgebouwd. Ook de metadata van de documenten kunnen inhoudelijk relevante informatie bevatten. Elk van de elementen kan tot op zekere hoogte gecorreleerd zijn met andere elementen of combinaties van elementen of interessante patronen vormen. Niet alle elementen zijn echter even interessant wanneer we op zoek zijn naar correlaties en patronen waarmee we fiscale voorspellingen kunnen doen. Er zal dus een zekere mate van reductie plaats moeten vinden. Dat is echter niet eenvoudig en tot op zekere hoogte arbitrair.
Voorbeeld
Indien we in een specifiek rechtsvindingsvraagstuk worden geconfronteerd met de vraag of een ondernemer de boekwinst bij de verkoop van een bedrijfsmiddel mag reserveren (conform artikel 3.54 Wet IB 2001), zijn we geïnteresseerd in termen als ‘herinvesteringsreserve’, ‘HIR’, ‘vervangingsreserve’ (dit is een oude term, maar wellicht staat er iets bruikbaars in de oude jurisprudentie), ‘boekwaarde’, ‘herinvesteringsvoornemen’, etc. We zouden die lijst nog veel langer kunnen maken. En misschien moeten we dat ook wel doen want ‘the devil is in the detail’.
Waar we niet in geïnteresseerd zijn, zijn veel voorkomende woorden uit de Nederlandse taal zoals ‘de’, ‘het’, ‘een’, ‘op’, ‘aan’, etc. Aan de andere kant leveren redelijk doorsnee woorden als ‘niet’ en ‘geen’ juist wel weer veel informatie op, bijvoorbeeld als ze voorkomen in combinatie met één van de hierboven genoemde termen. De term ‘herinvesteringsvoornemen’ levert namelijk een heel ander fiscaal resultaat op dan ‘geen herinvesteringsvoornemen’. Bij de afwezigheid van een herinvesteringsvoornemen kan tenslotte geen herinvesteringsreserve worden gevormd.
Overigens moeten ook bepaalde combinaties van woorden mee worden genomen. Denk bijvoorbeeld aan ‘fraus legis’ en ‘fiscale eenheid’. Dit zijn vaktermen die bestaan uit twee woorden. Het kan overigens nog langer, zoals de uitdrukking ‘waarde in het economische verkeer’.
Daarnaast zijn er ook allerlei uitdrukkingen die geen vaktermen zijn, maar wel een belangrijke juridische betekenis hebben. Denk daarbij aan uitdrukkingen als ‘in overeenstemming met’, ‘in strijd met’ en ‘overeenkomstig’. Ook met synoniemen en afkortingen moet rekening worden gehouden, zoals de hierboven genoemde termen ‘herinvesteringsreserve’ en ‘HIR’ die in de praktijk door elkaar worden gebruikt.
Het is waarschijnlijk niet mogelijk om vooraf aan te geven wat de interessante elementen zijn en welke combinaties al dan niet de moeite waard zijn omdat deze mogelijk gecorreleerd kunnen zijn of een patroon laten zien. Het systeem zal dus zelflerend tot bepaalde combinaties moeten komen.
Een volgend aandachtspunt is dat een deel van de elementen als variabele kan worden uitgedrukt. Daarbij wil ik een onderscheid maken tussen numerieke variabelen en categorische variabelen.
Numerieke variabelen zijn meetbaar en kunnen in een getal worden uitgedrukt. Hierbij kan een onderscheid worden gemaakt tussen continue numerieke variabelen en discrete numerieke variabelen.
Continue numerieke variabelen kunnen worden uitgedrukt op een continue schaal. Denk bijvoorbeeld aan de ‘waarde in het economische verkeer’ die kan worden uitgedrukt in euro’s en het belang in het nominaal gestorte kapitaal (zie artikel 13, lid 2 en artikel 15 Wet Vpb 1969) dat kan worden uitgedrukt in een percentage. De uiteindelijk te betalen belasting is ook een continue numerieke variabele.
Discrete numerieke variabelen kunnen worden uitgedrukt in stappen (intervallen). Zie bijvoorbeeld de reisaftrek voor het reizen per openbaar vervoer (artikel 3.87, lid 4, Wet IB 2001). De reisaftrek is afhankelijk van de vraag of de reisafstand maximaal 10 km, 20 km, 30 km etc. is. De reisaftrek bedraagt dan € 0, € 440, € 588, etc.
Categorische variabelen kunnen niet in een getal worden uitgedrukt. Bij categorische variabelen kan een onderscheid worden gemaakt tussen nominale categorische variabelen en ordinale categorische variabelen.
Nominale categorische variabelen zijn in feite niets anders dan ‘namen’ van variabelen. Ze worden niet in getallen uitgedrukt, maar zijn alfanumeriek. Denk bijvoorbeeld aan ‘besloten vennootschap’ als de naam van een bepaalde rechtspersoon, of ‘hypotheek’ als de naam van een bepaald soort zekerheidsrecht.
Ordinale categorische variabelen zijn ook alfanumeriek, maar kennen anders dan de nominale categorische variabelen een zekere ordening. Zo is ‘aannemelijk maken’ een minder strenge vorm van bewijs dan ‘aantonen’. Overigens kunnen ordinale categorische variabelen een numerieke component hebben. Denk bijvoorbeeld aan de termen ‘grotendeels’, ‘hoofdzakelijk’ en ‘nagenoeg geheel’ die in de fiscale praktijk de (onder)waarden 50%, 70% en 90% hebben meegekregen.
Welke variabelen moet het systeem beoordelen? Moeten we dat vooraf zelf bepalen, of moeten we het systeem simpelweg naar alles laten kijken? Ik denk dat laatste. Het lijkt mij raadzaam om de menselijke component (bij de keuze voor de variabelen) uit te schakelen. Het zijn namelijk de onverwachte correlaties die tot opmerkelijke uitkomsten kunnen leiden.
Voorbeeld
In 2004 onderzocht het Amerikaanse supermarktconcern Walmart met behulp van big data-analyse in hun enorme database met transactiegegevens naar correlaties. Voorafgaand aan een storm zette Walmart dozen met zaklampen bij de ingang van de supermarkt om zo de verkoop van zaklampen te stimuleren. Ze ontdekten echter totaal onverwacht dat voorafgaand aan een storm niet alleen de verkoop van zaklampen toenam, maar ook de verkoop van Pop-Tarts (een Amerikaanse ontbijtsnack). Deze werden vanaf dat moment voorafgaand aan een storm naast de stormgerelateerde artikelen gezet en de verkoop van Pop-Tarts steeg spectaculair.2