Einde inhoudsopgave
Waarschijnlijkheid van fiscale rechtsgevolgen (FM nr. 145) 2016/9.3.3
9.3.3 Patronen en correlaties
C. Bruijsten, datum 04-05-2016
- Datum
04-05-2016
- Auteur
C. Bruijsten
- JCDI
JCDI:ADS620533:1
- Vakgebied(en)
Belastingrecht algemeen / Algemeen
Voetnoten
Voetnoten
Zie S. Russell en P. Norvig, Artificial Intelligence, A Modern Approach, Harlow: Pierson Education Limited 2014, p. 704. Russell en Norvig spreken overigens niet expliciet over een computer, maar over een agent.
Niet te verwarren met de in par. 4.6.4 gedefinieerde uitkomstenruimte Ω, zijnde de verzameling van mogelijke uitkomsten van een specifiek rechtsvindingsvraagstuk.
Zie S. Russell en P. Norvig, Artificial Intelligence, A Modern Approach, Harlow: Pierson Education Limited 2014, p. 706 e.v.
Zie H. Surden, Machine Learning and Law, Washington Law Review, Vol. 89, No. 1, 2014, p. 87-115, https://digital.law.washington.edu/dspace-law/bitstream/handle/1773.1/1321/ 89WLR0087.pdf?sequence=1, par. III.B.2.
Om de mogelijke rechtsgevolgen van een onzeker rechtsvindingsvraagstuk te kunnen voorspellen, zal het systeem eerst alle mogelijk correlaties en patronen tussen de variabelen vast moeten stellen. Maar wat zijn correlaties en patronen?
Correlaties geven de mate van samenhang aan tussen twee variabelen. Die mate van samenhang ligt op een schaal van -1 tot +1. Bij een waarde van -1 is er een perfecte negatieve relatie en bij +1 is er een perfecte positieve relatie. Bij een waarde van 0 is er geen enkele correlatie tussen de twee variabelen.
Voorbeeld
We meten de lengte van een groot aantal Nederlandse mannen. We drukken dat uit in meters, bijvoorbeeld 1,84 meter. Vervolgens meten we het gewicht van diezelfde Nederlandse mannen. Dat drukken we uit in kilogrammen, bijvoorbeeld 75 kg. We hebben dan twee variabelen met elk een eigen schaalverdeling. Vervolgens kunnen we kijken of er een correlatie bestaat tussen deze variabelen.
Stel dat we een grafiek maken met de lengte van de mannen op de x-as en het gewicht op de y-as. Het totaal aantal gemeten mannen is n. Voor elke man zetten we vervolgens een punt in de grafiek. We krijgen dan een grafiek met punten (xi, yi), waarbij i = 1, 2, n. Stel dat de j-de man in het onderzoek een lengte heeft van 1,84 meter en een gewicht van 82 kg. In dat geval komt er in de grafiek een punt met de coördinaten x = 1,84 en y = 82. Alle punten samen vormen vervolgens als het ware een ‘wolk’. Ik vermoed dat we door die wolk een lijn kunnen trekken die min of meer van linksonder naar rechtsboven loopt en dat de meeste punten op of dicht bij die lijn liggen (ofwel: hoe langer, hoe zwaarder). We hebben in dat geval een positieve correlatie tussen de lengte en het gewicht van de mannen.
In het bovenstaande voorbeeld hebben de lengte en het gewicht van de Nederlandse mannen een continue schaalverdeling. Als de variabelen een continue schaalverdeling hebben, kan de mate van correlatie worden vastgesteld met regressieanalyse en kunnen aan de hand daarvan mogelijk voorspellingen worden gedaan voor nieuwe gevallen. Zo kan aan de hand van de hierboven getrokken regressielijn bij een man met een lengte van 2,10 meter een redelijke verwachting worden uitgesproken over zijn gewicht. De regressielijn hoeft overigens geen rechte lijn te zijn, maar kan ook een kromme zijn.
Het wordt lastiger wanneer de variabelen geen continue schaalverdeling hebben, maar een discrete schaalverdeling.
Voorbeeld
Op grond van artikel 13, lid 2, onderdeel a, Wet Vpb 1969 is sprake van een deelneming indien een belastingplichtige voor ten minste 5% van het nominaal gestorte kapitaal aandeelhouder is van een vennootschap waarvan het kapitaal geheel of ten dele in aandelen is verdeeld. Hierin zien we meerdere variabelen:
De mate waarin een belastingplichtige een belang houdt in een vennootschap. Deze variabele heeft een continue schaalverdeling met een bereik van 0% tot 100%.
Of sprake is van een deelneming. Deze variabele heeft een discrete schaalverdeling met twee mogelijke waarden: er is wel sprake van een deelneming of er is geen sprake van een deelneming.
Of het kapitaal in de vennootschap geheel of ten dele in aandelen is verdeeld. Ook deze variabele heeft een discrete schaalverdeling met twee mogelijke waarden: het kapitaal is wel of niet geheel of ten dele in aandelen verdeeld. We kunnen hier overigens ook een continue schaalverdeling in zien, namelijk de mate waarin het kapitaal van de vennootschap in aandelen is verdeeld. Dit kan worden uitgedrukt in een percentage (van het kapitaal). Voor de toepassing van artikel 13, lid 2, onderdeel a, zijn we dan echter alleen geïnteresseerd in de vraag of het kapitaal voor 0% of voor meer dan 0% in aandelen is verdeeld.
Wat we nodig hebben, zijn algoritmen die correlaties en patronen tussen alle mogelijke variabelen kunnen herkennen, dus zowel numeriek als categorisch.
We zouden daarbij gebruik kunnen maken van machinaal leren (machinelearning). Met machinaal leren wordt meestal bedoeld dat een computer nieuwe informatie tot zich neemt en zo zijn prestaties verbetert.1 De lerende algoritmen van de computer gebruiken de input om patronen te vinden in een grote hoeveelheid data. Naarmate de computer meer informatie krijgt, zou het algoritme beter in staat moeten zijn om zinvolle patronen te herkennen. De beschikbare data en de daarin gevonden patronen zouden de computer vervolgens in staat moeten stellen om te extrapoleren naar de toekomst. Daarbij moeten de patronen dan wel worden omgezet in regels.
Stel bijvoorbeeld dat we een verzameling X hebben van beschikbare data. Daarnaast is er een verzameling Y van mogelijke uitkomsten die voortvloeien uit deelverzamelingen van de verzameling X. We zouden verzameling Y voor kunnen stellen als de verzameling van mogelijke uitkomsten van fiscale rechtsvindingsvraagstukken2 en de verzameling X als de verzameling van alle mogelijke inputdata.
Voorbeeld
We voeden de computer met alle jurisprudentie van de Hoge Raad. De verzameling Y bestaat dan uit alle eindoordelen van alle arresten van de Hoge Raad en de verzameling X uit alle voorafgaande feiten en rechtsnormen van die arresten. We willen dan weten welke combinatie van feiten en rechtsnormen uit de verzameling X tot eindoordelen in de verzameling Y leiden, en met welke waarschijnlijkheid.
Waar we dan in geïnteresseerd zijn, is de functie ƒ die een uitkomst Y verbindt aan de inputdata X:
ƒ : X → Y
Een mogelijke methode (er zijn meerdere methoden) om de relatie tussen X en Y vast te stellen, en daarmee de functie ƒ, is door het systeem te laten leren aan de hand van een bekende trainingsparen (X1, Y1), …, (Xn, Yn). Zodra het systeem de relatie ‘geleerd’ heeft, kunnen we een eventuele nieuwe verzameling X invullen in de functie ƒ en met Y = ƒ(X) de uitkomst Y voorspellen.3 Data waarvan we de uitkomst kennen gebruiken we dan om de uitkomst te voorspellen van data waarvan we de uitkomst nog niet kennen.
Naarmate de computer meer data bevat en meer input krijgt aan de hand waarvan het kan leren, worden meer patronen zichtbaar, en zal de computer in staat zijn om meer regels te genereren en meer of betrouwbaarder voorspellingen te doen in toekomstige gevallen. Die gezamenlijke regels vormen dan het heuristische systeem van de computer. Het aldus gegenereerde heuristische systeem moet wel voldoende algemeen zijn om ook tot voorspellingen te kunnen komen in gevallen waarin de feiten iets afwijken van eerdere zaken in het databestand.4 Het systeem zal dus een zodanige heuristiek moeten ontwikkelen dat het kan herkennen in hoeverre de feiten van een nieuw geval vergelijkbaar zijn – of juist niet – met die van eerdere zaken. Om een zodanig systeem te ontwikkelen, zal het veel data moeten bevatten en voldoende gelegenheid moeten hebben om te leren.
Het is overigens niet zo dat met de functie ƒ exact kan worden voorspeld welke uitkomst Y voortvloeit uit de data X. De functie geeft slechts een inschatting van de mogelijke gevolgen. We ontkomen er waarschijnlijk niet aan dat de voorspellingen een zekere mate van ruwheid bevatten. Waar mogelijk willen we echter wel dat de computer ook met een uitkomst Y komt indien Y = ƒ(X) misschien niet exact gelijk is aan de werkelijke uitkomst (zoals die mogelijk later zal blijken), maar ook als de uitkomst Y daar dicht genoeg bij in de buurt ligt.