Onnauwkeurige metingen
Madelon zit met de handen in het haar. Letterlijk. In haar ogen een blik die uitstekend haar gevoelens weerspiegelt: wanhoop en woede. Onnauwkeurige metingen, die zijn de oorzaak. En er volgt een opsomming van alles wat mooi en lelijk is aan haar docent.
Als Madelon is uitgeraasd, maken we de balans op. Doel van haar onderzoek was om in een experiment vast te stellen of handkracht werd beïnvloed door kijken naar geweld. Dus Madelon regelde een groep proefpersonen. Het experiment zag er min of meer zo uit: je laat een proefpersoon kijken naar een gewelddadig filmfragment en meet dan hoeveel kracht die proefpersoon in zijn handen heeft. Een halfuurtje (om verstoring als gevolg van vermoeidheid uit te sluiten) later herhaal je het experiment, maar dan met iets als The Sound of Music.
Onnauwkeurigheid
De hypothese was dat het zien van geweld adrenaline doet vrijkomen, en dat je daardoor ook beter presteert. Nou, dat van die adrenaline was wel gelukt: Madelon is laaiend op haar docent.
‘Zíj heeft me aangeraden om deze krachtmeters te gebruiken. Ik wist al bij de eerste proefpersoon wist ik dat ik er niks aan had. Die dingen zijn veel te onnauwkeurig.’ En dus… komen er geen significante resultaten uit. De newtonmeters hebben een nauwkeurigheid van 10 Newton, en de gemiddeldes bij Trainspotting liggen wel hoger dan bij The Sound of Music, maar door de onnauwkeurigheid is er eigenlijk nog niets te zeggen.
Boos worden op je docent is nooit verstandig (zie “Gewoon slechte docenten!”), maar bij Madelon wel begrijpelijk. Alhoewel… Een proefexperiment met verschillende meters om de meest geschikte uit te zoeken was natuurlijk ook een goed idee geweest, maar tegen de tijd dat Madelon tegenover me zit zijn alle proefpersonen allang naar huis en zijn we drie weken analyse en even zoveel tijd aan frustratie verder.
Onnauwkeurige metingen, of significantie?
Alles in de prullenbak dan maar?
Ik werp een blik op wat ruwe data. De meeste proefpersonen knijpen min of meer gelijk. Ik ben geen wonderdokter, maar daar lijkt het zo op het oog op. De mannen knijpen wat harder dan de vrouwen (wat overeenkomt met talloze experimenten waarin mannen het qua kracht wat beter doen dan vrouwen), bij de proefpersonen die eerst Trainspotting zagen en daarna The Sound of Music is het verschil tussen voor en na groter (toch vermoeidheid, of verflauwde aandacht?) en het verschil tussen geweld/geweldloos is sowieso niet erg groot. Het zou goed kunnen dat Madelon ook met een nauwkeuriger meter een nullfinding had gedaan.
Wat is significantie ook weer? Dat is, dat je meting laat zien dat de twee groepen die je met elkaar vergelijkt daadwerkelijk van elkaar verschillen. Ofwel: als het verschil tussen twee groepen zo groot is, dat het niet meer aan toeval is toe te schrijven. (Om die reden moet je je onderzoek niet baseren op twee of drie metingen… de kans dat je dan conclusies trekt op basis van een toevalligheid, is gewoon levensgroot.)
Kijk naar wat data je wél vertellen
De ene dataverzameling loopt lekkerder dan de andere. Such is life. Maar als je niet datgene kunt halen dat je er graag uit had kunnen halen, ga dan na wat die data je wél vertellen. En stel vervolgens alles in het werk om dat verhaal goed voor het voetlicht te krijgen.
Gedachtenexperiment
‘Stel nou eens dat je even aanneemt dat je tijdens het experiment zelf hebt zitten slapen,’ begin ik. De woede die ze voelt keert zich onmiddellijk tegen mij. ‘Stel nou dat je bij Trainspotting telkens slecht hebt afgelezen en naar beneden hebt afgerond, en dat je bij The Sound of Music telkens tevéél hebt afgelezen.’
‘Ik kan heus wel zo’n meter aflezen hoor.’
‘Ja, dat weet ik wel. Maar stel nou dat het tóch is misgegaan. En dat de geweldsfilm dus stelselmatig 10 Newton meer aan knijpkracht opleverde, en The Sound 10 Newton minder, eenvoudig weg omdat de meters zo onnauwkeurig zijn en je bij The Sound toevallig telkens net anders hebt afgelezen dan bij de geweldsfilm. Ik weet dat het volstrekt onwaarschijnlijk is, want dat zou betekenen dat je eigenlijk elke meting verkeerd hebt afgelezen, maar laten we dat nu even aannemen als gedachtenexperiment.’
‘En dan?’
‘Als je je data op die manier verandert, en je vindt dan wél significantie, dan heeft het onnauwkeurige meetinstrument je meting verpest. Maar als je dan ook géén significantie vindt, kun je ophouden met je boos te maken op je docent. Dan is er gewoon geen significantie.’
‘Maar dan heb ik een nullfinding.’
Nullfinding
Het toverwoord is gevallen. De nullfinding. Dat klinkt altijd vreselijk, maar het betekent in feite niet veel meer dan dat je vantevoren dácht dat er een causaal verband is tussen twee zaken, en dat je onderzoek dat verband niet ondersteunt. Bijvoorbeeld: omdat er geen verband is. Dat is aan de orde van de dag in de wetenschap, maar je leest er nooit iets over, want alle publicaties gaan over onderzoeken waarin wél een causaal verband is gevonden. Dat heeft echter meer te maken met een bias van wetenschappelijke tijdschriften. Dus ik zeg:
‘Nou en? De meeste onderzoeken komen uit op een nullfinding, dus dat is echt geen schande. Maar ik zou niet alleen dat gedachte-experiment doen, ik zou het ook beschrijven in de paragraaf waarin je nu de krachtmeters afkraakt. Dat maakt het verschil: je laat dan zien dat je ten eerste hebt geleerd dat je je meetinstrumenten moet testen op bruikbaarheid, en te tweede dat je je uitkomsten grondig hebt geanalyseerd.’
Als ik weken later mail van Madelon krijg, kan ik een glimlach niet onderdrukken.
Beste René, ik heb een 7,5. Mijn begeleider was erg te spreken over de post-hoc/secundaire analyse zoals je mij die hebt aangeraden. Daar heb ik in ieder geval punten mee gescoord.