Een medische behandeling evalueren Understand article

Author(s): Sarah Garner, Rachel Thomas

Vertaald door Carolien G.F. de Kovel. Sarah Garner en Rachel Thomas bespreken waarom goed-opgezette en correct geanalyseerde experimenten zo belangrijk zijn wanneer men de effectiviteit van een medische behandeling test.

Voor een dubbelblind
onderzoek wordt opgezet,
wordt de behandeling
uigeprobeerd in het
laboratorium en op een
kleine groep vrijwilligers
Figuur met dank aan
iStockphoto / hipokrat

Veronderstel dat een nieuwe medische behandeling is onwikkeld die hoge bloeddruk zou reduceren. De behandeling is uitgebreid getest in het laboratorium en op een paar vrijwilligers, en de onderzoekers geloven dat het ook zal werken in de algemene populatie. Nu is het moment aangebroken om te kijken of ze gelijk hebben.

In het verleden vonden artsen in de praktijk uit of een behandeling werkte door die uit te proberen op hun patiënten. Ze konden de reactie van de patiënten op een nieuwe behandeling vergelijken met oudere behandelingen voor de zelfde aandoening, en ook vergelijken hoe de reactie op de nieuwe behandeling varieerde tussen patiënten. Echter, als de patiënten inderdaad beter werden, was het niet duidelijk of dat door de behandeling kwam of door iets anders.

Hoe testen we of een nieuw
medicijn voor het verlagen
van de bloeddruk echt werkt?
Figuur met dank aan
iStockphoto / thelinke

Er zijn veel factoren die voor het herstel van de patiënten kunnen hebben gezorgd: bijvoorbeeld, ze voelden zich beter eenvoudigweg omdat ze door een dokter behandeld werden (een reactie die het placebo-effect wordt genoemd); ze werden sowieso vanzelf beter; of misschien werden ze beter door een verandering in hun persoonlijke omstandigheden en manier van leven. Als je geen rekening houdt met al deze factoren, zou je gemakkelijk ten onrechte kunnen concluderen dat de behandeling werkte. Artsen nemen deze behandeling dan op in hun dagelijkse praktijk en geloven ten onrechte dat die werkt.

De ontwikkeling van het dubbelblind onderzoek

In de 19^e eeuw stelden wetenschappers een methode voor om precies in de hand te houden wat er gebeurde en om alle veranderingen in de conditie van de patiënt te rigistreren. In deze gecontroleerde experimenten waren er twee groepen patiënten: de studiegroep die de nieuwe behandeling ontving en de controlegroep die een placebo (onwerkzaam medicijn) of een bestaande behandeling ontving. De patiënten werden geobserveerd en de resultaten van beide groepen (bijvoorbeeld of de patiënt overleefde of stierf) werden genoteerd en vergeleken.

In een medische studie wordt
aan één groep mensen een
nieuwe behandeling gegeven
en aan een andere groep een
placebo of een bestaande
behandeling
Figuur met dank aan
iStockphoto / gemphotography

Enige tijd later, in 1917, werd de wetenschappelijke methode verbeterd met het het ‘blind’ concept. Als noch de patiënt, noch de onderzoeker weet welke behandeling de patiënt ontvangt, dan kunnen de resultaten niet beïnvloed worden, opzettelijk noch onopzettelijk. Dit staat bekend als een dubbel-blind studie (in een enkel-blind onderzoek weet ofwel de patiënt ofwel de onderzoeker welke behandeling wordt toegediend).

Echter, de resultaten konden nog steeds opzettelijk gemanipuleerd worden om te bewijzen dat de behandeling werkte, door bijvoorbeeld ziekere patiënten mee te nemen in de studiegroep dan in de controlegroep. De oplossing hiervoor, voor het eerst gebruikt door de Britse Medical Research Council in de jaren veertig van de 20e eeuw voor zijn studie naar kinkhoest-vaccins, was om willekeurig te kiezen welke patiënten de nieuwe behandeling krijgen en welke de controlebehandeling.

Gecontroleerde studies met een gerandomiseerde (willekeurige) toewijzing aan de twee groepen staan bekend als gerandomiseerde-gecontroleerde studies (in het Engels: RCTs) ofwel dubbelblind-studies. Door te randomiseren, krijg je niet alleen een willekeurige menging van de ziekere en gezondere patiënten, maar ook van allerlei dingen waar je niets vanaf weet (maar die niettemin de gezondheid van de patiënt kunnen beïnvloeden en dus ook de uitkomst van de behandeling). Dan, omdat, in theorie, het enige verschil tussen de twee groepen is welk van beide behandelingen ze krijgen kun je ervan uitgaan dat de enige verschillen in uitkomst waarschijnlijk aan die behandeling liggen aan niet aan iets anders.

Dubbelblind-studies worden nu overal gebruikt in klinisch onderzoek om nieuwe behandeling te evalueren.

Bewijs verandert de medische praktijk

Voor 1994 raadden artsen patiënten met pijn in de lage rug bedrust aan. Echter, nadat al het beschikbare bewijs was geanalyseerd, realiseerde de Adviesgroep voor Klinische Standaarden dat bedrust niet hielp en wellicht zelfs schadelijk was. Dit leidde tot een radicale verandering in de behandeling en tegenwoordig wordt de patiënten geadviseerd om zo veel mogelijk actief te blijven^w1.

Het opzetten en analyseren van gerandomiseerd gecontroleerd onderzoek / dubbelblind-studies

Meer mensen, meer bewijskracht

Als je een studie plant om je behandeling voor te hoge bloeddruk te testen in een dubbelblind-studie, moet je die zorgvuldig opzetten. Een belangrijke vraag is: Hoe veel patiënten moet je includeren in de studie? Dit hangt af van de grootte van het effect van de nieuwe behandeling: hoe groter het verwachte effect, hoe kleiner het aantal benodigde patiënten om het effect te kunnen onderscheiden van de fluctuaties die door toeval optreden.

Natuurlijk is het effect van je behandling nou net wat je in je studie wilt onderzoeken. Voor je de studie start zal je echter al wel wat bewijs hebben verzameld dat de behandeling werkt, misschien uit laboratoriumonderzoek of door een kleinere studie. Hiermee kun je een schatting maken van de grootte van het effect.

Een normale bloeddruk ligt
tussen 90 en 120 mm Hg
Figuur met dank aan
iStockphoto / wwing

In gezonde patiënten hoort de bloeddruk tussen 90 en 120 mm kwikdruk (mm Hg) te liggen. Maar patiënten met hoge bloeddruk hebben voortdurend meetwaarden van meer dan 140 mm Hg, waardoor ze een verhoogd risico lopen op een hartaanval of een een hersenbloeding. Je zou kunnen schatten dat de nieuwe behandeling de maximum bloeddruk van de patiënt met 5 mm Hg verlaagt: na de behandeling zou je verwachten dat de gemiddelde bloeddruk in de studiegroep tenminste 5 mm lager ligt dan de gemiddelde bloeddruk in de controlegroep.

Er zijn statistische formules om de grootte te bepalen van de steekrpoef die je nodig hebt om een goede kans te hebben om het geschatte effect the detecteren^w2. Voor je bloeddruk-behandeling vertellen deze formules dat je ongeveer 64 patiënten in elke groep moet hebben om een behandelingseffect van 5 mm te kunnen detecteren^w3.

Hoe verschillend is verschillend?

De studie is afgerond, de deelnemers zijn gevolgd en je hebt een verschil in bloeddruk gevonden tussen de patiënten in de studiegroep en de controlegroep. Dankzij het randomiseren weet je dat de groepen vergelijkbaar waren vóór de studie. Dus ofwel je nieuwe behandeling heeft effect gehad of iets heel opmerkelijks is gebeurd: de behandeling had helemaal geen effect en je hebt een verschil in bloeddruk gevonden in je studie geheel door toeval.

Stel je voor dat de gemiddelde bloeddruk in de studiegroep 5.2 mm Hg lager was dan de gemiddelde bloeddruk in de controlegroep. Hoe beslis je of het verschil door toeval komt of door een echt effect van de behandeling? Bloeddruk kan tenslotte om allerlei redenen variëren en de gerandomiseerde studie-opzet kan die niet allemaal corrigeren.

Wil een medische studie
correcte resultaten
opleveren, dan moeten de
mensen die deelnemen
representatief zijn voor de
echte populatie mensen die
de behandeling zullen
ondergaan
Figuur met dank aan
iStockphoto / sculpies

Wat statistici doen is enige variatie toestaan: liever dan afgaan op het gemiddelde van de groep, berekenen ze een interval voor elke groep waarvan ze behoorlijk zeker zijn dat echte waarde binnen dat gebied valt. Dit interval noemen ze het betrouwbaarheidinterval. Als het betrouwbaarheidsinterval in de controlegroep loopt van 141.2-148.9 mmHg en in de studiegroep van 133.7-139.3 mmHg, dan kun je zien dat de twee betrouwbaarheidintervallen niet overlappen. Dan zeggen statistici dat het gevonden verschil tussen de twee groepen statistisch significant is – en dan kun je ervan uitgaan dat het een effect van de behandeling was.

Maar hoe betrouwbaar is betrouwbaar? Satistici zeggen meestal dat 95% betrouwbaar genoeg is: dit betekent dat ze bereid zijn te leven met het feit dat in 5% van de gevallen (dus 1 in 20 keer) ze door toeval verkeerd zitten. Om zekerder te zijn van de juiste waarde moet je meer patiënten meten en zelfs dan is de enige manier om volledig zeker te zijn de hele populatie te meten!

Als het resultaat niet statistisch significant blijkt te zijn, dan is een van de sleutelvragen of je wel genoeg patiënten hebt meegenomen in de studie. Misschien is het effect van de behandeling kleiner dan je had geschat – met een grotere steekproefgrootte had je misschien wel een verschil gevonden tussen de groep patiënten en de controlegroep.

Dubbelblind studies gebruiken in het echte leven

Een goed opgezette en netjes geanalyseerde gerandomiseerde studie is een zeer krachtig gereedschap voor medische onderzoekers, waarmee ze de artsen voorzien van de informatie die ze nodig hebben om de juiste beslissingen te maken bij de behandeling van hun patiënten. Niettemin hebben ook dubbelblind studies hun beperkingen.

Ten eerste, het is niet genoeg om te weten dat de nieuwe behandeling een statistisch significant verschil maakt. Is het verschil ook klinisch relevant – bijvoorbeeld, maakt een verschil in bloeddruk van 5 mm Hg echt verschil voor de gezondheid en het welbevinden van de patiënt? Tenslotte, in ons voorbeeld,verlaagde de behandeling de bloeddruk nog steeds niet tot de normale waarden van 90-120 mmHg. Om te beoordelen of het gevonden verschil ook klinisch relevant is, moeten artsen andere vormen van onderzoek gebruiken.

Een andere beperking van het dubbelblind onderzoek is dat de patiënten in de studie niet overeenkomen met de echte populatie van de mensen die in aanmerking komen voor de behandeling; de studies hebben meestal vrij stricte inclusie- en exclusiecriteria. Zwangere vrouwen worden bijvoorbeeld niet geïncludeerd vanwege mogelijke risico’s voor het ongeboren kind. Dit betekende dat niemand zich had gerealiseerd dat thalomide aangeboren afwijkingen veroorzaakte totdat het middel in de praktijk werd ingezet in de late jaren 50 van de vorige eeuw^w4.

Dan is er de nog de vraag hoe de uitkomsten van het dubbelblind onderzoek worden gerapporteerd. Niemand houdt van slecht nieuws, vooral niet de mensen die tijd en inspanning hebben gestoken in het ontwikkelen van een nieuwe behandeling. In het verleden publiceerden onderzoekers daarom geen studies die lieten zien dat de nieuwe behandeling niet beter of zelfs slechter was dan de bestaande. Soms hebben wetenschappers zonder scrupules ook selectieve of incomplete resultaten gemeld, waardoor de nieuwe behandeling beter leek dan hij werkelijk was. De onderzoeksgemeenschap heeft stappen ondernomen om dit soort praktijken uit te bannen door bedrijven en onderzoekers te dwingen het begin van een studie te registreren, zodat het veel moeilijker wordt om ongewenste resultaten te verbergen, hoewel er nog steeds geen eis is om alle uitkomsten te publiceren. Tijdschriften standaardiseren ook de eisen die ze stellen aan de informatie die onderzoekers met hun manuscript moeten inleveren om gepubliceerd te worden. Dit maakt het ook moeilijker om slechte resultaten te verdonkeremanen.

Figuur met dank aan
stevecolecs / iStockphoto

Dubbelblind studies zijn duur en tijdrovend. Daarom worden veel testen helemaal niet uitgevoerd of met een beperkte studiegroep of met een korte looptijd. Dit kan betekenen dat de studie niet genoeg ‘power’ heeft om uit te maken of de behandeling effectief is, terwijl dat in feite wel zo is. Kleinere studies kunnen ook belangrijke bijwerkingen missen (die misschien zeldzaam zijn) en korte studies kunnen vanzelfsprekend geen lange-termijn-uitkomsten vaststellen.

Klinisch onderzoekers bekijken daarom vaak de uitkomsten van een aantal studies samen in een zorgvuldige analyse die bekend staat als een systematische review – dit zorgt voor een grotere studie. Organisaties zoals Cochrane Collaboration^w5 en het Britse National Institute for Health and Clinical Excellence^w6 baseren hun aanbevelingen aan de medische gemeenschap op zulke systematische reviews.

Sinds 1940 heeft gebruik van het dubbelblind onderzoek de medische praktijk aanmerkelijk veranderd. Dokters zijn niet langer afhankelijk van alleen hun eigen observaties maar kunnen bouwen op een rigoreuze evaluatie om er zeker van te zijn dat het voordeel van de nieuwe behandeling opweegt tegen de risico’s.

Bewijs kan inzichten veranderen

Onlangs werd een systematische review uitgevoerd van het bewijs voor minocycline, een antibioticum dat sterk werd gepromoot als de beste behandeling van acne, om de effectiviteit en de veiligheid vast te stellen.

Een bijwerking van minocycline zijn mogelijk fatale auto-immuunproblemen met de lever. Deze problemen zijn zeldzaam en kunnen diverse oorzaken hebben. De meeste artsen komen ze niet tegen en als ze dat wel doen zullen ze het probleem wellicht niet in verband brengen met het medicijn.

Pas toen alle informatie bijelkaar werd bekeken werd het verband gelegd. Een systematische review liet zien dat er geen bewijs was dat minocycline beter werkte dan enige andere behandeling van acne. Gezien de risico’s, concludeerden de auteurs van de review dat het gebruik ervan geen voorkeur verdiende boven andere behandelingen (Garner et al., 2003).

Met dank aan

Als u dit artikel met plezier hebt gelezen en meer zou willen weten over de wiskunde erachter, lees dan de originele, langere versie van dit artikel^w3, dat in het tijdschrift Plus^w7 is verschenen (in het Engels), een gratis online tijdschrift dat een deur opent naar de wereld van de wiskunde met al haar schoonheid en toepassingen.

References

Garner SE (2003) Minocycline for acne vulgaris: efficacy and safety. Cochrane Database of Systematic Reviews 1: CD002086. doi: 10.1002/14651858.CD002086

Web References

w1 – Voor meer informatie over aanbevelingen voor bedrust, lees de paragraaf over ‘management’ in het artikel ‘Low back pain and sciatica’ op de Patiënt Uk website (www.patient.co.uk) of gebruik de directe link: http://tinyurl.com/y9gghww
w2 – U kunt een goede uitleg lezen over hoe behandelingeffecten en studiegrootte de statistische power kunnen beinvloeden in Jerry Dallal’s Little Handbook of Statistical Practice: www.jerrydallal.com/LHSP/sizenotes.htm
w3 – Voor de originele versie van dit artikel, inclusief de details over de staistiek, zie:
- Garner S, Thomas R (2010) Evaluating a medical treatment – how do you know it works? Plus Magazine. http://plus.maths.org/latestnews/jan-apr10/rct
w4 – Om meer te leren over de ramp met thalodomide en ook over recent onderzoek naar thalodomide bij de vorming van ledematen, zie:
- Zimmer C (2010) Answers begin to emerge on how thalidomide caused defects. New York Times 16 Mar: D3. www.nytimes.com
w5 – De Cochrane Collaboration is een internationaal netwerk van mensen die ondersteuning bieden aan zorgverleners, beleidsmakers, patiënten, hun advocaten en verzorgers om goed-geïnformeerde beslissingen te kunnen nemen over gezondheidszorg. Zie: www.cochrane.org
w6 – Het National Institute for Health and Clinical Excellence (NICE) is een onafhankelijke organisatie die verantwoordelijk is voor het leveren van nationale richtlijnen in GB voor het stimuleren van een goede gezondheid en voor de preventie en behandeling van slechte gezondheid. Zie: www.nice.org.uk
w7 – Om meer te leren over Plus, het (Engelstalige) gratis wiskunde-tijdschrift op het web, bezoek: http://plus.maths.org

Resources

Voor een korte beschrijving van de vier fasen van een klinische trial, zie informatie-box in:
- Wynne K, Bloom S (2007) Oxyntomodulin: a new therapy for obesity? Science in School 6: 25-29. www.scienceinschool.org/2007/issue6/oxyntomodulin
Ledford H (2010) Companies pledge to make more trial data public. Nature News 15 Jun. doi: 10.1038/news.2010.299.
Om te luisteren naar de (Engelstalige) podcast die bij de oorspronkelijke versie van dit artikel hoort (Plus podcast 22, February 2010: Evaluating a medical treatment), zie: http://plus.maths.org/podcast
De liefdadigheidsorganisatie Sense About Science heeft een praktische gids gemaakt over hoe medische claims in de media te interpreteren (‘I’ve got nothing to lose by trying it’). De gids kan worden gedownload van de website van Sense About Science (www.senseaboutscience.org.uk) of via de directe link: http://tinyurl.com/63zv4l
Freiberger M (2010) Medical research plagued by bad reporting. Plus Magazine. http://plus.maths.org/latestnews/jan-apr10/reporting
Plus Magazine biedt een breed scala aan artikelen, podcasts en klas-activiteiten over de wiskunde achter sterfte en geneeskunde: ‘ Do you know what’s good for you?’ Zie: http://plus.maths.org/wellcome

Author(s)

Dr Sarah Garner is de redacteur voor onderzoek en ontwikkeling aan het National Institute for Health and Clinical Excellence (NICE)^w6, dat zijn aanbevelingen aan de medische gemeenschap baseert op systematische reviews.

Rachel Thomas is mede-redacteur van Plus^w7 magazine.

Review

Het artikel geeft inzicht in moderne bewijs-gebaseerde geneeskunde, waarbij het ingaat op de vaak over het hoofd geziene en zelden goed begrepen route van medicijnontwikkeling naar succesvolle medische behandeling. Statistische methoden en hun probelemen worden besproken. Het artikel biedt hiermee mogelijkheden voor interdisciplinair onderwijs aan leerlingen van 14 jaar en ouder.

Het staat vol boeiende onderwerpen die besproken kunnen worden met oudere leerlingen en docenten van verschillende disciplines. Bijvoorbeeld:

Kennis is niet statisch: als nieuwe bijwerkingen worden gemeld of ander nieuw bewijsmateriaal wordt verzameld, kan tot dan toe geaccepteerde kennis veranderen.
De klinische trials die nodig zijn voordat een medicijn op de markt kan worden gebracht hebben vaak meer tijd nodig dan sommige ernstig zieke mensen nog te leven hebben; wie mag er dan meedoen in de klinische trial – en welke van deze patiënten krijgen de controlebehandeling en welke het nieuwe medicijn?
Waarom zou de berichtgeving over een nieuwe behandeling gekleurd kunnen zijn?
Geeft statistiek een vals gevoel van veiligheid?

Gebaseerd op het voorbeeld van bloeddruk en hoe variabel die is, zou de klas hun eigen bloeddruk kunnen meten en zien hoe die varieert van de ene leerling tot de andere. Ze kunnen eens de trappen op en af rennen en zien hoe de bloeddruk van dezelfde persoon kan variëren. Tegen de achtergrond van deze variatie, hoe bepalen de onderzoekers nog het effect van medicijnen om de bloeddruk te verlagen?

Het artikel kan ook worden gebruikt om grotere activiteiten te initiëren. Bijvoorbeeld, de leerlingen zouden een krantenartikel kunnen krijgen over een klinische studie of over een ‘wondermedicijn’, misschien gerelateerd aan condities die bekend voor ze zijn, zoals migraine, glucose-intolerantie of allergieën. In groepen zouden de studenten handboeken, het internet en andere bronnen kunnen gebruiken om de volgende dingen te bestuderen:

De ziekte die wordt behandeld;
Welke behandelingen zijn momenteel beschikbaar voor deze ziekte;
Of de nieuwe behandeling is getest op dieren;
Of voorgaande studies van deze behandeling zijn gepubliceerd;
Hoe de huidige studie is opgezet en wat voor statistische analyse is gedaan;
Hoe denken ze dat de studie verbeterd kan worden.

Op basis van dit onderzoek kan elke groep studenten een eigen krantenartikel schrijven over de klinische studie. Vinden ze het originele krantenartikel accuraat? Indien niet, waarom niet?

Voor de meeste docenten zal dit artikel ook een waardevolle bron van informatie zijn over de geschiedenis van medisch onderzoek en dubbelblind-studies.

Een medische behandeling evalueren Understand article

De ontwikkeling van het dubbelblind onderzoek

Bewijs verandert de medische praktijk