Evaluation einer medizinischen Behandlung Understand article

Author(s): Sarah Garner, Rachel Thomas

Übersetzt von Hildegard Kienzle-Pfeilsticker. Sarah Garner und Rachel Thomas legen dar, warum gut angelegte und exakt ausgewertete Experimente so wichtig für den Wirkungsnachweis einer medizinischen Behandlung sind.

Vor dem Start einer RCT wird
die Behandlung im Labor
getestet und an kleinen
Gruppen von Freiwilligen
Mit freundlicher Genehmigung
von iStockphoto / hipokrat

Stellen Sie sich vor, es wäre eine medizinische Behandlung gegen Bluthochdruck entwickelt worden. Die Behandlung wurde im Labor an einigen Freiwilligen gründlich getestet und die Forscher glauben, dass es in der Allgemeinbevölkerung ebenso wirkt. Jetzt ist der Zeitpunkt gekommen, um herauszufinden, ob sie Recht haben.

Früher stellten Ärzte die Wirksamkeit einer Behandlung bei der Anwendung an ihren Patienten fest. Sie konnten dann das Ansprechen der Patienten auf die neue Behandlung mit früheren Behandlungen derselben Krankheit vergleichen und sie konnten auch vergleichen, wie das Ansprechen zwischen den verschiedenen Patienten variierte. Überstanden die Patienten die Krankheit, konnte man nicht sagen, ob sie sich aufgrund der Behandlung oder aus einem anderen Grund erholten.

Es gibt viele andere Gründe, warum Patienten eine Krankheit überwinden: beispielsweise könnten sie sich einfach deswegen besser gefühlt haben, weil sie von einem Arzt behandelt wurden (diese Reaktion ist als Placebo-Effekt bekannt); vielleicht hätten sie sich auch ohne Behandlung erholt; oder ihre Besserung ging auf Änderungen der persönlichen Umstände oder des Lebensstils zurück. Ohne Berücksichtigung dieser und anderer Faktoren könnte man leicht den falschen Schluss ziehen, dass die Behandlung funktioniert. Ärzte würden sie dann in die tägliche Praxis übernehmen, in der falschen Annahme, dass sie wirke.

Die Entwicklung randomisiert- kontrollierter Studien

Wie testen wir, ob ein neues
Arzneimittel zur Senkung
hohen Blutdrucks tatsächlich
wirkt?
Mit freundlicher Genehmigung
von iStockphoto / thelinke

Im 19. Jahrhundert entwickelten Wissenschaftler eine Methode zur genauen Kontrolle des Geschehens und der Aufzeichnung aller Änderungen des Zustands des Patienten. In diesen kontrollierten Experimenten gab es zwei Gruppen von Patienten – die Studiengruppe, die die neue Behandlung erhielt, und die Kontrollgruppe, die ein Placebo (eine wirkungslose Medikation) oder eine etablierte Behandlung bekam. Die Patienten wurden beobachtet und die Auswirkung auf die zwei Gruppen (wie Weiterleben oder Tod jedes Patienten) wurde registriert und verglichen.

Bei einer medizinischen
Studie bekommt eine Gruppe
von Teilnehmern die neue
Behandlung, die andere
Gruppe bekommt ein Placebo
oder eine etablierte
Behandlung
Mit freundlicher Genehmigung
von iStockphoto /
gemphotography

Einige Zeit später, 1917, verbesserte das Verblinden die wissenschaftliche Methode noch mehr. Wenn weder Patient noch Forscher wissen, welche Behandlung der Patient bekommt, dann können die Ergebnisse weder bewusst noch unbewusst beeinflusst werden. Dies wird Doppelblindstudie genannt (in einer einfach verblindeten Studie, weiß entweder der Patient oder der Forscher, welche Behandlung erfolgt).

Um die Wirksamkeit der Behandlung zu beweisen, könnten dennoch die Ergebnisse immer noch absichtlich verfälscht worden sein, indem in die Studiengruppe kränkere Patienten eingeschlossen werden als in die Kontrollgruppe. Die Lösung ist die Zufallsauswahl der Patienten, die die neue Behandlung und die die Kontrollbehandlung erhalten, so wie es der Medical Research Council England zum ersten Mal in den 40er Jahren für seine Studie zu Keuchhusten-Impfstoffen des letzen Jahrhunderts gemacht hat.

Kontrollierte Studien mit zufälliger Zuweisung zu den zwei Gruppen wurden als randomisiert-kontrollierte Studien oder RCTs bekannt. Durch die Randomisierung erreicht man nicht nur eine zufällige Verteilung mehr oder weniger kranker Patienten zwischen den beiden Gruppen, sondern auch von unbekannten Einflüssen (die aber ebenso gut die Patientengesundheit und daher die Auswirkung der Behandlung beeinflussen können). Theoretisch ist dann der einzige Unterschied zwischen den Gruppen die neue Behandlung und man kann annehmen, dass die unterschiedlichen Auswirkungen sehr wahrscheinlich der Behandlung und nichts anderem zuzuschreiben sind.

RCTs sind heute der Goldstandard in der klinischen Forschung zur Evaluation neuer Behandlungen.

Evidenz verändert die medizinische Praxis

Vor 1994 rieten Ärzte Patienten mit tiefen Rückenschmerzen, im Bett zu bleiben. Nach Aufarbeitung aller verfügbaren klinischen Evidenz jedoch merkte die Clinical Standards Advisory Group, dass Bettruhe nicht nutzte und sogar vielleicht schadete. Dies führte zu einer Kehrtwende in der Behandlung, indem den Patienten geraten wurde, körperlich aktiv zu bleiben^w1.

Der Entwurf und die Auswertung von RCTs

Mehr Leute, mehr Aussagekraft

Das Prüfprotokoll einer Behandlungsmethode gegen Bluthochdruck mit Hilfe einer RCT muss sorgfältig entworfen werden. Eine wichtige Frage ist: Wie viele Patienten sollten in die die Studie eingeschlossen werden? Die Zahl hängt davon ab, wie groß der Effekt der neuen Behandlung ist: Je größer der Effekt, desto kleiner ist die Zahl der Patienten, die man braucht, um von zufälligen Schwankungen zu unterscheiden.

Natürlich will man mit der RCT die Wirkung der Behandlung genau bestimmen. Indessen gibt es schon Hinweise auf Wirksamkeit der Behandlung, vielleicht von Laborversuchen oder kleineren Tests. Dies erlaubt die Abschätzung der Größe des Effekts.

Der normale Blutdruck liegt
zwischen 90 und 120 mmHg
Mit freundlicher Genehmigung
von iStockphoto / wwing

Bei einem Gesunden sollte sich der Blutdruck zwischen 90 und 120 mmHg bewegen (oberer Wert). Bei Patienten mit hohem Blutdruck misst man ständig mehr als 140 mmHg. Sie haben damit ein erhöhtes Risiko für Herzinfarkt und Schlaganfall. Geschätzt, die neue Behandlung senkt den maximalen Blutdruck des Patienten um 5 mmHg, dann würde man erwarten, dass der Blutdruck der Studiengruppe im Mittel um 5 mmHg niedriger liegen würde als der mittlere Blutdruck der Kontrollgruppe.

Es gibt statistische Formeln zur Berechnung des Stichprobenumfangs, den man braucht, um den geschätzten Effekt zu finden^w2. Bei der Behandlung des Bluthochdrucks verlangen die Formeln etwa 64 Patienten in jeder Gruppe, um nach der Behandlung einen Unterschied von 5 mmHg^w3 zu erkennen.

Wie verschieden ist verschieden?

Die Studie ist durchgeführt, die Teilnehmer wurden kontrolliert und ein Unterschied im Blutdruck zwischen Patienten in Studiengruppe und Kontrollgruppe wurde festgestellt. Dank der zufälligen Einteilung waren die Gruppen vor der Studie vergleichbar. Die Behandlung zeigte also entweder Wirkung oder ein sehr überraschendes Ereignis trat ein: Die Behandlung hat überhaupt keinen Effekt und die aufgezeichnete Wirkung in der RCT war rein zufällig.

Stellen Sie sich vor, der Blutdruck der Studiengruppe war 5,2 mmHg niedriger als der mittlere Blutdruck der Kontrollgruppe. Wie entscheiden Sie, ob dieser Unterschied zufällig ist oder tatsächlich eine Wirkung der Behandlung? Denn der Blutdruck kann aus vielerlei Gründen variieren, die Sie nicht alle in Ihrer RCT kontrollieren können.

Soll eine medizinische Studie
vernünftige Ergebnisse
liefern, müssen die
Teilnehmer die tatsächliche
Population zu behandelnder
Patienten repräsentieren
Mit freundlicher Genehmigung
von iStockphoto / sculpies

Statistiker erlauben eine gewisse Schwankung; sie verlassen sich nicht auf einen Mittelwert für jede Gruppe; stattdessen berechnen sie einen Bereich von Werten für jede Gruppe, von denen sie annehmen, dass sie sehr wahrscheinlich den wahren Wert enthalten. Dieser Wertebereich wird Konfidenzintervall genannt. Wenn die Konfidenzintervalle in Ihrer Blutdruckstudie 141,2-148,9 mmHg in der Kontrollgruppe betragen haben und 133,7-139,3 mmHg in der Studiengruppe, dann sehen Sie, dass die zwei Konfidenzintervalle sich nicht überlappen. Statistiker sagen deshalb, dass der beobachtete Unterschied zwischen den beiden Gruppen statistisch signifikant ist – und Sie können annehmen, dass er wirklich durch die Behandlung verursacht wurdet.

Aber wie vertrauensvoll ist vertrauensvoll? Statistiker sagen normalerweise, dass 95% ausreichend verlässlich sei; das bedeutet, dass sie mit der Tatsache leben können, dass sie in 5% der Fälle (oder in einem von 20) durch Zufall eine falsche Annahme machen. Um noch sicherer zu sein, nicht den falschen Wert ermittelt zu haben, müssten Sie noch mehr Patienten einbeziehen und selbst dann wäre der einzige Weg für 100%ige Sicherheit die Messung der ganzen Population!

Falls das Resultat statistisch nicht signifikant ist, ist eine der Schlüsselfragen, ob nicht genug Patienten in die Studie einbezogen wurden. Vielleicht ist der Effekt kleiner als Sie angenommen haben – mit einer größeren Stichprobe hätten Sie vielleicht einen Unterschied zwischen den beiden Gruppen entdeckt.

RCTs: Wunsch und Wirklichkeit

Eine gut angelegte und genau ausgewertete RCT ist ein leistungsfähiges Werkzeug für Medizinforscher, welche Ärzte mit den Informationen versorgen, die sie für richtige Entscheidungen brauchen, wenn sie ihre Patienten behandeln. Dennoch haben RCTs ihre Grenzen.

Zunächst reicht es nicht zu wissen, dass die neue Behandlung einen statistischen Unterschied macht. Ist der Unterschied auch klinisch relevant – zum Beispiel, ist eine Absenkung des maximalen Blutdrucks um 5 mmHg für einen Patienten wirklich vorteilhaft für seine Gesundheit und sein Wohlbefinden? Schließlich reduzierte die Behandlung in unserem Beispiel den Blutdruck immer noch nicht auf den normalen Bereich von 90-120 mmHg. Um beurteilen zu können, ob das klinisch relevant ist, müssten sich Ärzte andersartigen Studien zuwenden.

Eine weitere Limitierung von RCTs ist, dass die in die Studie eingeschlossenen Patienten nicht die Population der Menschen in der wirklichen Welt repräsentieren. Weil Studien so viele Faktoren wie möglich kontrollieren wollen, haben sie in der Regel strikte Einschluss- und Ausschlusskriterien. Schwangere Frauen beispielsweise werden wegen möglicher Risiken für das ungeborene Kind nicht eingeschlossen; deswegen bemerkte niemand, dass Thalidomid Fehlbildungen bei Neugeborenen verursacht, bis Ende der 50er Jahre seine Anwendung allgemein üblich wurde^w4.

Weiterhin stellt sich die Frage, wie man über RCTs berichtet. Niemand möchte schlechte Nachrichten publizieren, besonders nicht Leute, die viel Zeit und Mühe investiert haben, um eine neue Behandlung zu entwickeln. Früher haben Forscher daher keine Studien veröffentlich, die keinen Unterschied gezeigt haben oder die sogar ergaben, dass eine ältere Behandlung besser ist. Einige skrupellose Forscher haben sogar ausgesuchte oder unvollständige Ergebnisse berichtet, die eine neue Behandlung vorteilhafter haben erscheinen lassen, als sie wirklich war. Die Wissenschaftsgemeinde hat Schritte zur Unterbindung dieser Beeinflussungen unternommen, indem sie Firmen und Forscher verpflichtet, den Beginn einer Studie anzumelden. Damit wird es schwieriger, unerwünschte Wirkungen zu verbergen, obwohl immer noch nicht alle Ergebnisse berichtet werden müssen. Zeitschriften standardisieren ebenso die Informationen, die Forscher mit ihren Manuskripten einreichen müssen. So wird es schwieriger, schlechte Ergebnisse zurückzuhalten.

Mit freundlicher Genehmigung
von stevecolecs / iStockphoto

RCTs sind vor allem teuer und zeitintensiv. Deswegen werden viele Studien überhaupt nicht durchgeführt oder ihre Stichprobengröße oder Dauer ist begrenzt. Das kann bedeuten, dass eine Untersuchung nicht schlagkräftig genug ist, um einen Behandlungserfolg zu messen, obwohl er eigentlich da ist. In kleineren Studien können Beeinträchtigungen unbemerkt bleiben (weil sie selten sind) und kürzere Studien erfassen keine langfristigen Auswirkungen.

Klinische Forscher prüfen deshalb die Auswirkungen einer ganzen Reihe von Studien zusammen im Rahmen einer akribischen Analyse, bekannt als systematischer Review, weil er die Stichprobe vergrößert. Organisationen wie die Cochrane Collaboration^w5 und die englischen National Institutes for Health and Clinical Excellence^w6 stützen ihre Empfehlungen an die Medizinergemeinde auf systematische Reviews.

Seit den 1940er Jahren haben RCTs die medizinische Praxis bedeutend verändert. Ärzte sind nicht mehr auf ihre eigenen Beobachtungen angewiesen, sondern können auf eine strenge Bewertung vertrauen, um abzusichern, dass der Nutzen einer neuen Behandlung die Risiken überwiegt.

Evidenz kann die Sichtweise ändern

Neulich wurde ein systematischer Review der Evidenz für Minocyclin, einem Antibiotikum, das als ausdrücklich bestes Mittel gegen Akne angeboten wurde, durchgeführt, um seine Wirksamkeit und Sicherheit zu prüfen.

Eine mögliche Nebenwirkung von Minocyclin sind möglicherweise tödliche Probleme durch autoimmune Leberschädigung. Diese Probleme sind selten und können eine Reihe verschiedener Ursachen haben. Die meisten Ärzte machen diese Erfahrung nicht und wenn doch, dann stellen sie meist nicht den Zusammenhang mit dem Wirkstoff her.

Erst als alle Informationen zusammengetragen waren, wurde der Zusammenhang erkennbar. Eine systematische Überprüfung zeigte keine Evidenz, dass Minocyclin Akne besser kurieren würde als irgendeine andere Behandlung. Die Autoren kamen zu dem Schluss, dass es angesichts der Risiken gegenüber den anderen Behandlungen nicht bevorzugt werden sollte (Garner et al., 2003).

Danksagung

Wenn Ihnen dieser Artiekl gefallen hat und Sie mehr über die damit verbundene Mathematik erfahren möchten, dann lesen Sie die längere Originalversion dieses Artikels^w3, die im Plus Magazin^w7 erschienen ist. Das ist ein freies Online-Magazin, welches die Türen zur Welt der Mathematik mit all ihrer Schönheit und ihren Anwendungen öffnet.

References

GGarner SE (2003) Minocycline for acne vulgaris: efficacy and safety. Cochrane Database of Systematic Reviews 1: CD002086. doi: 10.1002/14651858.CD002086

Web References

w1 – Mehr Informationen über Empfehlungen zur Bettruhe findet man in im Abschnitt ‘management’ des Artikels ‘Low back pain and sciatica’ der englischen Patienten-Webseite (www.patient.co.uk) oder über den direkten Link: http://tinyurl.com/y9gghww
w2 – Eine gute Erklärung dafür, wie Behandlungseffekte und Stichprobengröße die statistische Aussagekraft beeinflussen können findet man in Jerry Dalals Little Handbook of Statistical Practice: www.jerrydallal.com/LHSP/sizenotes.htm
w3 – Die Originalversion dieses Artikels mit weiteren Einzelheiten zur Statistik findet man unter:
Garner S, Thomas R (2010) Evaluating a medical treatment – how do you know it works? Plus Magazine. http://plus.maths.org/latestnews/jan-apr10/rct
w4 – Mehr zur Thalidomid-Katastrophe und über neue Forschungen zu Thalidomid und die Bildung von Gliedmaßen, ist zu finden unter:
Zimmer C (2010) Answers begin to emerge on how thalidomide caused defects. New York Times 16 Mar: D3. www.nytimes.com
w5 – Die Cochrane Collaboration ist ein internationales Netzwerk von Leuten, die Erbringern von Gesundheitsdienstleistungen, politischen Entscheidungsträgern, Patienten, ihren Anwälten und Betreuern zu wohlbegründeten Entscheidungen im Rahmen der medizinischen Versorgung verhelfen. Siehe: www.cochrane.org
w6 – Die National Institute for Health and Clinical Excellence (NICE) ist eine unabhängige Organisation, die in England verantwortlich ist für nationale Vorgaben zur Gesundheitsförderung und Krankheitsvorsorge und die Wiederherstellung der Gesundheit. Siehe: www.nice.org.uk
w7 – Um mehr über Plus, das freie Online-Mathematikmagazin, zu erfahren, gehe auf: http://plus.maths.org

Resources

Eine kurze Beschreibung der vier Phasen einer klinischen Studie findet man in der Infobox in:
- Wynne K, Bloom S (2007) Oxyntomodulin: eine neue Therapie gegen Fettleibigkeit? Science in School 6: 25-29. www.scienceinschool.org/2007/issue6/oxyntomodulin/german
- Ledford H (2010) Companies pledge to make more trial data public. Nature News 15 Jun. doi: 10.1038/news.2010.299.
- Um den begleitenden Podcast der ursprünglichen Version dieses Artikels zu hören (Plus podcast 22, February 2010: Evaluating a medical treatment), gehe zu: http://plus.maths.org/podcast
- Die Wohltätigkeitsorganisation Sense About Science hat einen hilfreichen Führer erstellt, wie medizinische Behauptungen in der Presse interpretiert werden sollten (‘I’ve got nothing to lose by trying it’). Er kann von der Sense-About-Science-Webseite kostenlos heruntergeladen werden (www.senseaboutscience.org.uk) oder über den direkten Link: http://tinyurl.com/63zv4l
- Freiberger M (2010) Medical research plagued by bad reporting. Plus Magazine. http://plus.maths.org/latestnews/jan-apr10/reporting
Das Plus Magazine bietet eine Reihe von Artikeln, Podcasts und Unterrichtsmaterialien an, die sich mit der Mathematik hinter den Themen Gesundheit und Medizin beschäftigen: ‘Do you know what’s good for you?’ Siehe:http://plus.maths.org/wellcome

Author(s)

Dr. Sarah Garner ist associate director für Forschung und Entwicklung am National Institute for Health and Clinical Excellence (NICE)^w6, welches seine Empfehlungen an medizinische Fachleute aufgrund systematischer Übersichten ausspricht.

Rachel Thomas ist Mitherausgeber des Plus-Magazins^w7.

Review

Dieser Artikel gibt Einblick in moderne, evidenzbasierte Medizin, indem er sich mit der oft unbeachteten und selten verstandenen Route von der Medikamentenentwicklung zur erfolgreichen medizinischen Behandlung befasst. Statistische Methoden und ihre Probleme werden diskutiert und bieten so die Möglichkeit eines interdisziplinären Unterrichts für Schüler ab 14 Jahren.

Er enthält viele brandheiße Themen, die mit älteren Schülern und Lehrern anderer Fächer diskutiert werden können. Zum Beispiel:

Wissen ist nicht statisch: wird über neue Wirkungen berichtet oder wird andere neue Evidenz zusammengestellt, kann sich allgemein akzeptiertes Wissen ändern.
Häufig brauchen klinische Studien bis zum möglichen Markteintritt länger als manche Schwerkranken noch zu leben haben; wem sollte die Teilnahme an einer klinischen Studie ermöglicht werden – und welche dieser Patienten sollten die Kontrollbehandlung und welche die Behandlung mit dem neuen Medikament erhalten?
Warum könnten Berichte über neue Behandlungen verfälscht sein?
Wiegen einen Statistiken in falscher Sicherheit?

Um beim Beispiel des Blutdrucks und seiner Variabilität zu bleiben: die Schüler könnten ihren Blutdruck messen und dabei merken, wie er von Schüler zu Schüler variiert. Dann könnten sie ein paar Mal die Treppen rauf und runter laufen und feststellen, wie der Blutdruck einer Person sich dabei verändert. Wie bestimmen Forscher vor dem Hintergrund dieser Veränderlichkeit die Wirkung von Medikamenten zur Senkung des Blutdrucks?

Der Artikel könnte umfangreichere Aktiviäten anstoßen. Beispielsweise könnten den Schülern Zeitungsartikel gegeben werden, in denen klinische Forschung oder in denen eine „Wunderdroge“ vorkommt. Vielleicht wäre es gut, bekannte körperliche Verfassungen auszuwählen wie Migräne, Glukose-Intoleranz oder Allergien. In Gruppen könnten die Schüler Lehrbücher, das Internet und andere Informationsquellen nutzen für ihre Suche nach:

Der behandelten Krankheit;
Behandlungen, die bisher verfügbar sind für diese Krankheit;
Klinischen Studien, in denen die neue Behandlung an Tieren getestet wurde;
Früher publizierten klinischen Studien;
Nach dem derzeitigen Studiendesign und der statistischen Analyse;
Nach Anhaltspunkten wie die Studie hätte besser gemacht werden können.

Auf Basis dieser Suche könnte jede Gruppe ihren eigenen Zeitungsartikel über klinische Forschung schreiben. Denken sie, dass der Original-Zeitungsartikel korrekt war? Wenn nicht, warum nicht?

Für viele Lehrer wird der Artikel eine wertvolle Informationsquelle zur Geschichte medizinischer Forschung und randomisiert-kontrollierter Studien sein.

Evaluation einer medizinischen Behandlung Understand article

Die Entwicklung randomisiert- kontrollierter Studien

Evidenz verändert die medizinische Praxis