10 skyrius. III fazės tyrimai: aukso standartas ar kvailių auksas?
11 iš 16 · ~18 min. skaitymo
III fazės tyrimai: aukso standartas ar juokdario auksas?
PĖSČIASIS SUTINKA girtą vyrą, šliaužiantį keturpėsčia netoli sankryžos. „Ką jūs darote?" – klausia pėsčiasis.
„Ieškau savo namo rakto," – atsako girtas vyras.
„Kur jį pametėte?"
„Maždaug už trijų metrų šaligatviu."
„Tai kodėl ieškote čia?"
„Čia šviečia šviesa."
Ši gerai žinoma istorija yra prasminga analogija dabartinei oficialiai vyriausybės politikai vertinant naujus vėžio gydymo būdus. Užuot vertinusi naują gydymą pagal jo klinikinės naudos mastą, FDA remiasi vertinimo metodu, pasiskolintu iš fundamentaliųjų mokslų, kur analizės tikslas iš esmės skiriasi. Šis metodas, taikomas III fazės klinikiniuose tyrimuose, koncentruojasi į tai, ar vaistas sukuria statistiškai reikšmingą skirtumą tarp gydymo grupės ir kontrolinės grupės.
Klinikinių tyrimų atlikimo metodai turi būti vertinami pagal tai, kaip gerai jie skatina klinikinių žinių pažangą. Kalbant apie smegenų navikus ir kitas mirtinas ligas, klinikinių tyrimų sistema patyrė apgailėtiną nesėkmę. Iki šiol jokia klinikinių tyrimų pateikta informacija nepadeda smegenų navikų pacientams priimti esminių gyvybiškai svarbių sprendimų, įskaitant:
- Ar turėčiau iš karto po spindulinės terapijos pereiti prie chemoterapijos, ar atidėti chemoterapiją, kol navikas atsinaujins?
- Atsižvelgiant į mano profilį (amžių, naviko dydį ir panašiai), ar papildoma spindulinė terapija, pavyzdžiui, radiochirurgija ar brachiterapija, pailgins mano išgyvenamumą?
- Ar chemoterapija apskritai pagerina išgyvenamumą? Jei taip, kiek? Ar pakankamai, kad pateisintų mano gyvenimo kokybės pablogėjimą?
- Ar chemoterapija padeda vieniems žmonėms, bet ne kitiems (pavyzdžiui, jaunesniems pacientams lyginant su vyresniais)?
Bet kokia tyrimo procedūrų sistema, kuri neatsakė į tokius esminius klausimus, vargu ar gali būti giriama už savo efektyvumą. Be to, ja nereikėtų remtis sprendžiant, kokius gydymo būdus pacientas gali gauti už klinikinių tyrimų ribų.
Jei FDA misija yra apsaugoti visuomenę, ji neturėtų trukdyti pacientams gauti naujus, potencialiai gyvybę gelbstinčius gydymo būdus. Priešingai, ji turėtų kuo greičiau palengvinti prieigą prie naujų gydymo būdų. Tam reikia dviejų pokyčių:
1) Ligoms, kurioms šiuo metu nėra veiksmingo gydymo, FDA ir medicinos bendruomenė turi atsisakyti III fazės klinikinių tyrimų reikalavimo.
2) Klinikinius tyrimus atliekantys gydytojai turi pateikti duomenis apie kiekvieną tyrimo dalyvį atskirai, kad būtų galima nustatyti gydymo poveikį konkrečioms subpopuliacijoms. Tik tada galėsime prognozuoti tikimybę, kad gydymas bus naudingas konkrečiam pacientui.
Kodėl reikia atsisakyti III fazės tyrimų?
III fazės klinikinių tyrimų kaina yra varomoji jėga, lemianti didelę naujai sukurtų vaistų kainą, kuri taip dažnai sukelia politikų ir visuomenės pasipiktinimą. Dar svarbiau tai, kad per tipinius dvejus–ketverius metus, reikalingus III fazės tyrimams užbaigti, be reikalo prarandama daug gyvybių, kol pacientai laukia gydymo būdų patvirtinimo – gydymo būdų, kurių veiksmingumas jau buvo įrodytas II fazėje.
Ne mažiau nerimą kelia tai, kad daugelis perspektyvių vaistų niekada nepasiekia III fazės tyrimų, o kai pasiekia, klaidingos statistinės procedūros dažnai užgožia tikrąjį gydymo poveikį, taip užkertant kelią FDA patvirtinimui. Mintis, kad nauji gydymo būdai turi parodyti 0,05 statistinio reikšmingumo lygį randomizuotame klinikiniame tyrime, yra tiesiog nepriimtina, ypač atsižvelgiant į klaidingą metodologiją, kuria grindžiamas šis vertinimas.
NULINĖ HIPOTEZĖ
III fazės tyrimo pabaigoje klinicistai palygina gydymo grupės pacientų rezultatus su kontrolinės grupės pacientų rezultatais. Šis skirtumas analizuojamas naudojant „nulinės hipotezės tikrinimą" – statistinį metodą, pasiskolintą iš socialinių mokslų. Šis metodas buvo sukurtas nemedicininiams tikslams ir yra iš esmės netinkamas medicinos pažangai. Iš tiesų jis sukuria didžiulį konservatyvų šališkumą nustatant veiksmingus gydymo būdus.
Nulinės hipotezės tikrinimas prasideda prielaida (nuline hipoteze), kad bet koks skirtumas tarp gydymo ir kontrolinės grupių gali būti dėl pacientų savybių (tokių kaip amžius ar gydymo istorija) skirtumų, o ne dėl eksperimentinio vaisto. Tyrėjai turi paneigti šią prielaidą, kad gydymas būtų laikomas veiksmingu. Tam jie turi įrodyti, kad skirtumas tarp gydymo ir kontrolinės grupių yra statistiškai reikšmingas – kad egzistuoja maža tikimybė (mažesnė nei 0,05), jog skirtumas atsirado dėl kitų veiksnių, o ne dėl gydymo.
Mano paties eksperimentinės psichologijos srityje nulinės hipotezės tikrinimas paprastai laikomas priimtinu statistiniu metodu. Kaip daugelio psichologijos žurnalų recenzentas turėjau daugybę progų vertinti, ar atskiruose eksperimentuose naudojamos statistinės procedūros atitinka jų tikslą. Tokiuose eksperimentuose nulinės hipotezės tikrinimas naudojamas bendro pobūdžio hipotezės pagrįstumui nustatyti. Mes pasirenkame griežtus statistinius kriterijus (tokius kaip tikimybės reikšmės 0,05 ar 0,01), nes nenorime, kad mūsų bendrieji moksliniai principai keltų abejonių.
Tačiau medicinos tyrimų tikslas nėra nustatyti bendrus mokslinius principus, o identifikuoti gydymo būdus, kurie gali turėti klinikinę naudą. Griežti statistiniai kriterijai čia yra netinkami, nes jie sukuria „klaidingai neigiamus rezultatus", padidindami riziką, kad perspektyvus naujas gydymo būdas bus atmestas.
Nors nulinės hipotezės tikrinimas yra plačiai naudojamas keliose mokslo disciplinose, atrodo, kad jo konceptualus pagrindas nėra gerai suprantamas medicinos tyrėjų. Statistiškai reikšmingo skirtumo neradimas nuolat verčia tyrėjus daryti išvadą, kad gydymas yra neveiksmingas, tačiau nulinės hipotezės tikrinimo logika iš tikrųjų neleidžia daryti tokios išvados. Nesėkmė leidžia tik padaryti išvadą, kad statistiškai reikšmingas efektas dar nebuvo įrodytas. Nulinės hipotezės priėmimas yra dažna konceptuali klaida medicinos bendruomenėje. Įrodymų nebuvimas nėra nebuvimo įrodymas: vien tai, kad klinikinis tyrimas neaptiko statistiškai reikšmingo skirtumo, nereiškia, kad kitas tyrimas, naudojantis geresnę metodologiją, pasiektų tą patį rezultatą.
STATISTINIS TRIUKŠMAS
Statistinis reikšmingumas priklauso nuo skirtumo tarp gydymo ir kontrolinės grupės dydžio, palyginti su bendru rezultatų kintamumu tarp kontrolinės grupės pacientų. Jei pacientų populiacija yra itin nevienalytė, gydymo nauda gali būti užgožta. Tikrojo gydymo poveikio nustatymas tampa signalo aptikimo problema, panašia į tą, su kuria susiduria inžinieriai, privalantys atskirti nuoseklų signalą nuo foninio triukšmo. Tačiau klinikiniuose tyrimuose šiam signalui išgauti naudojami metodai yra primityvūs.
Idealiame pasaulyje gydymo grupės subjektai būtų identiški kontrolinės grupės subjektams visais atžvilgiais, tik viena grupė gautų gydymą, o kita – ne. Realybėje pacientai skiriasi daugybe aspektų, iš kurių kai kurie padeda nulemti klinikinį rezultatą. Smegenų navikų tyrimuose žinomi trys itin svarbūs veiksniai: amžius, Karnofsky balas ir gydymo istorija. Šie veiksniai dažnai vaidina didesnį vaidmenį paciento rezultatui nei tai, ar pacientas gauna eksperimentinį gydymą, ar ne. Todėl, kai gydymo vaistas tiriamas klinikiniame tyrime, svarbu užtikrinti, kad gydymo poveikio neužgožtų pacientų savybių poveikis. Šį statistinį triukšmą galima eliminuoti, kad gydymo poveikis būtų matomas aiškiau.1 Tačiau, kad ir kaip keista, FDA patvirtinta vertinimo procedūra nebando kontroliuoti šio statistinio triukšmo. Dėl to daugelis vaistų pripažįstami neveiksmingais, nors galingesnės procedūros parodytų, kad jie yra veiksmingi.2
Klinicistai supranta, kad amžius, Karnofsky balas, gydymo istorija ir kiti veiksniai gali vaidinti svarbų vaidmenį nustatant klinikinio tyrimo rezultatą. Būtent todėl jie atsitiktinai paskirsto pacientus į gydymo arba kontrolinę grupę. Jie daro prielaidą, kad pašalinių veiksnių poveikis panaikins vienas kitą, kai jie bus vienodai atstovaujami abiejose eksperimentinio plano šakose. Iš principo tai tiesa; tačiau jei daug veiksnių prisideda prie statistinio triukšmo, jie gali sukelti tiek kintamumo, kad statistiškai reikšmingas efektas vis tiek nebus aptiktas. Todėl labai svarbu pripažinti, kad III fazės tyrimų rezultatai gali daugiau pasakyti apie tyrimo dalyvių kintamumą nei apie eksperimentinio gydymo veiksmingumą.
Kaip pavyzdį įsivaizduokite klinikinį tyrimą, kuriame dalyvavo dvylika identičių dvynių porų, kur vienas kiekvienos poros narys gavo eksperimentinį gydymą, o kitas – kontrolinę sąlygą. Kiekvienu atveju dvynys, gavęs eksperimentinį gydymą, turėjo geresnį klinikinį rezultatą. Akivaizdu, kad gydymas buvo veiksmingas. Tačiau tarkime, kad tie patys dvidešimt keturi pacientai buvo atsitiktinai paskirti į gydymo arba kontrolinę grupę. Jei skirtingos dvynių poros labai skirtųsi amžiumi, tyrimas greičiausiai neduotų statistiškai reikšmingo skirtumo. Gydymas būtų laikomas neveiksmingu ir dėl to atmestas klinikiniame naudojime.
Gydymo nauda dažnai lieka neaptikta III fazės klinikiniuose tyrimuose. Atsižvelgiant į tai, kad šie tyrimai gali būti klaidinantys, yra neapgalvota ignoruoti gydymo būdus, kurie parodė daug žadančius rezultatus II fazėje, vien todėl, kad jie neatitiko griežtų III fazės reikalavimų.
KLAIDINGI TIKSLAI
Pernelyg skubus onkologijos atmetimas gydymo būdų, neišlaikiusių III fazės, yra tik dalis problemos. Kur kas rimtesnis yra tikslas, kuriuo grindžiama dabartinė naujų gydymo būdų vertinimo strategija: nustatyti vaistus, kurie sukuria statistiškai reikšmingą vidutinio ar medianos rezultato pagerėjimą, lyginant gydymą gaunančius pacientus su lygiaverčiais pacientais, negaunančiais gydymo.
Jei tyrimas parodo, kad gydymo grupės vidutinis išgyvenamumas yra trimis mėnesiais ilgesnis nei kontrolinės grupės, ir skirtumas yra statistiškai reikšmingas, ką tai sako pacientui? Ar tai reiškia, kad pacientas gyvens trimis mėnesiais ilgiau, jei gaus šį gydymą? Žinoma, ne.
Pirma, pacientų rezultatai labai persidengia. Bet kuris kontrolinės grupės pacientas gali turėti geresnį rezultatą nei bet kuris gydymo grupės pacientas, ir atvirkščiai. Antra, kadangi klinikiniams tyrimams reikia didelio pacientų skaičiaus, gydymo būdams pakanka suteikti minimalią naudą, kad būtų pasiektas statistiškai reikšmingas efektas.3 Tokia yra statistinės analizės prigimtis. Kai naudojamos didelės imtys, net nedideli rezultatų skirtumai bus pripažinti statistiškai reikšmingais, o mažesnės imtys neduos reikšmingo skirtumo, nebent gydymo poveikis yra gana didelis.
Tai, ar vidutinio išgyvenamumų skirtumas yra statistiškai reikšmingas, suteikia informaciją tik pačiu bendriausiu lygiu. Tai neleis prognozuoti teigiamo poveikio tikimybės, juo labiau poveikio dydžio, jokiam konkrečiam pacientui. Realiame pasaulyje gydymo rezultatai yra tikimybiniai. Gydymas, kuris padeda vienam pacientui, gali nepadėti ar net pakenkti kitam. Tiek pacientai, tiek gydytojai turi žinoti šių skirtingų rezultatų tikimybę.4
Šiuo metu klinikinių tyrimų tikslas yra nustatyti, ar vienas gydymas yra geresnis už kitą (arba geresnis už placebą). Tinkamesnis tikslas būtų įvertinti tikimybę, kad gydymas bus naudingas konkrečiam pacientui. Tai galima pasiekti tik susiejant individualias tyrimo dalyvių savybes su eksperimentinio gydymo poveikiu. Kadangi III fazės tyrimai orientuojasi į statistinį reikšmingumą, jie paprastai ignoruoja individualių skirtumų poveikį gydymo rezultatui.
Kai pirmą kartą pradėjau skaityti klinikinių tyrimų literatūrą, buvau nustebęs ir priblokštas, kad dauguma tyrimų rezultatų neapėmė pacientams svarbiausios informacijos. Atsižvelgiant į pastangas ir išlaidas, susijusias su klinikinio tyrimo atlikimu, stebina, kaip mažai informacijos paprastai išgaunama iš rezultatų. Labiausiai stulbinantys pavyzdžiai yra tyrimai, kurie pateikia tik vidutinį išgyvenamumą, kartu su statistiniu vertinimu, ar skirtumai yra patikimi. Pavyzdžiui, glioblastomos klinikiniai tyrimai rodo, kad chemoterapija suteikia vienuolikos–dvylikos mėnesių vidutinį išgyvenamumą. Juose nepateikiamas pacientų procentas, kuriems gydymas bus naudingas. Nors chemoterapija reikšmingai pagerins rezultatus mažumai pacientų, svarbiausia informacija yra tai, kiek pacientų ji padeda ir kokio tipo pacientams labiausiai tikėtina gauti naudą.
Pacientų profilių kūrimas
Vėžio gydymas nėra nekenksminga procedūra, ir pacientai turi atlikti kaštų ir naudos analizę, kad nustatytų, kuriuos gydymo būdus verta iškęsti. Užuot žiūrėję į medianinius III fazės klinikinių tyrimų rezultatus, pacientai turi matyti rezultatus tų tyrimo dalyvių, kurie yra labiausiai panašūs į juos pačius. Individualūs skirtumai yra svarbūs, ir pacientai tiksliau prognozuos gydymo naudą, jei matys, kaip jis paveikė pacientus, turinčius panašų profilį. Dėl šios priežasties būtina, kad klinikiniai tyrimai pateiktų individualius kiekvieno subjekto duomenis.
Daugelis II fazės tyrimų jau skelbia kiekvieno tyrimo dalyvio rezultatus, taip pat duomenis apie amžių, naviko laipsnį ir kitas savybes. Ši informacija leidžia pacientams nustatyti klinikinio tyrimo dalyvius, kurie yra labiausiai panašūs į juos. Remdamiesi konkrečių tyrimo dalyvių rezultatais, individualūs pacientai gali daryti pagrįstą spėjimą apie tai, kokį poveikį gydymas turėtų jiems.
Norint atlikti tokį vertinimą, naują gydymą gaunančių pacientų klinikiniai rezultatai turi būti palyginti su „istorinėmis kontrolėmis" – panašiais praeities pacientais, kurie negavo šio gydymo.5 Galime nustatyti, ar eksperimentinis gydymas pailgins išgyvenamumą konkrečiam paciento profiliui – pavyzdžiui, smegenų navikų pacientams, vyresniems nei šešiasdešimt metų, turintiems Karnofsky balą 90 – palyginę jų vidutinį rezultatą su atitinkamomis istorinėmis kontrolėmis. Jei eksperimentinis gydymas pagerina klinikinį rezultatą kiekvienai pacientų kategorijai, tai rodytų, kad gydymas yra apskritai veiksmingas. Jei tarp skirtingų pacientų profilių yra didelių rezultatų skirtumų, gydymas turėtų būti taikomas tik toms kategorijoms, kurių rezultatai viršijo istorines kontroles.
Istorinių kontrolių duomenų bazė turi būti pakankamai didelė, kad nustatytų patikimas klinikinio rezultato bazines vertes skirtingiems pacientų profiliams. Kuo daugiau istorinių kontrolių, tuo daugiau galimų pacientų kategorijų. Taigi esminis žingsnis gerinant klinikinius rezultatus yra sukurti didelę, internetu prieinamą duomenų bazę, kurioje kiekvieno klinikinio tyrimo pabaigoje būtų registruojami neapdoroti individualių pacientų duomenys. Net jei tyrimus atliekantieji neturi intereso kurti detalią informaciją, duomenų archyvavimas leistų kitiems tyrėjams analizuoti rezultatus. Tokie archyvai gerokai padidintų pacientų su aiškiai apibrėžtais profiliais skaičių, pagerinant mūsų gebėjimą prognozuoti gydymo veiksmingumą konkretiems asmenims. Nacionalinis vėžio institutas ar kita žymi vėžio organizacija būtų atsakinga už archyvų priežiūrą.
Pacientų profilių ir istorinių kontrolių naudojimas panaikintų pagrindinį susirūpinimą, kuris motyvuoja FDA ir apskritai klinikinius tyrėjus reikalauti randomizuotų III fazės tyrimų: sunkumą žinoti, ar tyrimo dalyviai atspindi didesnę pacientų populiaciją. Pavyzdžiui, konkretaus tyrimo dalyviai gali būti gerokai jaunesni nei vidutinis pacientas. Jei II fazės tyrimo pacientai suskirstomi pagal amžių ir kitus kriterijus, kurie, kaip žinoma, lemia klinikinį rezultatą, kiekvieną kategoriją galima palyginti su jos istorine kontrole. Tai sumažintų nuogąstavimą, kad konkretaus tyrimo subjektai yra nereprezentatyvūs.
II fazės tyrimų privalumai
Aukštindami III fazės klinikinius tyrimus, mes ignoruojame II fazės tyrimų įrodymus, net kai jie rodo, kad naujas gydymas turi didelę sėkmės tikimybę. Pavyzdžiui, II fazės tyrimas, kuriame Poly-ICLC buvo testuotas anaplastinės astrocitomą turintiems pacientams, parodė 5,4 metų vidutinį stabilizacijos laikotarpį, o dešimt iš vienuolikos pacientų vis dar buvo gyvi tyrimo rezultatų paskelbimo metu.6 Kai aprašiau šiuos rezultatus savo neuroonkologui, jis atmetė radinius kaip neįmanomus ir užsiminė, kad tyrime turėjo būti kažkas negerai. Iš tiesų tyrimas vėliau buvo publikuotas viename pagrindinių mokslo žurnalų, ir aš radau jį neįprastai aukštos kokybės dėl detalaus procedūrų ir rezultatų aprašymo. Vis dėlto, dėl nežinomų priežasčių, jis nepasiekė III fazės tyrimų ir greičiausiai niekada to nepasieks. Dėl to šis gydymas paprastai nėra prieinamas. Tačiau kai rezultatai palyginami su istorinėmis kontrolėmis, nėra jokių abejonių, kad Poly-ICLC yra didelis žingsnis pirmyn gydant anaplastinę astrocitomą. Jei atsisakytume III fazės tyrimų, Poly-ICLC šiandien būtų plačiai naudojamas.
III fazės tyrimų panaikinimas sumažintų sveikatos priežiūros išlaidas ir išgelbėtų daugybę gyvybių – ne tik padidindamas galimybes nustatyti naudingus gydymo būdus, bet ir iš karto padarydamas šiuos gydymo būdus prieinamus visuomenei. Be to, istorinių kontrolių naudojimas, vietoj dabartinės III fazės procedūros, kai pusė subjektų atsitiktinai paskiriami į kontrolinę grupę, atgrasytų nuo placebo kontrolių naudojimo. Du neseniai atlikti glioblastomos tyrimai, kuriuose dalyvavo Gliadel ir marimastat, naudojo placebą, teigdami, kad veiksmingo gydymo nėra. Tai yra vienas iš ekstremalių nulinės hipotezės priėmimo atvejų, kokius esu matęs. Jei tai iš tiesų būtų tiesa, tuomet nebūtų jokio pagrindo taikyti bet kokį gydymą smegenų navikų pacientui. Tai, žinoma, neatitinka tikrovės. Dabartinė klinikinė praktika grindžiama prielaida, kad kai kuriems glioblastomos pacientams tradicinis gydymas bus naudingas. Nėra pagrindo atsisakyti šios prielaidos klinikiniuose tyrimuose. Be to, jei kontrolinės grupės pacientai mano, kad gali gauti eksperimentinį gydymą, jie bus atgrasomi nuo alternatyvių gydymo būdų, kurie gali būti naudingi (pavyzdžiui, tamoxifen).
Geriausias būdas prognozuoti gydymo poveikį konkrečiam pacientui – pažvelgti į poveikį, kurį jis turėjo panašiems pacientams. Klinikinius tyrimus atliekantys onkologai tikriausiai laikys tai atsitraukimu nuo III fazės tyrimų mokslinio griežtumo, kuris pateikia aiškų taisyklių rinkinį naujiems gydymo būdams vertinti. Neabejotina, kad mano siūlomas metodas priklauso nuo intuityvaus sprendimo. Tačiau šį trūkumą reikia vertinti atsižvelgiant į tai, kad randomizuoti III fazės klinikiniai tyrimai dažnai pateikia klaidingą informaciją.
Panagrinėkime ankstyvuosius klinikinius tyrimus apie chemoterapijos poveikį smegenų navikų pacientams. Tuo metu buvo įprasta neskirti pacientų su glioblastomomis nuo pacientų su anaplastinėmis astrocitomomis. Abu navikai buvo traktuojami kaip „aukšto laipsnio gliomos" ir tikėtasi, kad jie panašiai reaguos į gydymą. (Dabar žinome, kad skirtingų laipsnių navikai turi skirtingą prognozę, visų pirma todėl, kad III laipsnio navikai geriau reaguoja į spindulinę terapiją ir chemoterapiją.) Šių tyrimų rezultatai buvo labai nenuoseklūs; kai kurie parodė, kad chemoterapija turėjo statistiškai reikšmingą efektą, o kai kurie – ne. Galiausiai susiformavo konsensusas, kad chemoterapija iš tiesų suteikia statistiškai reikšmingą naudą, ir ji tapo gydymo standartu Jungtinėse Valstijose.
Retrospektyviai žiūrint, nenuoseklūs rezultatai buvo susiję su diagnostinių kategorijų suplakimu. Tačiau svarbiausia pamoka yra ta, kad tų klinikinių tyrimų pateikta informacija buvo klaidinanti abiem kategorijoms. Ji pernelyg nuvertino chemoterapijos naudą žemesnio laipsnio navikams ir pernelyg išpūtė naudą glioblastomos pacientams. Kokiu būdu šie randomizuoti III fazės tyrimai – aukso standartas – pažangino klinikines žinias apie tai, kurie gydymo būdai bus veiksmingi skirtingoms pacientų kategorijoms?
Jei tyrėjai būtų pateikę visą rezultatų pasiskirstymą kartu su individualiais subjektų duomenimis (įskaitant naviko tipą), būtų buvę akivaizdu, kad chemoterapija skirtingai veikia skirtingus navikus. Svarbu suvokti šios problemos bendrumą. Jei klaidinga suplakti skirtingų diagnozių rezultatus, tai taip pat klaidinga suplakti rezultatus pagal skirtingą amžių, Karnofsky balus, gydymo istorijas ir panašiai.
Individualios savybės gali būti dominuojantys kintamieji, lemiantys gydymo veiksmingumą, ir tik laiko klausimas, kada pacientų profiliai prisiims kritinį vaidmenį vertinant naujus vaistus. Iš tiesų genetikos tyrimų pažanga rodo, kad genetinė tipologija yra susijusi su gydymo rezultatu. Neseniai atliktas tyrimas, susijęs su genu, atsakingu už DNR pažeidimų taisymą, nustatė, kad glioblastomos pacientai su defektiniu genu dažniau reaguoja į chemoterapiją (BCNU) nei pacientai, neturintys defektinio geno.7 Tikėtina, kad nepažeistas genas greitai ištaiso chemoterapijos padarytą žalą, padarydamas piktybines ląsteles atsparesnes citotoksiniam gydymo poveikiui. Atrodo, kad šis genas tarpininkauja chemoterapijos atsparumui ir daugelio kitų piktybinių navikų atveju. Neabejotina, kad ateities klinikiniai tyrimai atsižvelgs į tokius svarbius genetinius skirtumus. Tačiau šiandien nėra jokio pateisinimo ignoruoti žinomus skirtumus, tokius kaip amžius ir Karnofsky balas.
Onkologijos tikslas yra suteikti gydymą, siūlantį geriausią įmanomą išgyvenimo galimybę. Jei naujas gydymas parodo daug žadančius rezultatus II fazėje, šis gydymas turėtų būti nedelsiant prieinamas. Tai apribotų FDA vaidmenį gydymo toksiškumo vertinimu (I fazės tyrimų priežiūra) ir klinikinių rezultatų, kuriuos praneša vaistą naudojantys gydytojai, stebėjimu. Jei rezultatai neatitinka II fazės tyrimuose parodytų, tik tada FDA turėtų nustatyti, ar vaistas yra neveiksmingas ir ar jis turėtų būti pašalintas iš rinkos.
Dabartinės naujų gydymo būdų vertinimo procedūros neatitinka geriausių vėžio pacientų interesų. Tai nėra skirta būti visuotiniu III fazės klinikinių tyrimų svarbos pasmerkimu.8 Tačiau ligoms, kurioms nėra veiksmingo gydymo, III fazės tyrimai sukelia ilgus delsimus ir neteisėtą gydymo galimybių filtravimą, lemiantį daugybę mirčių. Bet kokia institucija, kurios misija yra apsaugoti visuomenę, neturėtų trukdyti pacientams gauti naujus gydymo būdus, galinčius išgelbėti jų gyvybes. Negaliu sugalvoti kitos srities, kurioje pačios pagrindinės žmogaus teisės būtų taip sutryptos ir su tokiomis siaubingomis pasekmėmis.
IŠNAŠOS
1. Psichologijoje ir kituose socialiniuose moksluose pagrindinė statistinė procedūra skirtingiems dispersijos šaltiniams atskirti vadinama dispersine analize (Analysis of Variance). Ši procedūra atskiria kintamųjų (ir jų sąveikų), kurie yra eksperimentinio plano dalis, poveikius nuo likusios dispersijos, vadinamos triukšmu arba „paklaidos dispersija". Jei ši statistinė procedūra būtų taikoma klinikiniams tyrimams, analizė atskirtų ne tik gydymo poveikius, bet ir amžiaus bei Karnofsky balo poveikius. Dispersinė analizė sumažina paklaidos dispersiją, nes išskiria poveikius, priskirtinus identifikuojamiems kintamiesiems. Aptikti tikrąjį eksperimentinio gydymo poveikį yra daug lengviau, kai paklaidos dispersija yra maža.
2. Daugumoje vėžio klinikinių tyrimų pateikiamos kelios statistinės analizės. Pirmenybė buvo teikiama gydymo ir kontrolinės grupių išgyvenimo kreivių skirtumų analizei. Standartinis testas yra chi kvadrato variacija, apskaičiuojanti tikimybę, kad išgyvenusių asmenų proporcija tam tikrais laiko intervalais yra neproporcingai gydymo sąlygos naudai. Šio metodo priežastis yra ta, kad daugelis subjektų neišlieka iki klinikinio tyrimo pabaigos, o tyrėjai nori išsaugoti kuo daugiau savo duomenų. Deja, analizė ignoruoja galimybę, kad gydymas gali rodyti skirtingą poveikį vėlesniame tyrimo etape. Pavyzdžiui, glioblastomos tyrimuose, lyginančiuose spindulinę terapiją su spindulinės terapijos ir chemoterapijos kombinacija, standartinė analizė neatskleidė statistiškai reikšmingo skirtumo. Tačiau atsižvelgiant į tai, kad chemoterapija padidina vidutinį dvejų metų išgyvenimo rodiklį 3–6 kartus, ši išvada yra klaidinanti. Bet koks testas, kuris nepatvirtina tokio didelio skirtumo, turi esminių trūkumų.
Antras klinikinių tyrimų analizės tipas, vadinamas Cox proporcingų rizikų analize (Cox Proportional Hazards Analysis), atskiria individualių kintamųjų (tokių kaip amžius) poveikius, statistiškai fiksuodamas visų kitų kintamųjų reikšmes. Šis metodas išskiria tai, kas priešingu atveju būtų statistinis triukšmas, kad eksperimentinio gydymo poveikį būtų lengviau pastebėti. Kiek man pavyko nustatyti, FDA nenaudoja Cox proporcingų rizikų analizės rezultatų. Tai gaila, nes išgyvenimo laiko analizė, kuri turi pirminę reikšmę FDA sprendimuose, leidžia pašaliniams veiksniams pakenkti moksliniam gydymo tikrojo poveikio vertinimui. Kodėl neišimti amžiaus, Karnofsky balo ir kitų kintamųjų iš lygties, kai svarstomas klausimas yra tai, ar gydymas yra veiksmingas? Cox proporcingų rizikų modelis neidentifikuoja tokių kintamųjų sąveikų. Dispersinė analizė, aprašyta 1-oje išnašoje, tai daro.
Trečias statistinės analizės tipas, aptinkamas naujausiuose klinikiniuose tyrimuose, vadinamas daugialype regresija (Multiple Regression). Iš principo šis modelis atskiria ne tik amžiaus, Karnofsky balo, lyties ir kitų kintamųjų poveikius, bet ir jų tarpusavio sąveikas. Tačiau daugialypės regresijos analizė daro prielaidą, kad kiekvienas kintamasis turi normalųjį pasiskirstymą. Taip būna retai, o tai iš esmės pakerta daugialypės regresijos tikimybinių reikšmių, kaip rodiklio, kad gydymo poveikis nėra atsitiktinis, pagrįstumą. Dispersinė analizė priklauso nuo panašių prielaidų; tačiau kompiuterinės simuliacijos rodo, kad šių prielaidų pažeidimai paveikia šio modelio pagrįstumą tik retais atvejais. Dispersinė analizė remiasi centrine ribine teorema, kuri bet kokį pradinės populiacijos balų pasiskirstymą paverčia normaliu imties statistikų pasiskirstymu. Daugialypė regresija, kita vertus, nesinaudoja centrinės ribinės teoremos korekcine galia.
3. Egzistuoja esminis statistinis skirtumas tarp „efekto dydžio" ir statistinio reikšmingumo lygio. Efekto dydis yra procentinė visų rezultatų dispersijos dalis, kuri priskirtina eksperimentiniam kintamajam. Kai subjektų skaičius didinamas, efekto dydis lieka pastovus, o reikiamą reikšmingumo lygį pasiekti tampa lengviau. Efekto dydis yra svarbiau.
4. Egzistuoja statistiniai metodai, žinomi kaip „dominavimo statistika" (dominance statistics), kurie pateikia tiesioginį tikimybės, kad gydymas bus naudingas individualiam pacientui, įvertį. Pavyzdys yra vienos iš dažniausiai naudojamų neparametrinių statistikų – Mann-Whitney U – variacija. Kai U reikšmė padalijama iš gydymo ir kontrolinės grupių imčių dydžių sandaugos, rezultatas yra tiksli tikimybė, kad atsitiktinai parinktas gydymo grupės subjektas rezultatu viršys atsitiktinai parinktą kontrolinės grupės subjektą. Ši statistika būtų pranašesnė už šiuo metu FDA naudojamą, nes ji sprendžia pacientams svarbiausią klausimą – tikimybę, kad gydymas bus veiksmingas. Deja, kaip ir visos neparametrinės statistikos, šis metodas neišskiria dispersijos dėl kitų veiksnių ir neidentifikuoja dispersijos dėl eksperimentinio gydymo ir individualių skirtumų (tokių kaip amžius) sąveikų.
5. Keli neuroonkologijos centrai, įskaitant M.D. Anderson Houston mieste, pradėjo naudoti istorines kontroles, užuot skyrusios daug laiko ir išteklių III fazės tyrimams. Jie naudoja duomenų bazę, kuri suskirsto gliomos pacientus pagal amžių, naviko laipsnį ir kitus kintamuosius, sudarydama šešias pacientų klases. Šių skirtingų klasių išgyvenimo laikas skiriasi dešimt kartų. Norėdami patikrinti eksperimentinio gydymo rezultatus, tyrėjai palygina individualių pacientų, gavusių gydymą, rezultatus su atitinkamų kategorijų pacientais duomenų bazėje. Tokie palyginimai kartais prieštarauja III fazės klinikinių tyrimų rezultatams. Pavyzdžiui, bent viename didelio masto III fazės tyrime buvo parodyta, kad brachiterapija yra neveiksminga, ir daugelis tyrėjų teigė, kad II fazės tyrimuose paskelbta nauda atsirado dėl atrankos šališkumo. Tačiau kai gydymą gavę pacientai buvo suskirstyti į kategorijas ir palyginti su istorinėmis kontrolėmis, buvo parodyta, kad brachiterapija padidino išgyvenimo rodiklius kiekvienoje iš šešių pacientų kategorijų, o didžiausias pagerėjimas pasireiškė pacientams su blogiausia prognoze. (Videtic, G. M., et al. Use of the RTOG recursive partitioning analysis to validate the benefit of iodine-125 implants in the primary treatment of malignant gliomas. International Journal of Radiation Oncology, Biology, Physics. 1999;45[2]:687-692.)
7. Esteller, M., et al. Inactivation of the DNA-repair gene MGMT and the clinical response of gliomas to alkylating agents. New England Journal of Medicine. 2000;343(19):1408-1409.
8. Yra situacijų, kuriose III fazės tyrimai yra naudingi ir informatyvūs. Jei liga turi veiksmingą gydymą, nauji gydymo būdai turėtų būti testuojami prieš jį III fazės tyrime. Tačiau net tokiomis aplinkybėmis svarbu pripažinti, kad testas būtų daug galingesnis, jei neapsiribotų randomizacija, o apimtų subjektų suskirstymą pagal individualius skirtumus, kurie, kaip žinoma, veikia klinikinį rezultatą.