Analýza přežití

Zadání

Úvod

Metody klasifikačních a regresních stromů jakožto skupina neparametrických statistických modelů jsou při analýze klinických dat užitečné především jako nástroj pro exploraci vztahů v datovém souboru ale i pro predikci hodnot vybrané závislé proměnné. Je nicméně faktem, že při využití těchto metod jakožto nástroje pro predikci mají samostatné regresní a klasifikační stromy jistá omezení (u menších stromů se např. můžeme potýkat s problémem nestability modelu a limitované interpretace, u větších pak roste riziko přeučení) a je pak často vhodnější použít pokročilejší systémy typu skupinových modelů jako je např. náhodný les, který některé nevýhody samostatných stromů eliminuje. V této analýze si proto představíme využití rozhodovacích stromů spíše při exploraci dat - ta je totiž tak či tak nutná i před tvorbou případného složitějšího prediktivního modelu a metody klasifikačních a regresních stromů jsou k tomuto účelu velmi vhodné, neboť jsou schopny např. odhalit různorodé interakce mezi prediktory a modelovanou proměnnou (častým případem je přítomnost odlišných podskupin pacientů v datovém souboru, v rámci kterých mají některé prediktory různý nebo až opačný vliv na závisle proměnnou: např. efekt určité modality léčby u pacientů s různými klinickými charakteristikami a predispozicemi).

Cílem této analýze je odhalit a popsat hlavní vazby vybraných vstupních charakteristik pacientů s karcinomem jater na jejich přežití. Vzhledem k tomu, že karcinom jater je obecně onemocnění s výrazně špatnou prognózou, bude nás zajímat pravděpodobnost jednoletého přežití od okamžiku diagnózy primárního nádoru. K dispozici jsou data, která svou formou a mírou detailu informace přibližně odpovídají běžným observačním studiím, které sledují populační zátěž a epidemiologické trendy onkologických onemocnění (v tomto případě se jedná o simulovaný vzorek inspirovaný Národním onkologickým registrem, který slouží k registraci onkologických onemocnění a periodické sledování jejich dalšího vývoje v České republice od roku 1976).

Vzhledem k tomu, že závisle proměnná, která nás bude zajímat, je jednoleté přežití vyjádřené jako binární proměnná (1 = ano/naživu, 0 = ne/úmrtí), budeme pro analýzu používat klasifikační strom typu CART, který roste na základě rekurzivního binárního dělení minimalizujícího kritérium Gini indexu (lze samozřejmě použít i jiné typy dělení a kritéria, nicméně pro účely této analýzy se budeme držet tohoto modelu, který je jeden z nejběžněji používaných).

Postupné kroky datové analýzy

1

2

3

4

5

6

Krok 1: Datový soubor

Data jsou ve formátu klasické tabulky, jejíž řádky představují jednotlivé pacienty a ve sloupcích jsou zaznamenány jednak jejich základní sledované charakteristiky (pohlaví, věk, sociální postavení, kouření, délka přežití), ale také klinické informace o diagnostikovaném nádoru (histologický typ, stupeň diferenciace, TNM klasifikace a stadium), forma primární léčby (operace a její typ, případě jiná protinádorová terapie) a osobní anamnéza souběžných komorbidit či výskyt vybraných onemocnění v minulosti pacienta. V této poslední části sledovaných atributů je výskyt jednotlivých nemocí kódován formou jednoduchého binárního indikátoru, přičemž kromě základních definovaných skupin onemocnění (např. cévní mozková příhoda, stenóza/okluze cév mozku) jsou zde odvozeny i jejich nadřazené kategorizace (např. výskyt jakéhokoli cerebrovaskulárního onemocnění bez detailnější specifikace). Takto připravené různé úrovně detailu sledovaných proměnných nám často mohou v rámci explorace dat klasifikačním stromem pomoci objevit vzorce, které by jinak nebyly patrné.

Při použití metod klasifikačních a regresních stromů v software R je také důležité věnovat pozornost správnému nastavení datových typů (pozor hlavně na číselné kódování u nominálních proměnných). Seznam a pořadí proměnných obsažených v datech lze vypsat funkcí names() a jejich obsah pak můžeme orientačně zkontrolovat pomocí head() nebo summary(). Vidíme, že kromě ID pacienta a věku by všechny proměnné měly být nominálního nebo ordinálního typu a při práci s rozhodovacími stromy v R je vhodné je mít jako typ „factor“ (první dvě zmíněné nastavíme na „integer“ a „numeric“). Toto lze ošetřit již ve fázi načítání dat pomocí vektoru colClasses.

Prvním krokem po načtení dat by měla být základní sumarizace všech proměnných, jejich kontrola s ohledem na správnost či úplnost hodnot a provedení jednorozměrné deskriptivní analýzy a vizualizace datového souboru případně doplněné o korelace/asociace dvojic.

Navrhované možnosti

Seznam a pořadí proměnných obsažených v datech.

Náhled na hodnoty v prvních řádcích datové tabulky

Základní popisné statistiky všech proměnných dle jejich aktuálního typu.

Úprava datových typů jednotlivých proměnných v rámci načtení datového souboru.

Okno R kódu a R konzole


#################################### # # # Analýza č. 6 - Analýza přežití # # # #################################### # Knihovna pro CART library(rpart) # Knihovny pro vizualizace library(rattle) library(partykit) # Načtení datového souboru data_hcc <- read.csv(file="data_HCC_final.csv", header=T, sep=";", dec=",", ,fileEncoding="utf8") ## Krok č. 1 - Datový soubor ## Krok č. 2 - Základní nastavení klasifikačního stromu ## Krok č. 3 - Přeučený klasifikační strom ## Krok č. 4 - Určení optimální velikosti klasifikačního stromu ## Krok č. 5 - Prořezání klasifikačního stromu ## Krok č. 6 - Interpretace výsledků