Úvod |
Metody klasifikačních a regresních stromů jakožto skupina neparametrických statistických modelů jsou při analýze klinických dat užitečné především jako nástroj pro exploraci vztahů v datovém souboru ale i pro predikci hodnot vybrané závislé proměnné. Je nicméně faktem, že při využití těchto metod jakožto nástroje pro predikci mají samostatné regresní a klasifikační stromy jistá omezení (u menších stromů se např. můžeme potýkat s problémem nestability modelu a limitované interpretace, u větších pak roste riziko přeučení) a je pak často vhodnější použít pokročilejší systémy typu skupinových modelů jako je např. náhodný les, který některé nevýhody samostatných stromů eliminuje. V této analýze si proto představíme využití rozhodovacích stromů spíše při exploraci dat - ta je totiž tak či tak nutná i před tvorbou případného složitějšího prediktivního modelu a metody klasifikačních a regresních stromů jsou k tomuto účelu velmi vhodné, neboť jsou schopny např. odhalit různorodé interakce mezi prediktory a modelovanou proměnnou (častým případem je přítomnost odlišných podskupin pacientů v datovém souboru, v rámci kterých mají některé prediktory různý nebo až opačný vliv na závisle proměnnou: např. efekt určité modality léčby u pacientů s různými klinickými charakteristikami a predispozicemi).
|
Postupné kroky datové analýzy |
||||||
|
Krok 1: Datový soubor |
|
Data jsou ve formátu klasické tabulky, jejíž řádky představují jednotlivé pacienty a ve sloupcích jsou zaznamenány jednak jejich základní sledované charakteristiky (pohlaví, věk, sociální postavení, kouření, délka přežití), ale také klinické informace o diagnostikovaném nádoru (histologický typ, stupeň diferenciace, TNM klasifikace a stadium), forma primární léčby (operace a její typ, případě jiná protinádorová terapie) a osobní anamnéza souběžných komorbidit či výskyt vybraných onemocnění v minulosti pacienta. V této poslední části sledovaných atributů je výskyt jednotlivých nemocí kódován formou jednoduchého binárního indikátoru, přičemž kromě základních definovaných skupin onemocnění (např. cévní mozková příhoda, stenóza/okluze cév mozku) jsou zde odvozeny i jejich nadřazené kategorizace (např. výskyt jakéhokoli cerebrovaskulárního onemocnění bez detailnější specifikace). Takto připravené různé úrovně detailu sledovaných proměnných nám často mohou v rámci explorace dat klasifikačním stromem pomoci objevit vzorce, které by jinak nebyly patrné.
|
Navrhované možnosti |
|
Seznam a pořadí proměnných obsažených v datech. |
Náhled na hodnoty v prvních řádcích datové tabulky |
Základní popisné statistiky všech proměnných dle jejich aktuálního typu. |
Úprava datových typů jednotlivých proměnných v rámci načtení datového souboru. |
#################################### # # # Analýza č. 6 - Analýza přežití # # # #################################### # Knihovna pro CART library(rpart) # Knihovny pro vizualizace library(rattle) library(partykit) # Načtení datového souboru data_hcc <- read.csv(file="data_HCC_final.csv", header=T, sep=";", dec=",", ,fileEncoding="utf8") ## Krok č. 1 - Datový soubor ## Krok č. 2 - Základní nastavení klasifikačního stromu ## Krok č. 3 - Přeučený klasifikační strom ## Krok č. 4 - Určení optimální velikosti klasifikačního stromu ## Krok č. 5 - Prořezání klasifikačního stromu ## Krok č. 6 - Interpretace výsledků