Clusterová analýza

Zadání

Úvod

V tejto analýze budeme využívať metódy zhlukovej analýzy na popis heterogenity pacientov s akútnou lymfoblastickou leukémiou (ALL) podľa ich genových expresných profilov. Genový expresný profil je výsledok jedného microarray experimentu a obsahuje data o množstve mRNA prislúchajúcej konkrétnemu génu. V jednom microarray experimente súčasne kvantifikujeme aktivitu až tisícov génov. Zároveň detekované homogénne skupiny pacientov charaktrizujeme dostupnými klinickými premennými.

Náš dátový súbor obsahuje génové expresné profily 128 pacientov s ALL. Profily pochádzajú z mikročipov typu Affymetrix Human Genome U95 od spoločnosti Affymetrix. Data boli predspracované a znormalizované metódou RMA. Tieto informácie nájdeme v nápovede k dátovému súboru (?ALL). Predspracovanie a normalizácia genomických dát je témou analýzy číslo X. Ďalej máme k dispozícii viacero klinických parametrov, z ktorých nás budú zaujímať hlavne pohlavie, vek, typ leukémie, dosiahnutie odpovede na terapiu, výskyt translokácii t(4,11) a t(9,22).

Postupné kroky datové analýzy

1

2

3

4

5

6

7

8

Krok 1: Zoznámenie sa s klinickými parametrami

Dáta sú uložené vo formáte (hovoríme tiež o objekte triedy a zistíme to príkazom class(ALL)) ExpressionSet. Ide o štandardný formát mikročipových dát v R. Jeho hlavnou výhodou je, že obsahuje nielen génové expresné profily, ale aj klinické informácie o pacientoch a popis sond použitého mikročipu. Predtým ako pristúpime k samostnej zhlukovej analýze musíme sa podrobne zoznámit s dátovým súborom: skontrolovať jeho správnosť a kvalitu a prípadne vylúčiť nekvalitné vzorky. Zároveň si predstavíme prácu s formátom ExpressionSet.

Klinické dáta získame a uložíme do samostatného objektu príkazom (klinicke<-pData(ALL)). Výstupom je dátová tabuľka, v ktorej riadky predstavujú pacientov (označených v menách riadkov) a stĺpce predstavujú dostupné klinické paramatere. Datový typ jednotlivých parametrov zistíme príkazom str(klinicke). Popisné štatistiky spojitých premenných (napríklad vek) a kategórie kategoriálnych premenných vrátane binárnych (napr. pohlavie alebo prítomnosť translokácie) vidíme vo výstupe príkazu summary(klinicke). Vhodnosť konkrétnych hodnôt ďalej kontrolujeme pomocou grafov (histogram, boxplot, stlpcovy graf) alebo zložitejších sumarizácii (napr. krížová tabuľka niekoľkých kategoriálnych premenných).

Vyberte funkcie pre kontrolu odľahlých hodnôt veku pacientov a počty pacientov pre jednotlivé molekulárne podtypy.

Navrhované možnosti

Vek sumarizujeme pomocou funkcie summary a pre podtypy vykreslíme stĺpcový graf.

Použijeme boxplot pre vek a table pre molekulárne podtypy.

Vek sumarizujeme pomocou table a pre podtypy použijeme histogram.

Vek znázornime ako histogram a molekulárne podtypy sumarizujeme funkciou table.

Okno R kódu a R konzole


####################################### # # # Analýza č. 2 - Clusterová analýza # # # ####################################### library(ALL) data(ALL) ls() ## Krok č. 1 - Zoznámenie sa s klinickými parametrami ## Krok č. 2 - Zoznámenie sa s expresnými profilmi ## Krok č. 3 - Filtrácia dát ## Krok č. 4 - Určenie vzdialenosti ## Krok č. 5 - Určenie metódy zhlukovania ## Krok č. 6 - Rezanie dendrogramu ## Krok č. 7 - Konsensuálne zhlukovanie ## Krok č. 8 - Popis detekovaných zhlukov