Letný semester 2024 | Cvičenie 4 | 18.03.2024
Prihlásenie k SAS OnDemand: https://www.sas.com/en_us/software/on-demand-for-academics.html
Doporučená literatúra a ďalšie užitočné materiályNad rámec jednoduchého \(t\)-testu, ktorý je možné efektívne využiť pre analýzu longitudinálných (resp. korelovaných/závislých) dat (viď napr. predchádzajúce cvičenie), je možné využiť niektoré (mnohorozmerné) štatistické testy – napr. testy založené na (asymptoticky) mnohorozmernom normálnom rozdelení.
Na rozdiel od párového \(t\)-testu, ktorý umožňoval analyzovať a testovať pouze dvojicu meraní vrámci jedného subjektu (napr. test rozdiely response pred liečbou a po liečbe – t.j. veľkosti inkrementov vrámci subjektu za určitú časovú jednotku), je možné testy založené na mnohorozmernom normálnom rozdelení aplikovať aj longitudinálne profily, ktoré sú tvorené väčším počtom opakovaných (t.j., vájomne korelovaných/závislých) pozorovaní.
Špeciálne sa zameriame na porovnanie dvoch stredných (očakávaných)
longitudinálných profilov v dvoch vzájomne nezávislých skupinách.
Uvažujúc datový súbor so sklerózou multiplex (datový súbor
sm_data2.csv), môže nás napríklad zaujímať
(okrem iného), či časový priebeh nemoci (napr. v zmysle Expanded
Disability Status Scale, teda veličiny EDSS
) je rovnaký u
mužského a ženského pacienta. Príslušné dve skupiny lze ale definovať aj
iným spôsobom.
libname sm '/home/u63241636/sasuser.v94';
filename reffile '/home/u63241636/sasuser.v94/data/sm_data2.csv';
proc import datafile=reffile
dbms=csv
out=sm.data
replace;
getnames=yes;
run;
proc print datafile = sm.data;
run;
Jednotlivé longitudinálne (tzv. subject-specific) profily získame napr. pomocou následujúceho SAS kódu:
title "Response Profiles by Gender";
proc sgplot data=sm.data;
series x=time y=EDSS / group=id groupLC=gender break lineattrs=(pattern=solid)
attrid=Treat;
legenditem type=line name="P" / label="Male" lineattrs=GraphData1;
legenditem type=line name="A" / label="Female" lineattrs=GraphData2;
keylegend "A" "P";
xaxis values=(0 1 4 6) grid;
run;
A príslušné priemerné profily pre dve vzájomne nezávislé skupiny – mužov a ženy – získame (napríklad) následujúcim spôsobom:
proc sgplot data=sm.data;
vline time / response=EDSS group=gender stat=mean limitstat=stderr;
run;
Porovnajte predchádzajúci výstup aj s následujúcim grafom a vysvetlite rozdielnosť záverov:
proc sgplot data=sm.data;
vline time / response=EDSS group=gender;
run;
V následujúcej časti sa zameriame na tri konkrétne štatistické testy, ktoré sa v súvislosti s analýzou longitudinálnych dat často vyuívajú.
Z matematického hľadiska je možné štatistický test rovnobežnosti longitudinálnych profilov formulovať aj ako štatistický test rovnosti jednotlivých inkrementov (v ľubovolných časových okamžikoch) medzi dvoma skupinami.
Uvažujme náhodný výber (mužský pacienti) \(\boldsymbol{X}_1, \dots, \boldsymbol{X}_n\) z mnohorozmerného normálneho rozdelnia \(N_{p}(\boldsymbol{\mu}_1, \Sigma)\) a na ňom nezávislý druhý náhodný výber (ženský pacienti) \(\boldsymbol{Y_1}, \dots, \boldsymbol{Y}_m\) z mnohorozmerného normálneho rozdelenia \(N_{p}(\boldsymbol{\mu}_2, \Sigma)\).
Všimnite si, že predpokladané rozdelenia jednotlivých náhodných výberov sú stejné až na vektor stredných hodnôt (rovnaká dimenzia, rovnaká variančná-kovariančná matica). Každé jednotlivé pozorovanie – napr. \(\boldsymbol{X}_i\) (resp. \(\boldsymbol{Y}_j\)) predstavuje jeden individuálny longitudinálny profil o celkovej dĺžke \(p \in \mathbb{N}\) opakovaných (korelovaných, resp. závislých) pozorovaní vrámci daného subjektu. Uvažovaný model – t.j. variančna kovariančena matica \(\Sigma\) je pozitívne definitná, ale inak bližšie nešpecifikovaná. Umožňuje preto modelovať koreláciu medzi jednotlivými opakovanými pozorovaniami.
Je nutné sí uvedomiť, že vhľadom k predpokladu rovnakej
variančnej-kovariančnej matice je nutné, aby boli pozorovania
balancované v rámci oboch skupín dohromady.
V takto formulovanom pravdepodobnostnom modeli je štatistický test
rovnobežnosti longitudinálnych profilov pre \(\boldsymbol{X} \sim N_p(\boldsymbol{\mu}_1,
\Sigma)\) a \(\boldsymbol{Y} \sim
N_p(\boldsymbol{\mu}_2, \Sigma)\) ekvivalentný s nulovou
hypotézou \[
H_0: \mathbb{C}(\boldsymbol{\mu}_1 - \boldsymbol{\mu}_2) =
\boldsymbol{0},
\] oproti obecnej alternatíve, že nulové hypotéza \(H_0\) neplatí. Rovnosť v \(H_0\) je myslená po zložkách a matica \(\mathbb{C}\) predstavuje maticu kontrastov
v tvare \[
\mathbb{C} = \left(
\begin{array}{ccccc}
1 & -1 & 0 & \dots & 0\\
0 & 1 & -1 & \dots & 0\\
\vdots & \vdots & \ddots & \ddots & \vdots\\
0 & 0 & \dots & 1 & -1
\end{array}
\right).
\] Za platnosti nulovej hypotézy lze ukázať, že testová
štatistika definovaná predpisom \[
T = \frac{n m}{(n + m)^2} (n + m - 2)\Big[\mathbb{C}(\boldsymbol{\mu}_1
- \boldsymbol{\mu}_2) \Big]^\top \Big( \mathbb{C}\mathcal{S}\mathbb{C}
\Big)^{-1} \Big[\mathbb{C}(\boldsymbol{\mu}_1 -
\boldsymbol{\mu}_2) \Big]
\] má Hotellingovo \(T^2\)
rozdelenie s \(p - 1\) a \(n + m - 2\) stupňami voľnosti. Matica \(\mathcal{S} \in \mathbb{R}^{(p - 1) \times p
}\) predstavuje výberovú variančnú-kovariančnú maticu spočítanu z
celkového náhodného výberu \(\boldsymbol{X}_1,
\dots, \boldsymbol{X}_n, \boldsymbol{Y}_1, \dots,
\boldsymbol{Y}_m\) (tzv. ``pooled covariance matrix’’).
Druhým zaujímavým testom v súvislosti s analýzou longitudinálnych profilov medzi dvoma nezávislými skupinami je porovnanie jednotlivých profilov v zmysle vzájomnej rovnosti. Je dôležité si ale uvedomiť, že tento test nemá dobrý zmysel v prípade, že predchádzajúci test o rovnobežnosti profilov zamietol nulovú hypotézu. V takom prípade totíž dve skupiny reaguju v priebehu času rozdielne (napr. skupina reagujúca na liečbu a kontrolná skupina reagujúca na placebo, alebo v súvislosti s pacientami na sklerózu jedna skupina predstavuje mužských pacientov, tá druhá ženských pacientov).
Nulová hypotéza može byť formálne zapísana ako \[ H_0: \boldsymbol{1}^\top (\boldsymbol{\mu}_1 - \boldsymbol{\mu_2}) = 0, \] oproti obecnej alternatíve \[ H_1: \boldsymbol{1}^\top (\boldsymbol{\mu}_1 - \boldsymbol{\mu_2}) \neq 0. \] V prípade alternatívy teda existuje aspoň jeden časový okamžík z uvažovaného follow-up obdobia (o celkovej dĺžke \(p in \mathbb{N}\)), pre ktorý platí, že stredná hodnota \(\boldsymbol{X}\) je v danej dimenzii odlišná od strednej hodnoty \(\boldsymbol{Y}\) (v tej istej dimenzii).
Štatistický test nulovej hypotézy \(H_0\) je opäť založený na testovej štatistike, ktorá ma zaplatnosti nulovej hypotézy Hotellingovo \(T^2\) rozdelenie. V privom rade platí, že skupinové vyberové priemerý majú postupne mnohorozmerné normálne rozdelenie \[ \overline{\boldsymbol{X}}_n \sim N_{p}(\boldsymbol{\mu}_1, \frac{1}{n} \Sigma) \] a tiež \[ \overline{\boldsymbol{Y}}_{m} \sim N_{p}(\boldsymbol{\mu}_2, \frac{1}{m}\Sigma). \] Z obecných vlastností mnohorozmerného normálneho rozdelenia (a tiež vzájomnej nezávislosti medzi \(\boldsymbol{X}_i\) a \(\boldsymbol{Y}_j\)) zároven platí \[ \big(\overline{\boldsymbol{X}}_n - \overline{\boldsymbol{Y}}_m\big) \sim N_{p}(\boldsymbol{\mu}_1 - \boldsymbol{\mu}_2, \frac{n + m}{nm}\Sigma), \] a taktiež \[ \boldsymbol{1}^\top \big(\overline{\boldsymbol{X}}_n - \overline{\boldsymbol{Y}}_m\big) \sim N_{p}(\boldsymbol{1}^\top (\boldsymbol{\mu}_1 - \boldsymbol{\mu}_2), \frac{n + m}{nm} \boldsymbol{1}^\top \Sigma \boldsymbol{1}). \]
Variančná-kovariančná matica \(\Sigma\) je ale obecne neznáma a preto je potrebné ju pomocou dat odhadnúť. Nech \(\mathcal{S}_1\) je výberová variančná-kovariančná matica spočítaná z náhodného výberu \(\boldsymbol{X}_1, \dots, \boldsymbol{X}_n\) a analogicky \(\mathcal{S}_2\) je výberová variančná-kovariančná matica spočítaná z náhodného výberu \(\boldsymbol{Y}_1, \dots, \boldsymbol{Y}_m\). Pripomeňme, že platí následujúce: \[ n \mathcal{S}_1 = \mathbb{X}^\top \mathcal{H}_n \mathbb{X} \sim W_{p}(\Sigma, n - 1) \] a \[ m \mathcal{S}_2 = \mathbb{Y}^\top \mathcal{H}_m \mathbb{Y} \sim W_{p}(\Sigma, m - 1), \] kde \(\mathbb{X}= (\boldsymbol{X}_1, \dots, \boldsymbol{X}_n)^\top\) a \(\mathbb{Y} = (\boldsymbol{Y}_1, \dots, \boldsymbol{Y}_m)^\top\) a \(\mathcal{H}_n = \mathbb{I}_n - \frac{1}{n}\boldsymbol{1}_n\boldsymbol{1}_n^\top\) a \(\mathcal{H}_m = \mathbb{I}_m - \frac{1}{m}\boldsymbol{1}_m\boldsymbol{1}_m^\top\) sú tzv. centrovacie štvorcové matice typu \(n \times n\) a \(m \times m\) respective.
Z vlastnosti Wishartovho rozdelenia a tiež z nezávislosti \(n\mathcal{S}_1\) a \(m\mathcal{S}_m\) plynie tiež \[ n \mathcal{S}_1 + m \mathcal{S}_2 \sim W_{p}(\Sigma, n + m - 2), \] pričom tzv. ``pooled’’ odhad variačnej-kovariačnej matice \(\Sigma\) získame ako \(\mathcal{S} = (n + m)^{-1} \cdot (n\mathcal{S}_1 + m\mathcal{S}_2)\). Preto tiež platí, že \[ (n + m) \boldsymbol{1}_p^\top \mathcal{S} \boldsymbol{1}_p \sim W_{1}(\boldsymbol{1}_p^\top \Sigma \boldsymbol{1}_p, n + m - 2), \] čo je vlastne \(\chi^2\) rozdelenie s \(n + m - 2\) degrees of freedom.
Test nulovej hypotézy \(H_0\) lze uskutočniť pomocou testovej štatistiky (analogicky, ako v jednorozmernom prípade u klasického \(t\)-testu) \[ T = \frac{n m}{n + m} (n + m - 2) \frac{\Big[ \boldsymbol{1}_p^\top (\overline{\boldsymbol{X}}_n - \overline{\boldsymbol{Y}}_m) \Big]^2}{\boldsymbol{1}_p^\top \mathcal{S} \boldsymbol{1}_p}, \] ktorá ma za platnosti nulovej hypotézy Hotellingovo \(T^2\) rozdelenie s \(1\) a \(n + m - 2\) stupňami voľnosti (čo je vlastne taktiež Fisherovo \(F\) rozdelenie s \(1\) a \(n + m - 2\) stupňami voľnosti).
V prípade, že štatisticky test rovnobežnosti profilov zamietne nulovú hypotézu, tak následný štatistický model by buď mal zahrnúť interakčný člen medzi časom (jednotlivými meraniami vrámci uvažovaného follow-up obdobia) a príslušnými skupinami, prípadne (ako alternatívu) uvažovať dva samostatné štatistické modely – jeden pre každú z dvoch skupín.
V opačnom prípade, ak nulová hypotéza rovnobežnosti profilov
zamietnutá nie je, tak je následne možne pokúsiť sa zo spoločných dat
(obe uvažovane skupiny súčastne) urobiť inferenciu ohľadom celkového
effektu (napr. nejakej konkrétnej liečby) vrámci uvažovaného času (a to
aj v prípade, že jednotlivé úrovne profilov sú vzájomne odlišné,
podstatné je, že sú, zo štatistického hľadiska rovnobežné).
Takáto nulová hypotéza nulovosti príslušného efektu môže byť matematicky vyjadrená ako \[ H_0: \mathcal{C}(\boldsymbol{\mu}_1 + \boldsymbol{\mu}_2) = \boldsymbol{0}, \] kde matica \(\mathcal{C} \in \mathbb{R}^{(p - 1) \times p}\) je matica vájomných kontrastov definovaná predpisom \[ \mathbb{C} = \left( \begin{array}{ccccc} 1 & -1 & 0 & \dots & 0\\ 0 & 1 & -1 & \dots & 0\\ \vdots & \vdots & \ddots & \ddots & \vdots\\ 0 & 0 & \dots & 1 & -1 \end{array} \right). \]
Z formálneho hľadiska sa vpodstate jedná o testovanie nulovosti jednotlivých priemerných inkrementov (t.j., priemerné inkrementy vrámci združeného – priemerného profilu). Pre priemerný profil (v prípade datového súboru pacientov so sklerózou sa vlastne jedná o model, ktorý neberie do úvahy informáciu o pohlaví pacienta) platí, že \[ \overline{\boldsymbol{X}}_{n + m} = \frac{n \overline{\boldsymbol{X}}_n + m \overline{\boldsymbol{Y}}_m}{n + m} \sim N_p \Big( \frac{n \boldsymbol{\mu}_1 + m \boldsymbol{\mu}_2}{n + m}, \frac{1}{n + m} \Sigma. \Big) \]
Ak sú longitudinálne profily vrámci oboch skupín vzájomne paralelné
(nulov8 hypotéza o rovnobežnosti profilov nebola zamietnutá), tak za
platnosti nulovej hypotézy \(H_0\)
(t.j. oba profily su navyše aj horizontálne) jednoducho platí, že \[
\mathcal{C} \Big( \frac{n \boldsymbol{\mu}_1 + m \boldsymbol{\mu}_2}{n +
m}\Big) = 0
\] a z vlastnosti normálneho rozdelenia aj \[
\sqrt{n + m} \mathcal{C \overline{\boldsymbol{X}}_{n + m} \sim
N_{}(boldsymol{0}, \mathcal{C}^\top \Sigma \mathcal{C})
\] a s využitím príslušnej výberovej matice \(\mathcal{S}\) (odhad variančnej-kovariačnej
matice \(\Sigma\)) môžeme definovať
testovú štatistiku \[
T = (n + m -2) \big( \mathcal{C} \overline{\boldsymbol{X}}_{n +
m} \big)^\top \Big(\mathcal{C}^\top \mathcal{S}\mathcal{C} \Big)^{-1}
\mathcal{C}\overline{\boldsymbol{X}}_{n + m},
\] ktorá má za platnosti nulovej hypotézy \(H_0\) opäť Hotellingovo \(T^2\) rozdelenie s \(p - 1\) a \(n + m
- 2\) stupňami voľnosti (resp. Fisherovo \(F\) rozdelenie s \(p - 1\) a \(n + m
- p\) stupňami voľnosti).
Použijte vhodný datový súbor (napr. datový súbor pacientov so sklerózou multiplex) a pomocou Vami zvoleného programu (napr. SAS, R, alebo Python) explicitne otestujte (t.j. implementujte) štatistický test: