Letný semester 2022-2023 | Cvičenie 14 | 18.05.2023
Prihlásenie k SAS OnDemand: https://www.sas.com/en_us/software/on-demand-for-academics.html
Doporučená literatúra a ďalšie užitočné materiályDoteraz sme sa venovali analýze longitudinálnych dat (resp. vzájomne korelovaných pozorovaní), pričom sme apriórne predpokládali, že prípadné chýbajúce pozorovania vznikajú náhodné – tvz. ‘’Missing Completely At Random (MCAR)’’ koncept. V praxi býva ale zvyčajne situácia zložitejšía a je nutné vysporiadať sa s datami – analyzovať data – ktoré sú v určitom zmysle nekompletné. To môže zahrňať jednak tzv. chýbajúce pozorovania, ktoré z akéhokoľvek dôvodu nie sú k dispozícii (tzv. ``NA’’), ale aj neexistujúce merania, ktorô vznikli následkom dizajnu experimentu (napr. ak u jedného pacienta je plánovaná kontrola na ročnej báze, zatiaľ čo u druhého pacienta sú kontroly plánované na polročnej báze). Takéto data sú v určitom zmysle nekompletné, resp. nevyvážené (unbalanced).
Niektoré z doteraz spomínaných metód určených pre exploráciu a analýzu longitudinálnych dat sú apriorne určené len pre balancované datové súbory a nekompletné data predstavujú určitú komplikáciu, s ktorou je nutné sa vhodne (štatisticky) vysporiadať.
V následujúcej časti stručne prediskutujeme niektoré štatistické postupy a modely, ktoré su v prípade chýbajúcich/neuplných pozorovaní vhodné pre korektnú analýzu.
V zásade rozlišujeme tri základné koncepty chýbajúcich/neúplných pozorovaní:
Z hĹadiska formálneho matematického zápisu je možné tieto tri koncepty rozlíšiť aj pomocou nasledujúceho schématu: Predpokldádajme, že sledované data sú reprezerntované náhodným vektorom \(\boldsymbol{Y}^o\), zatial čo chýbajúce/neúplné pozorovania sú reprezentované náhodným vektorom \(\boldsymbol{Y}^m\). Kompletný datavý súbor by sme v tomto zmysle mohli reprezentovať pomocou združeného náhodného vektoru \(\boldsymbol{Y} = (Y_{1} \dots, Y_{N})^\top= (\boldsymbol{Y}^{o\top}, \boldsymbol{Y}^{m\top})^\top\). Ak navyše bude \(\boldsymbol{R}\) reprezentovať náhodný vektor identifikátorov, ktoré informujú o tom, či dané pozorovanie patrí do \(\boldsymbol{Y}^o\) (pozorovanie, ktoré máme k dispozícii pre analýzu), alebo do \(\boldsymbol{Y}_m\) (pozorovanie, ktoré je chýbajúce a to už z akéhokoľvek dôvodu), tak združené rozdelenie (i.e., napr. hustotu) háhodného vektoru \((\boldsymbol{Y}^{o\top}, \boldsymbol{Y}^{m\top}, \boldsymbol{R}^\top)\) môžeme vyjadriť v tvare \[ f(\boldsymbol{y}^{o}, \boldsymbol{y}^{m}, \boldsymbol{r}) = f(\boldsymbol{y}^{o}, \boldsymbol{y}^{m}) \cdot f(\boldsymbol{r} | \boldsymbol{y}^{o}, \boldsymbol{y}^{m}) \] a preintegrovaním pravej strany rovnosti cez argument \(\boldsymbol{y}^{m}\) dostaneme \[ f(\boldsymbol{y}^{o}, \boldsymbol{r}) = \int f(\boldsymbol{y}^{o}, \boldsymbol{y}^{m}) \cdot f(\boldsymbol{r} | \boldsymbol{y}^{o}, \boldsymbol{y}^{m}) \mbox{d}\boldsymbol{y}^m. \]
Uvedené tri koncepty chýbajúcich pozorovaní (MCAR, MAR, MNAR) v stochastickom zmysle definované následujúcim spôsobom:
Pre prvé dva koncepty (MCAR a MAR) preto dostávame pre vierohodnosť sledovaných dat (vzľadom k nezávislosti \(\boldsymbol{R}\) a \(\boldsymbol{Y}^m\)), žš \[ f(\boldsymbol{y}^{o}, \boldsymbol{r}) = f(\boldsymbol{r} | \boldsymbol{y}^o) \int f(\boldsymbol{y}^o, \boldsymbol{y}^m) \mbox{d}\boldsymbol{y}^m = f(\boldsymbol{r} | \boldsymbol{y}^o) f(\boldsymbol{y}^o), \] pretože z nezávislosti za predpokladov MCAR a MAR máme \(f(\boldsymbol{r} | \boldsymbol{y}^{o}, \boldsymbol{y}^{m}) = f(\boldsymbol{r} | \boldsymbol{y}^{o})\). Následná štatistická vierohodnosť založená na pozorovaných datach – teda rozdelení \(f(\boldsymbol{y}^{o}, \boldsymbol{r})\) sa preto redukuje pouze na maximalizáciu druheho člena, teda maximalizáciu vzhľadom k \(f(\boldsymbol{y}^o)\). Z tohto dôvodu sa v praxi preto niekedy ani formálne nerozlišuje medzi konceptom chýbajúcich pozorovaní, ktoré su ‘’missing completely at random’’ a ktoré sú ‘’missing at random’’.
Z explorativného hľadiska je dobré vedieť rozlíšiť (alebo sa o to aspoń pokúsiť) medzi jednotlivými konceptmi chýbajúcich pozorovaní. V princípe je väčšinou MNAR koncept odlíšiteľný od zvyšných dvoch ‘’random’’ konceptov na základe povahy samotného experimentu. Medzi zostavajúcimi dvoma konceptmi (MCAR a MAR) je niekedy možné použiť vhodné exploratívne, alebo konfirmačné štatistické nástroje.
Z hĺadiska inferenčných metód je k dispozícii napr. Littleho štatistický test, ktorý je pomerne sofistikovaný a je určený na rozlíšenie MCAR a MAR konceptov (teoretické podrobnosti sú v tomto článku). Test vychádza z predpokladu normality a testuje nulovú hypotézu \[ H_0: \boldsymbol{Y}_{i}^o | \boldsymbol{R}_i \sim N(\boldsymbol{\mu}_j, \Sigma_j), \] pre vektor stredných hodnôt $_j, ktorý tvorí podvektor celkového vektoru \(\boldsymbol{\mu} \in \mathbb{R}^n\) a \(i \in I_{j}\), kde \(I_j\) predstavuje indexovu množinú pozorovaných meraní pre nejaký konkrétny chýbajúci profil \(j\). Alternatíva môže byť formulovaná ako \[ H_A: \boldsymbol{Y}_{i}^o | \boldsymbol{R}_i \sim N(\boldsymbol{\nu}_j, \Sigma_j), \]
Tradičné explortatívne a konfirmačné postupy
Alternatívou k Littleho štatistickému testu môžu byť tradičné štatistické metódy – napr. dvojvýberový \(t\)-test, alebo \(\chi^2\) test nezávislosti. Základný pricíp spočíva v tom, že pre konkrétnu premennú vytvoríme tzv. dummy premennu, ktorá bude indikovať, či daneé pozorovanie je odsledované, alebo je chýbajúce. Následne je možné súvislosť medzi chýbajúcimi/neúplnými pozorovaniami a inými premennými v datovom súbore analyzovat pomocou \(t\)-testu (v prípade, že sa jedná o spojité premenné), alebo \(\chi^2\) testom nezávislosti (ak sa jedná o diskrétne premenné).
Analogickým spôsobom je samorejme môžné výužitˇ rôzne grafické a vizualizačné nástroje.
V programe SAS je k dispozícii procedúra PROC MCMC
, ktorá umožnuje analyzovať chýbajúce pozorovania a uskutočniť štatistický test, či koncept chýbajúcich pozorovaní je náhodný. Teoretické podrobnosti lze nájsť napr. v tomto článku.
PROC MCMC
;
PROC SAS
je na stránkeVšeobecné odhadovacie rovnice – GEE – boli predstavené ako (v určitom zmysle) robustná odhadovacia metóda, ktorá garantuje konzistentný odhad podmienenej strednej hodnoty (za predpokladu, že je táto podmienená stredná hodnota dobre špecifikovaná) a to aj v prípade, že korelačná štruktúra špecifikovaná v modeli je nesprávna (vedie to k určitej strate efektivity, ale nie k strate konzistencie ako takovej). Na druhej strane ale štandardné zovšeobecnené odhadovacie rovnice (GEE) predpokládajú, že akékoľvek chýbajúce/neúplné pozorovania sú v rámci princípu ‘’missing completely at random (MCAR)’’. V opačnom prípade nie je garantovaná ani konzistencia odhadovanej podmienenej strednej hodnoty.
Klasické odhadovacie rovnice môžeme formulovať ako sústavu rovníc \[ \sum_{i = 1}^n \Big( \frac{\partial \boldsymbol{\mu}_i}{\partial \boldsymbol{\beta}}\Big)^\top [Var \boldsymbol{Y}_i]^{-1} (\boldsymbol{Y}_i - \boldsymbol{\mu}_i) = \boldsymbol{0}, \] kde \(i = 1, \dots, n\) predstavuje jednotlivé nezávislé subjekty s vektorom stredných hodnot \(\boldsymbol{\mu}_i = (\mu_{i1}, \dots, \mu_{i m_i})^\top \in \mathbb{R}^{m_i}\) a vektorom subject-specific pozorovaní \(\boldsymbol{Y}_i = (Y_{i1}, \dots, Y_{i m_i})^\top\). Ak označíme \(p_{ij} \in [0,1]\) pravdepodobnosť, že \(i\)-ty subjekt bude mať \(j\)-té pozorovanie \(Y_{ij}\) chýbajúce, tak ku garancii konzistencie odhadu neznámeho (vektorového) parametru \(\boldsymbol{\beta} \in \mathbb{R}^p\) je nutné kompenzovať príspevok pozorovania \(Y_{ij}\) inverznou hodnotou \(p_{ij}\) a teda riešiť tzv. vážené odhadovacie rovnice (weighted general estimating equations – wGEE) v tvare
\[ \sum_{i = 1}^n \Big( \frac{\partial \boldsymbol{\mu}_i}{\partial \boldsymbol{\beta}}\Big)^\top \Big[[Var \boldsymbol{Y}_i] \cdot \mathbb{W}_i\Big]^{-1} (\boldsymbol{Y}_i - \boldsymbol{\mu}_i) = \boldsymbol{0}, \] kde \(\mathbb{W}_i\) je váhova diagonálna matica s nenulovými prvkami \(r_{ij} p_{ij}\) pre \(j = 1, \dots, m_i\) na diagonále.
PROC GEE
;
PROC GEE
je na stránkePROC GEE
a PROC GENMOD
;
Existujú samozrejme rôzne štatistické aj neštatistické postupy, ako si poradiť s chýbajúcimi pozorovanimi. Niektoré sú jednoduché, až triviálne (napr. nedělat nic), jiné sú pomerne sofistikované a komplexné (napr. imputácia pomocou neuronových sieťi). Na záver aspoň stručne zhrnieme niektoré z nich. Základným cieľom ale nie je vysvetliť teoreticky background konkrétnej metódy, ale pouze poskytnúť určitý (a nie komleptný) prehľad niektorých existujúcich postupov.
Medzi najčastejšie používané metódy patria napríklad:
Imputácia pomocou vierohodnosti
Pomerne transparentná metóda, ktorá ale predpoklada znalosť rozdelenia pre konkrétnú premennú, pre ktorú chýbajúce hodnoty imputujeme;
Imputácia pomocou tzv. najbližsích susedov
Postup je založený na určitom prirodzenom usporiadaní jednotlivých pozorovaní, ktore umožní definovať blizke/susedné pozorovania – metóda može byť vhodná napr. pre časovo/priestorovo závislé pozorovania;
Interpolácia
Pomerne široka trieda rôznych metód a postupov – od klasickej interpol8cie medzi dvoma pozorovaniami v tradičnom geometrickom zmysle, až po interpoláciu v rámci rôznych komplexných regresných modelov;
Imputácia s využitím mnohorozmerných metód a simulácii
Jednotlivé pozorovania sú považované za náhodné vektory z určitého/konkretného mnohorozmerného rozdelenia a simulované hodnoty z daného rozdelenia sú využité na doplnenie chýbajúcich/neúplných pozorovaní;