Longitudinální a panelová data – NMST422

Letný semester 2024-2025 | Cvičenie 10 | 05.05.2025

Prihlásenie k SAS OnDemand: https://www.sas.com/en_us/software/on-demand-for-academics.html
Nutná je registrácia s vytvorením vlastného účtu s jedinečným identifikačným číslom a potvrdenie registrácie prostredníctvom emailu. Identifikačné číslo užívateľa (vo forme uXXX, kde XXX je samotné číslo uživateľa) sa objavuje v niektorých následujúcich SAS skriptoch. Symbol XXX v zdrojových kódoch je potrebné vždy nahradiť príslušným identifikačným číslom užívateľa.

Doporučená literatúra a ďalšie užitočné materiály

Diggle, P. J., Heagerty, P., Liang, K. Y., & Zeger, S. (2002). Analysis of longitudinal data. Oxford university press.
Fitzmaurice, G. M., Laird, N. M., & Ware, J. H. (2012). Applied longitudinal analysis. John Wiley & Sons.
Hardin, J.W. and Hilbe, J.M. (2007). Generalized Linear Model and Extensions. StataPress.
Pinheiro, J., & Bates, D. (2006). Mixed-effects models in S and S-PLUS. Springer science & business media.
Härdle, K.H & Šimar, L. (2015.). Applied Multivariate Statistical Analysis, Springer-Verlag Berlin.
Jednoduchý (online) SAS tutorial (english)
Základný SAS OnDemand tutorial (english)
Stručný (Český) manuál uživatele SASu na stránke doc. Kulicha
Užitočné aj neužitočné príklady zdrojových kódov v SAS (english)

X. Marginálne (zobecnené) regresné modely

Regresné modely pre opakované/korelované pozorovania so závislou premennou, ktorá je diskrétna, prípadne spojitá, ale nie je možné uvažovať normálne rozdelenie (napr. výrazné zošikmenie podmienenej hustoty a pod.). Marginálne regresné modely modelujú podmienenú strednú hodnotu výhradne prostredníctvom pevných efektov (t.j., jednoduchšia interpretácia výsledného modelu), pričom závislostný charakter opakovaných pozorovaní je zohľadnení pri odhadovaní variančnej-kovariančnej matice.

Pre vektor opakovaných (korelovaných) pozorovaní \(\boldsymbol{Y}_i = (Y_{i1}, \dots, Y_{i n_i})^\top\) pre daný subjekt \(i \in \{1, \dots, N\}\) a príslušné vektory vysvetľujúcich (nezávislých) premenných (t.j., stĺpce matice) \(\mathbb{X}_i = (\boldsymbol{X}_{i1}, \dots, X_{i n_i})^\top \in \mathbb{R}^{n_i \times p}\) chceme odhadnúť združené (podmienené) rozdelenie \[ P[\boldsymbol{Y}_i = \boldsymbol{y} | \mathbb{X}_i] \] resp. združenú podmienenú strednú hodnotu \(\boldsymbol{\mu}_i = E[\boldsymbol{Y}_i | \mathbb{X}_i]\) ako nelineárnu funkciu (link) lineárneho prediktoru \(\mathbb{X}_i \boldsymbol{\beta}\) pre vektor neznámych parametrov \(\boldsymbol{\beta} \in \mathbb{R}^p\). V prípade závislej premennej, ktorá má alternatívne rozdelenie (i.e., \(Y_{ij} \in \{0, 1\}\)), dokonca platí \[ \boldsymbol{\mu}_i = E[\boldsymbol{Y}_i | \mathbb{X}_i] = P[\boldsymbol{Y}_i = \boldsymbol{y} | \mathbb{X}_i] \]

Variančná matica, resp. korelačná štruktúra opakovaných pozorovaní, teda \(Var[\boldsymbol{Y}_i |\mathbb{X}_i] = \mathbb{V}_i(\boldsymbol{\alpha})\) je odhadnutá pomocou automatick0ho vzťahu medzi prvým a druhým momentom (na základe predpokladaného rozdelenia z exponenciálnej rodiny) a marginálnych rozdelení, napr. \(P[Y_{ij} = y_{j}, Y_{ik} = y_k |\mathbb{X}_{i}]\) pre \(i = 1, \dots, N\) a \(j,k \in \{1, \dots, n_i\}\), kde \(j \neq k\), ale napr. aj marginálných rozdelení vyšších rádov, t.j., napríklad pomocou marginálnych pravdepodobností \(P[Y_{ij} = y_{j}, Y_{ik} = y_{k}, Y_{il} = y_{l} | \mathbb{X}_i]\) pre \(j \neq k \neq l\) a vektor \(\boldsymbol{y} = (y_1, \dots, y_{n_i})^\top\).

V literatúre existujú rôzne modely a modelovacie postupy. V následujúcom sa zameriame na marginálne modely odhadované pomocou GEE (postavené na využití marginálov prvého rádu pre odhad parametrov \(\boldsymbol{\beta} \in \mathbb{R}^p\) a marginálov vyššich rádov pre odhad parametrov \(\boldsymbol{\alpha} \in \mathbb{R}^q\)).

1. Zobecněné odhadovacie rovnice – GEE

Zobecňené odhadovacie rovnice (GEE – resp. ``Generalized Estimating Equations’’) predstavené v článku Liang and Zeger (1986) [Longitudinal Data Analysis Using Generalized Linear Models, Biometrika, 73(1),13–22] definujú jeden z metodologických postupov, ako odhadovať regresné modely (pre závsilú premennú s obecným rozdelením exponenciálneho typu) na základe korelovaných/longitudinálných dat. Jedná sa teda o prípady, ktoré by sme za predpokladu nekorelovanosti (resp. nezávislostí) analyzovali pomocou klasických GLM regresných modelov (t.j. data, o ktorých nie je možné predpokládať normálne rozdelenie, prípadne uvažovať spojitý charakter závislej premennej).

GLM pre nezávisle data (náhodný výber)

Pre stručné pripomenutie, v prípade GLM modelov uvažujeme nezávisle pozorovania \(\{(Y_i, \boldsymbol{X}_i);~i = 1, \dots, N\}\) pričom pre správne odhadnutie modelu je nutné špecifikovať dve konkrétne časti – systematickú a stochastickú:

Systematická časť modelu
Predstavuje (podmienenú) strednú hodnotu \(\mu_{i}\) náhodnej veličiny \(Y_{i}\) a je modelovaná ako funkcia vhodnej (ale neznámej) lineárnej kombinácie vysvetľujúcich premenných vo vektore \(\boldsymbol{X}_i \in \mathbb{R}^p\) a vektoru neznámych parametrov \(\boldsymbol{\beta} \in \mathbb{R}^p\), teda \[ \mu_{i} = E\Big[Y_{i} | \boldsymbol{X}_i\Big]= g^{-1}(\boldsymbol{X}_{i}^\top\boldsymbol{\beta}); \]
Stochastická časť modelu
Predstavuje konkrétnu špecifikáciu rozdelenia náhodnej veličiny \(Y_{i}\), pričom sa predpokladá, že toto rozdelenie patrí do rodiny exponenciálných rozdelení (napr. binomické rozdelenie, Poissonovo rozdelenie, gamma rozdelenie, inverzné Gaussovo rozdelenie, ale do rodiny exponenciálnych rozdelení patrí aj normálne—Gaussovo rozdelenie). Konkrétny distribučný predpoklad v stochastickej časti modelu zároveň implikuje predpokládanú variančnú štruktúru, resp. platí, že \[ Var[Y_{i}] = \phi v(\mu_i). \] V prípade binomického rozdelenia náhodnej veličiny \(Y_{i}\) dostaneme \(\phi v(\mu_i) = \mu_i (1 - \mu_i)\) (pre \(\phi = 1\)), resp. v prípade Poissonového rozdelenia platí \(\phi v(\mu_i) = \mu_i\) (opäť pre \(\phi = 1\)).

Predpoklad konkrétneho rozdelenia umožňuje formulovať explicitné podmienky (t.j. rovnice) pre prvý a druhý (podmienený) moment. Odhad neznámych parametrov \(\boldsymbol{\beta} \in \mathbb{R}^p\) preto získame riešením \(p\) nelineárnych (momentových) rovníc v tvare \[ \sum_{i = 1}^n \frac{\partial \mu_{i}}{\partial \boldsymbol{\beta}} v_i^{-1}(Y_{i} - \mu_i) = \boldsymbol{0}, \] kde \(v_i = \phi v(\mu_i)\). Rovnice sa typicky riešia napríklad pomocou iteračného Newton-Raphson algoritmu.
Málokedy majú totíž rovnice explicitné riešenie.

Analógia pre longitudinálne data

Základný princíp odhadovania modelov na základe longitudinálných pozorovaní zostáva rovnaký, ako v prípade klasických GLM modelov pre nezávislé data. Pre longitudinálne data \(\{(Y_{ij}, \boldsymbol{X}_{ij}); i = 1, \dots, N; j = 1, \dots, n_i\}\) merané na \(N \in \mathbb{N}\) nezávislých subjektov (pričom celkový počet pozorovaní je \(\mathcal{N} = \sum_{i = 1}^N n_i\) a \(\boldsymbol{X}_{ij} \in \mathbb{R}^p\)) špecifikujeme analogické podmienky pre (podmienenú) strednú hodnotu \[ \mu_{i j} = E\Big[Y_{i j} | \boldsymbol{X}_{ij}\Big]= g^{-1}(\boldsymbol{X}_{ij}^\top\boldsymbol{\beta}); \] resp. vyjadrené vektorovo/maticovo pre jednotlivé (nezávsilé) subjekty ako \[ \boldsymbol{\mu}_i = (\mu_{i1}, \dots, \mu_{i n_i})^\top = E\Big[\boldsymbol{Y}_{i}| \mathbb{X}_{i}\Big] = g^{-1}\big(\mathbb{X}_i \boldsymbol{\beta}\big) \] s variančnou-kovariačnou maticou \(\mathcal{V}_i = Var \boldsymbol{Y}_i \in \mathbb{R}^{n_i \times n_i}\). Spolu s predpokladom konkrétneho rozdelenia pre náhodné veličiny \(Y_{ij}\) (t.j. stochastická časť modelu) to vedie na riešenie nelineárnych rovníc (ktoré opäť špecifikujú prvé dva momenty) \[ \sum_{i = 1}^n \frac{\partial \boldsymbol{\mu}_{i}^\top}{\partial \boldsymbol{\beta}} \mathcal{V}_i^{-1}(\boldsymbol{Y}_{i} - \boldsymbol{\mu}_i) = \boldsymbol{0}. \]

Korelovanosť opakovaných pozorovaní je zohľadnená v štruktúre variančnej-kovariančnej matice \(\mathcal{V}_i\), ktorú je ale na rozdiel GLM modelov pre nekorelované pozorovania nutné odhadovať navyše. To sa robí pomocou tzv. matice pracovných korelácii (resp. tzv. ``working correlation matrix’’). Základný pricíp je rozložiť variančnú-kovariančnú maticu náhodného vektoru \(\boldsymbol{Y}_i = (Y_{i 1}, \dots, Y_{i n_i})^\top\) do tvaru \[ \mathcal{V}_i = \phi \mathcal{A}_i^{1/2} \mathcal{R}(\boldsymbol{\alpha})\mathcal{A}_i^{1/2}, \] kde \(\mathcal{A}_i \in \mathbb{R}^{n_i \times n_i}\) je diagonálna matica s prvkami \(v(\mu_{i j})\) pre \(j = 1, \dots, n_i\) na diagonále a matica \(\mathcal{R}(\boldsymbol{\alpha}) \in \mathbb{R}^{m_i \times m_i}\) je matica korelácii opakovaných pozorovaní vo vektore \(\boldsymbol{Y}_i\), ktorá závisí na parametroch \(\boldsymbol{\alpha} \in \mathbb{R}^\ell\) (a na diagonále má hodnoty jedna).

Užitočné

GEE predstavujú historicky staršiu metodológiu na odhadovanie GLM modelov s korelovanými/opakovanými pozorovaniami, ako sú GLM modely s náhodnými efektami. GEE modely sú výhradne určené pre marginálne modelovanie—t.j. interpretácia odhadnutých parametrov v rámci sub-populácii, ktoré sú determinované konrétnymi hodnotami nezávislých premenných (regresorov), \(\boldsymbol{X}_{ij} \in \mathbb{R}^{n_i}\).
GLM modely s náhodnými efektami predstavujú komplexnejší, modernejší, teoreticky robustnejší, ale aj výpočetne a interpretačne náročnejší postup, ako GEE, ale prímárne umožňujú tzv. podmienenú (resp. hierarchickú) interpretáciu v rámci konkrétneho subjektu. Marginálnu interpretáciu je možné získať následne z hierarchického modelu integrovánim, ktoré ale nie je úplne priamočiare (a vo väčšíne prípadov má za následok zmenu interpretácie odhadnutých parametrov pre pevné efekty).
GEE metodológia umožňuje konzistentne odhadovať vektor neznámych parametrov \(\boldsymbol{\beta} \in \mathbb{R}^p\) a to aj v prípade, že korelačná štruktúra (t.j., matica \(\mathcal{R}_i(\boldsymbol{\alpha})\)) nie je správne špefikovaná. Nezávisle na špecifikácii korelačnej štruktúry sú navyše získané odhady \(\widehat{\boldsymbol{\beta}} \in \mathbb{R}^p\) asymptoticky normálne (asymptotický rozptyl ale na špecifikácii korelačnej štruktúry už závisí – tzn., že správna/nesprávna špecifikácia korelačnej štruktúry má za následok výslednú eficienciu odhadu);
Zaujímavé a užitočné porovnanie GEE postupu a GLM modelov s náhodnými efektami je napr. v tomto článku.

Korelované data ale nie nutne vznikajú iba v prípade opakovaných pozorovaní (t.j., longitudinálne profily pre \(N \in \mathbb{N}\) vzájomne nezávislých subjektov). Analogicky sa môže jednať o nezávislé subjekty združené do niekoľkých skupín – tzv. clustrov — v rámci ktorých je možne považovať subjekty za vzájomne korelované. Takúto koreláciu medzi jednotlivými pozorovaniami je nutné správne zohľadníť, ak je cieľom štatistickej analýzy následná inferencia (intervaly spoĽahlivosti, prípadne štatistické testy nulovej a alternatívnej hypotézy).

V programe SAS sú k dispozícii dve hlavné/základné procedúry, ktoré umožňujú odhadovať regresné modely pre nenormálne data na základe GEE metodológie:

Procedúra PROC GENMOD – podrobná implementácia procedúry napr. tu:
https://documentation.sas.com/doc/en/statug/15.2/statug_genmod_toc.htm
Procedúra PROC GEE – podrobná implementácia procedúry napr. tu:
https://documentation.sas.com/doc/en/statug/15.2/statug_gee_toc.htm

a) Procedúra `PROC GENMOD`

Základná procedúra v programe SAS pre odhadovanie GLM modelov pre opakované/korelovaná pozorovania, ktoré námajú normálny charakter. Procedúra je určená hlavne pre prípady, keď sú dostupné data plne sledované, prípadne chýbajúce pozorovania sú plne náhodné (tzn. tzv. ``missing completely at random – MCAR’’ patern).

Idea algoritmu je postavená na následujúcom iteračnom princípe:

inicializačný odhad vektoru parametrov \(\boldsymbol{\beta} \in \mathbb{R}^p\) napr. pomocou GLM modelu pre nekorelované/nezávislé pozorovania;
korelačná štruktúra—t.j., matice \(\mathcal{R}_i(\boldsymbol{\alpha})\), pre \(i = 1, \dots, N\) sú následne odhadnuté pomocou rezídui (ktoré závisia na \(\widehat{\boldsymbol{\beta}}\)) \[ r_{ij} = \frac{Y_{ij} - \widehat{\mu}_{ij}}{\sqrt{v(\widehat{\mu}_{ij})}}; \]
variančná-kovariančná matica \(\mathbb{V}_i(\boldsymbol{\alpha}) = \phi \mathcal{A}_i^{1/2} \mathcal{R}(\boldsymbol{\alpha})\mathcal{A}_i^{1/2}\), pre \(\boldsymbol{\alpha} \in \mathbb{R}^q\) je odhadnutá s využitím odhadnutej korelačnej matice \({\mathcal{R}}_i(\widehat{\boldsymbol{\alpha}})\);
updatovaný odhad vektoru neznámých parametrov sa získa využitím odhadnutej variančnej-kovariančnej matice \(\mathbb{V}_{i}(\widehat{\boldsymbol{\alpha}})\), pre \(i = 1, \dots, N\) pomocou vzťahu \[ \widehat{\boldsymbol{\beta}}^{(k + 1)} = \widehat{\boldsymbol{\beta}}^{(k)} - \Big[ \sum_{i = 1}^N \mathbb{D}_{i}^\top \mathbb{V}_i^{-1}(\widehat{\boldsymbol{\alpha}}) \mathbb{D}_i \Big]^{-1} \Big[ \sum_{i = 1}^N \mathbb{D}_i^\top \mathbb{V}^{-1}(\widehat{\boldsymbol{\alpha}})^{-1} \big(\boldsymbol{Y}_i - \widehat{\boldsymbol{\mu}}\big)\Big], \] kde \(\mathbb{D}_i = \Big(\frac{\partial \boldsymbol{\mu}_{ij}}{\partial \boldsymbol{\beta}}\Big)_{j, k = 1}^{n_i, p}\).

Užitočné

Popdrobný help k SAS procedúre PROC GENMOD je na stránke:
https://documentation.sas.com/doc/en/pgmsascdc/9.4_3.4/statug/statug_genmod_overview.htm
K dispozícii je množstvo rôznych volieb pre tzv. ``working-correlation matrix’’ – teda voľbu matice \(\mathcal{R}_{i}(\boldsymbol{\alpha})\), pre nejaké \(\boldsymbol{\alpha} \in \mathbb{R}^q\);
Často používané voľby sú napr. identita (\(\mathcal{R}(\boldsymbol{\alpha}) \equiv \mathbb{I}_{n_i \times n_i}\)), apriórne definovaná korelačná štruktúra (\(\mathcal{R}(\boldsymbol{\alpha}) \equiv \mathbb{R}(\boldsymbol{\alpha})\), pro \(\boldsymbol{\alpha} \in \mathbb{R}^{n_i(n_i - 1)/2}\)), m-závislosť (\(Corr(Y_{ij}, Y_{i j + t}) = \alpha_t\), pre \(t = 1, \dots, m\) a \(Corr(Y_{ij}, Y_{i j + t}) = 0\) inak), exchangable (\(Corr(Y_{ij},Y_{ik}) = \alpha\) pre \(j \neq k\)), prípadne tzv.unstructured matica (\(Corr(Y_{ij}, Y_{ik}) = \alpha_{jk}\));
pre voľbu \(\mathcal{R}(\boldsymbol{\alpha}) \equiv \mathbb{I}_{n_i \times n_i}\), prípadne ak \(n_i = 1\) pre všetky \(i = 1, \dots, N\), tak GEE postup odhadovania sa redukuje na klasický GLM model pre nezávislé pozorovania;

Jednoduchý (marginálny, teda populačný) GEE model pre pacientov so sklerózou multiplex (kde ako závislú premennú budeme uvažovať veličinu NEDA – No Evidence of Disease Activity) získame následujúcim spôsobom:

libname sm '/home/uXXX/sasuser.v94';
filename reffile '/home/uXXX/sasuser.v94/data/sm_data2.csv';

proc import datafile=reffile
    dbms=csv
    out=sm.data
    replace;
    getnames=yes;
run;

data sm.data;
set sm.data;
timeCls = time;
run;

proc print data=sm.data; 
run; 

proc genmod data=sm.data;
class id gender timeCls;
model NEDA = gender age time / d=binomial link=logit;;
repeated subject = id / withinsubject = timeCls corrw covb type=exch modelse;
run;

Podstatná čast zdrojového kódu vyššie je tzv. repeated statement – riadok, ktorý explicitne špecifikuje oparkované/korelované pozorovania a tým pádom aj použitie GEE metódy. Podstatné je aj porovnanie oboch tabuliek s odhadnutými pevnými efektami (Empirical estimatesvs.Model-based estimates`). Empirické odhady sú správne, ak je správne špecifikovaná podmienená stredná hodnota (jedná sa o tzv. robustný sandwichový odhad). Odhady založené na modeli výchadzajú zo špecifikovanej variančnej-kovariačnej (resp. korelačnej) matice.

Porovnajte model pre opakované/korelované pozorovania so štandardným GLM modelom pre nula/jedna závislú premennú:

proc genmod data=sm.data;
class id gender timeCls;
model NEDA = gender age time / d=binomial;
run;

Základný postup pri modelovaní longitudinálnych dat o ktorých nie je možné predpokládať normálne rozdelenie (a teda vyuiť klasický lineárny model s náhodnými efektami) by sa asi dal formalizovať v následujúcich krokoch:

voľba konkrétneho teoretického rozdelenia na základe povahy dat a špecifikácia link funkcie;
špecifikácia prvého momentu – podmienenej strednej hodnoty – v závilosti na uvažovaných regresoroch a vyjadrený prostredníctvom link funkcie;
špecifikácia pracovnej korelačnej štruktúry – tzv. working correlation matrix;
analýza výsledného modelu momocou vhodných goodness-of-fit kritérii;

Pre ilustráciu využijeme ešte procedúru PROC GENMOD pre regresiu Posonových počtov, kde hodnotu EDSS budeme interpretovať ako celočíselný kladný ukazateľ stavu nemoci:

proc genmod data=sm.data;
class id gender timeCls;
model EDSS = gender age time / d=poisson;
repeated subject = id / withinsubject = timeCls corrw covb type=ar(1) modelse;
run;

Samostatne

Pokúste sa interpretovať jednotlivé odhadnuté parametre a vysvetliť ich význam. </li}
Pokuste sa model vylepšiť zahrnutím iných premenných.
Pozrite sa na rozdiely v jednotlivých odhadnutých modeloch v závislosti na uvažovanej pracovnej korelačnej štruktúre – matici \(\mathcal{R}_i(\boldsymbol{\alpha})\) — dodatočný parameter corrw v REPEATED STATEMENT.

b). Procedúra `PROC GEE`

Analogicky ako v prípade procedúry PROC GENMOD, aj procedúra PROC GEE implementuje základné zobecnené odhadovacie rovnice navrhnuté v članku Liang and Zeger (1986). Odhadovaný model je teda marginálnym modelom (t.j. populačným modelom). Procedúry PROC GENMOD a PROC GEE sú za predpokladu konceptu MCAR ekvivalentné, avšak štandardná implementácia GEE odhadovacích rovníc vedie v prípade MAR konceptu (tzv. “Missing At Random”) k nekonzistentným odhadom a nutná je tzv. vážená verzia obecných odhadovacích rovníc — ktorá je práve implementovaná v procedúre PROC GEE (tzv. weighted GEE, predstavené v článku Fitzmaurice, Laird, and Ware (2011)).

Procedúra PROC GEE implementuje aj tzv. alternujúcu logistickú regresiu (ALS), kde sa využívajú logaritmi pomerov šancí.

Užitočné

SAS dokumentácia k procedúre PROC GEE:
https://documentation.sas.com/doc/en/pgmsascdc/9.4_3.4/statug/statug_gee_toc.htm
Zaujímavý návod k použitiu procedúry PROC GEE je aj na tejto stránke;

Porovnajte následujúci výstup z procedúry PROC GEE s predchádzajúcim výstupom z procedúry PROC GENMOD.

proc gee data=sm.data;
    class id gender timeCls;
    model NEDA = gender age time / dist=binomial link=logit;
    repeated subject=id / within=timeCls type=exch corrw covb;
run;

Analogický model pre Poissonovú regresiu:

proc gee data=sm.data;
    class id gender timeCls;
    model EDSS = gender age time / dist=poisson link=log;
    repeated subject=id / within=timeCls type=exch corrw covb;
run;

Užitočné

Procedúra PROC GENMOD využíva iteratívne postupy k získaniu odhadov pre pevné efekty, ale aj pre odhady korelačnej štruktúry. Naproti tomu procedúra PROC GEE môže využívať neiteratívne postupy
Pre konzistentné odhady je často vhodnejšie a doporučované využiť procedúru PROC GENMOD, ktorá ale môže byť výpočetne náročnejšia..
Pre uvažované modely sú oba výstupy ekvivalentné. Pokúste sa model vylepšiť a jednotlivé modely vzájomne porovnať.

Samostatne

Aká je interpretácia jednotlivých parametrov vo vyššie odhadnutom modely?
Pozrite sa na dokumntáciu procedúry PROC GEE – všimnite si rozdielnp syntax v porovnaní so syntaxou procedúry PROC GENMOD.
Pre uvažované modely sú oba výstupy ekvivalentné. Pokúste sa model vylepšiť a jednotlivé modely vzájomne porovnať.

c). Procedúra `PROC GLIMMIX`

Alternatívna možnosť pre marginálny model je využiť procedúru PROC GLIMMIX – podrobná syntax napr. na tejto stránke: https://documentation.sas.com/doc/en/pgmsascdc/v_062/statug/statug_glimmix_syntax01.htm

Odhadovanie finálneho modelu pomocou procedúry PROC GLIMMIX je ale založené na linearizácii a následnom použití (residuálnej) pseudo-vierohodnosti pričom korelačná štruktúra je odhadovaná zo získaných rezídui (špecifikácia type=cs znamená tzv. exchangeable korelačnú štruktúru).

Pseudo-vierohodnosť – vychádza z klasickej vierohodnostnej funkcie, ale pre “nespočítateľnosť” (intractability) sa využíva nejaká vhodná aproximácia združenej vierohodnosti, napr. pomocou marginálnych vierohodnosti, alebo pomocou podmienených vierohodnosti (GLIMMIX, Laplace, RMPL, …). Inferencia založená na princípe vierohodností je približná.

Kvázi-vierohodnosť – nevyužíva vierohodnosť ako takovú (t.j., není potrebná špecifikácia (združeného) rozdelenia), ale vychádza pouze zo špecifikácie prvých dvoch momentov. Štandardné postupy založené na vierohodnosti (GENMOD, AIC, testy pomerom vierohodnosti, …) nie sú aplikovateľné.

proc glimmix data=sm.data method=RMPL;
   class id gender timeCls;
   model NEDA = gender age time / dist=binomial link=logit solution;
   random _residual_ / subject=id type=cs;   /* CS = exchangeable */
run;

Procedúra PROC GLIMMIX môže byť teda využitá pre aproximáciu GEE modelu. GEE využíva odhadovacie rovnice a špecifikáciu prvých dvoch momentov (kvázi-vierohodnosť). Odhady variančnej-kovariančnej štruktúry sú štandardne získavané pomocou robustných sandwichových odhadov. Naproti tomu proc PROC GLIMMIX využíva pseudo-vierohodnosť a linearízaciu. GEE (PROC GENMOD a PROC GEE) vyžaduje špecifikáciu opakovaných pozorovaní a tzv. working correlation matrix prostredníctvom repeated statement. PROC GLIMMIX koreláciu rezídui v lineárnom parametrickom modeli.

Samostatne

Porovnajte jednotlivé modely pomocou PROC GENMOD, PROC GEE a PROC GLIMMIX ale pre nezávislé pozorovania – t.j. bez použitia repeated statementu.
Odhadnite pomocou PROC GLIMMIX regresný model pre Poissonové počty a výsledky porovnajte s ostatnými SAS procedúrami.

2. Porovnanie GENMOD/GEE/GLIMMIX a doporučnia

Source: ChatGPT

Longitudinální a panelová data – NMST422

X. Marginálne (zobecnené) regresné modely

1. Zobecněné odhadovacie rovnice – GEE

Užitočné

a) Procedúra PROC GENMOD

Užitočné

Samostatne

b). Procedúra PROC GEE

Užitočné

Užitočné

Samostatne

c). Procedúra PROC GLIMMIX

Samostatne

2. Porovnanie GENMOD/GEE/GLIMMIX a doporučnia

a) Procedúra `PROC GENMOD`

b). Procedúra `PROC GEE`

c). Procedúra `PROC GLIMMIX`