NMST539 | Cvičenie 12Zmesové (mixture) modelyLS 2020/2021 | 18/05/21 | (online výuka)zdrojový Rmd súbor (kódovanie UTF8)Outline 12. cvičenia:
Štatisticky program R je k dispozícii (GNU public licence) na adrese https://www.r-project.org RStudio – “user-friendly” interface (jeden z mnohých, ktoré na internete nájdete): RStudio. Užitočné návody a manuály pre prácu s programom R:
1. Zmesové (mixture) modelyZmesové modely predstavujú kategóriu tzv. “model-based” zhlukovacích metód. Pri zhlukovaní (cluster analysis) sa obecně snažíme využiť informáciu v jednotlivých pozorovaniach (mnohorozmerné pozorovania – rôzne premenné) k vytvoreniu konkrétnej miery vzájomnej podobnosti a nepodobnosti, pomocou ktorej sú následne jednotlivé subjekty (pozorovania) rozdelené do niekoľkých skupín. Skutočné začlenenie objektov do jednotlivých skupín je na rozdiel od diskriminačných techník ale neznáme. To zároveň umožňuje aj v určitom zmysle nejednoznačné priradenie niektorých subjektov do viac ako jedného zhluku (cluster) – čo opäť z pohľadu diskriminačných metód nie je možné (každý subjekt totíž obsahuje aj konkrétnu informáciu o príslušnosti do danej skupiny). Zhlukové algoritmy, ktoré sme spominali, boli zatiaľ výhradne založené na konkrétnej miere podobnosti/nepodobnosti – tzv. matici vzdialenosti medzi jednotlivými pozorovaniami. Samotná stochastická povaha dat bola ale v určitom zmysle irelevantná (t.j., zhlukovacie algoritmy nevyuživali žiaden konkrétny predpoklad ohľadom distribučnej povahy dat – konkrétne podkladové rozdelenie generujúce data). Fundamentálnym zhlukovacím postupom, ktorý berie do úvahy aj distribučnú povahu podkladových dat je tzv. zmesový model – mixture model (nemýliť si zmesový “mixture” model s modelom s náhodnými efektami – tzv. “mixed effects model”). Zmesový model štandardne predpokladá, že jednotlivé pozorovania sú náhodne vyberané z obecně \(K \in \mathbb{N}\) rôznych populácii (počet populácii je opäť apriórny predpoklad), ale namiesto jednoduchémo priradenia pouze príslušnosti do určitej populácie (pridelenie nálepky ku každému pozorovaniu, jak fungujú distribution-free zhlukovacie algoritmy) zmesový model odhaduje konkrétny tvar (distribúciu) príslušných populácii (zhlukov). Výstupom zhlukového “mixture” modelu je preto výrazne komplexnejšia informácia, než je tomu v prípade výstupu z ľubovolného distribution-free algoritmu (napr. K-means, alebo hierarhické zhlukovanie – dendogram). Zároveň ale zmesový model vyžaduje výrazne konkrétnejšie predpoklady na podkladové data – napr. predpoklad určitej parametrickej rodiny pre jednotlivé populácie. Pre ilustráciu využijeme opäť datový súbor
Vzhľadom k povahe datového súboru budeme apriorne predpokladať existenciu troch rôznych populácii (t.j. \(K = 3\)) definovaných počtom válcov v danom aute (v datovom súbore sú automobily so štyrma, šiestimi a ôsmimi válcami – premenná S využitím dodatočného predpokladu normality – normálne rozdelenie napr. premennej
Pre jednoduchosť sme v predchádzajúcom príklade predpokládali jednotkový rozptyl pre každú sub-populáciu – t.j. pre každé normálne rozdelenie spotreby – premennej
Zmesový model – zmesové rozdelenie — obsahuje v tomto prípade niekoľko lokálnych maxím – presnejšie jeden pre každý zhluk – resp. pre každú subpopuláciu. Jednotlivé maxima sú lokalizované v bodov \(\widehat{\mu}_k \in \mathbb{R}\), pre \(k = 1, 2, 3\), ktoré reprezentujú príslušné odhady podmienených stredných hodnôt pri danej informácii o počte válcov. Samozrejme, pre dve subpopulácie, ktoré sú hodne podobné, je možne, že výsledný zmesový model bude unimodálny. Z obrázku je tatiež zrejmá nejednoznačnosť priradenia niektorých pozorovaní do príslušnej subpopulácie. Zatiaľ čo automobil so spotrebou 15 míľ na jeden galón by sme intuitivne asi jednoznačne zaradili medzi automobily s ôsmimi válcami, u automobilu so spotrebou 17,5 míľ na jeden galón by sme váhali medzí zaradením medzi osemvalcové, alebo šesťvalcové automobily (aposteriórna pravdepodobnosť príslušnosti do jednej, alebo do druhej skupiny sa zdá byť v tomto prípade rovnaká). V praktických situáciach je komplexnosť zmesových modelov posunutá ešte o úroveň vyššie. Napríklad počet populácii \(K \in \mathbb{N}\) môže byť taktiež neznámy a je nutné ho nejakým vhodným spôsobom odhadnúť. Pre odhad jednotlivých parametrov sa štandardne využíva metóda maximálnej věrohodnosti (čo samozrejme predpokladá znalosť prametrickej rodiny jednotlivých subpopulácii). Dodatočne podmienky regularity sú ale nutné k získaniu rozumných dohadov. Rozmyslite si, ako by dopadol zmesový model vyššie (t.j. pre premennú Uvedomte si, že v tejto interpretácii je z určitého pohľadu možné považovať aj klasický lineárny regresný model za určitý limitný zmesový model. Samostatne
Zmesový model je možné samozrejme vylepšiť zohľadnením heteroskedasticity. Modifikácia výsledného zmesového modelu je vpodstate okamžitá.
Ako by ste v tomto prípade rozhodli o zaradení automobilu so spotrebou 17,5 míľ na jeden galón? Lze nejak vhodne zohľadniť variability spotreby osemvalcových automobilov a variabilitu spotreby šesťvalcových automobilov? Zmesový model môže samozrejme obsahovať jednotlivé zmesy z rôznych rozdelení a tieto rozdelenia nemusia byť nutné rovnaké. Dôležité je správne naformulovať združenú vierohodnosť, ktorú je následne potrebne maximalizovať za účelom získania finálneho zmesového modelu. Alternatívou býva využitie tzv. EM algoritmu. Parametrické rozdelenia sú často používané, nakoľko umožňujú explicitné vyjadrenie vierohodnosti ako funkcie neznámých parametrov a následna maximalizácia je viacmenej priamočiará. Často používanýcm predpokladom je buď apriórna znalosť výsledného počtu zhlukov, alebo, ak je počet zhlukov neznámy, tak sa výsledný zmesový model regularizuje predpokladmi na výsledný tvar – napr. predpoklad unimodality, alebo log-konkavity a pod. Regularizačné predpoklady sú nutné, aby sme zabránili niečomu, čo sa často nazýva “Diracova katastrova”. Pre zmesové modely v programe R je k dispozícii celá knižnica mixtools. 2. Zmesové modely v regresiiZmesové modely sú často aplikované aj v regresnej analýze, v rôznych regresných modeloch. Pre ilustráciu si môžeme predstaviť klasický GLM regresný model (s logaritmiským linkom) pre Poissonové počty – napr. pre modelovanie počtu pozitívnych Covid-19 testov (napr. v priebehu dňa, alebo vrámci nejakej špecifickej lokality a pod.). Vhľadom k pomerne nízkej prevalencii je možné predpokladať, že nezanedbateľné množstvo testov bude negatívných (a ich pozorovaný počet nebude korespondovať s predpokladom získaným z klasického Poissonového modelu). V takom prípade je možné využiť tzv. “zero-inflated” Poissonov model, ktorý je vlastne zmesovým modelom, ktorý môžeme zapísať následovne: \[
Y_i | \boldsymbol{x}_i \sim \left\{
\begin{array}
00 & \textrm{s pravdepodobnosťou } p \in (0,1);\\
Poiss(\lambda_i) & \textrm{s pravdepodobnosťou } 1 - p_i.
\end{array} \right.
\] Jedná sa o zmesový model z dvoma zmesami – Diracova miera pre výskyt negativného testu a Poissonov model pre modelovanie celkového počtu pozitívnych testov. Nezávisle premenné obsiahnuté v \(\boldsymbol{x}_i\) sú tzv. “subject-specific” kovariáty, pomocou ktorých subjekty zaradíme do jednej subpopulácie (zmesy), alebo do druhej. Z teoretického hľadiska je pravdepodobnosť, že budeme sledovať negatívný test (t.j. máme jedinca z prvej subpopulácie negatívnych jedincov) vyjadrená ako \[P[Y_i = 0 | \boldsymbol{x}_i] = p + (1 - p) \cdot e^{- \boldsymbol{x}_i^\top \boldsymbol{\beta}}\] a pravdepodobnosť, že budeme sledovať \(k > 0\) pozitívnych prípadov, môžeme vyjadriť ako \[P[Y_i = k | \boldsymbol{x}_i] = (1 - p) \cdot \frac{(\boldsymbol{x}_i^\top \boldsymbol{\beta})^k}{k!}e^{- \boldsymbol{x}_i^\top \boldsymbol{\beta}}\] pričom predpokládame, že pre \(\lambda_i\) platí GLM regresný model \[\lambda_i = E[Y_i | \boldsymbol{x}_i] = \boldsymbol{x}_i^\top \boldsymbol{\beta},\] s vektorom neznámych parametrov \(\boldsymbol{\beta} \in \mathbb{R}^p\). Finálny zmesový model získame opǎť pomocou maximalizácie vierohodnostnej funkcie. Princip tzv. “zero-inflated” zmesových/regresných modelov je v štatistike hodne častý – napr. zero-inflated binomial model, zero-inflated negative binomial models, zero-inflated GLM a ďalšie. Jedná sa o pomerne bohatú skupinu modelov. S využitím princípu vierohodnosti je vpodstate jednoduché tento “inflation” princíp využiť aj pre iné hodnoty ako nula a v súvislosti s ľubovolným iným rozdelením. Napr. špeciálne “zero-inflated” modelom je venovaná aj táto publikácia: Zuur and Ieno (2016). Beginner’s Guide to Zero-Inflated Models with R. Domáca (samostatná) úloha(Deadline: Cvičenie č.13 / 25.05.2021)
|