NMSA230 - Úvod do programování v RZimný semester 2019/2020 | Cvičenie 6 | St 18/12/19Program R: Čo sa ešte oplatí vediet, alebo aspoň tušiť?Program piateho cvičenia NMSA 230
Program R (dostupný pod GNU GPL licenciou) je k dispozícii k stiahnutiu (free of charge) na adrese K dispozícii sú distribúcie s priamou podporou pre OS Windows, Linux aj Macintosh. Základnú inštaláciu programu R je možne jednoducho rozšíriť pomocou dodatočných knižníc (balíčkov), ktoré sú k dispozícii na rôznych online repozitároch (zoznam hlavných repozitárov je na adrese https://cran.r-project.org/mirrors.html). Jednotlivé R knižnice sú tvorené samotnými užívateľmi softwaru R a ich správne fungovanie nie je garantované - je preto namieste určitá opatrnosť a hlavne aktívne premýšľanie pri ich používaní. Pre užívateľov programu R sú k dispozícii aj rôzne grafické rozhrania, ktoré je možne dodatočne nainštalovať a umožňujú (v určitých smeroch) jednoduchšiu a prehľadnejšiu prácu. Najznámejší a pravdepodobne aj jeden z najlepších R interfacov je RStudio. Užitočné materiály pre prácu so štatistickým softwarom R
1. Vlastné funkcie a súbory typu .R a .RDataProgram R umožňuje vytváranie rôznych užívateľských funkcií. Vytvorené funkcie je možné jednoducho uložiť do datového súboru typu .R a pri opätovnom načítaní súboru pomocou R príkazu
Súbor obsahuje jednu preddefinovanú užívateľskú funkciu
Štandardným volaním funkcie pomocou jej ména (t.j.
V podkladovom súbore je možné okrem samotných funkcii ukládať aj iné Rkové objekty - napr. výsledky parciálných výpočtov, simulácii a podobne. Nejedná sa ale o samotné objekty vo vorme hotových výsledkov, ale o podkladový Rkový zdrojový kód, ktorý tieto výsledky pri načítaní súboru vyhodnotením zdrojového kódu vytvorí. Nasledujúci príkaz načíta do programu R dva objekty - náhodné výbery o rozsahu 10000, avšak samotné generovanie náhodých výberov už neprebieha, dôjde pouze k načítaniu konkrétných hodnot dvoch konrétnych náhodnách výberov.
Náhodné výbery su generované zo štandardného normálneho rozdelenia a z exponenciálneho rozdelenia so strednou hodnotou 1. Nastavenie seedu bolo zakždým
Samostatne
Užítočné
2. Datové súbory typu .xls, .csv, alebo .txtV praxi sa štatistík stretáva najčastejšie s datami ktoré sú reprezentované číselne, väčšinou pomocou tabuľky, ktorá je uložená buť v Exceli, alebo v textových súboroch typu .csv a .txt. Vyššie spomínaný datový súbor .RData je ideálný pre ukladanie samotných objektov vytvorených v programe R, resp. niektoré vzorové datové súbory určené k výukovým účelom bývajú taktiež uloženém v súbore typu .RData. Tieto objekty nemusia nutne reprezentovať štandardný súbor vo forme tabuľky s hodnotami. Pre uloženie konkrétnych dat vo forme tabuľky sú možno praktickejšie klasické textové súbory typu .xls, .txt, alebo .csv. Pre manipuláciu so súbormi slúžia funkcie Help k príkazom:
K uloženiu datovych súborov (ideálne vo forme tabuľky, resp. Samostatne
3. A čo ešte na záver?Program R využívame hlavne ako nástroj na prípravu a následnú analýzu dat. Program R je možné taktiež využiť k príprave reportu, ktorý k štatistickej analýze väčšinou automaticky patrí. Takúto report by mal obsahovať úvod a zmysluplný popis samotného experimentu, z ktorého data pochadzajú a tiež dostatočne podrobný popis samotných dat. Z odborného (matematického a štatistického) hľadiska musí obsahovať aj dostatočne presné informácie o použitých metódach pri štatistickom vyhodnotení. Závery analýzy ale musia byť interpretovane v reči pôvodných dat a to spôsobom, ktorému aj nematematik, neštatistik pochopí. Pri výtvárani takéhoto reportu je užitočné využiť LaTeX, balíček Sweave, alebo R funkciu Nie vždy sme ale nútený pripraviť report v PDF kvalite. Zároveň by ale malo platiť, že zdrojové kódy a defaultne výstupy z Rkových funkcii by sa v reporte objavovať nemali - čo platí aj napr. pre štandardné tabuľky (napr. tabuľka popisných charakteristík, ako výstup funkcie Možnosti programu R sú vpodstate neobmedzené, zaujímavý pohľad na možné nadstavy a rozšírenia ponúka webová stránka https://awesome-r.com/. Požiadavky na zápočet
|