Od Excelu (nebo Google Sheets) k R

Místo tohoto článku si můžete na webu přečíst celou knihu.

Spreadsheety používám od konce 80. let prakticky denně. Multiplan, Supercalc, Quatro, Lotus, Excel, Google Sheets. Jsou báječné, miluju je, ale několik posledních let po nich sahám už jen párkrát do měsíce. Většinu času totiž používám RRStudio.

Je to dáno nároky mé práce, vyšší efektivitou a taky tím, že mě R víc baví. Možná jste na tom podobně jako já a R pro vás bude taky vhodnější. A možná nebude. Máte mu dát šanci? Zlepší váš pracovní život, nebo to bude ztracený čas? Zkusím vám pomoci, abyste se rozhodli správně.

Tohle je úvodní článek série, která provede běžné, středně pokročilé až pokročilejší uživatele Excelu a podobných nástrojů na cestě k R. A v tomto prvním článku se soustředím na jedinou věc: zda má vůbec smysl, abyste se zrovna vy na tu cestu vydali.

Co je R a RStudio

R je programovací jazyk (to zní strašně, co?) navržený pro statistiku. Tradičně se používá pro zpracování dat z medicinských či vědeckých výzkumů, ale čím dál častěji po něm sahají i datoví analytici z byznysu. Zároveň je to interaktivní prostředí vhodné pro rychlé ad hoc výpočty a také je to ekosystém desitek tisíc knihoven (říká se jim balíčky), které pomáhají řešít nejrůznější úkoly snad ze všech oborů lidské činnosti.

Samotné R už ale používá málokdo. Většina uživatelů pracuje v RStudiu, což je integrované vývojové prostředí (IDE), které umožňuje mnohem pohodlnější a efektivnější práci než základní prostředí R.

Podstatné je, že R (i RStudio) vymýšleli a pořád ještě vymýšlejí statistici, vědci, analytici, nikoli programátoři. Obecně je proto bližší spíš neprogramátorům, např. tím, že má přímo v sobě zabudovanou velmi podrobnou a snadno dostupnou nápovědu. Ve většině programovacích jazycích se programuje, ale R se spíš používá. Jako Excel :-)

Pro koho je R vhodné

Už jsem říkal, že R tradičně používají lékaři, biologové a jiní vědci, např. k tomu, aby na základě experimentů vyhodnotili, který lék je jak účinný, nebo co ovlivňuje vznik rakoviny. Všiml jsem si také, že je R docela populární ve financích, např. pro výpočty investic nebo pojistných rizik. Já ale vědec, lékař ani bankéř nejsem, takže budu mluvit spíš o svém oboru, což je marketing.

V marketingu se R velmi dobře hodí např. k vyhodnocování A/B testů, pro zákaznickou analytiku (proč někteří zákaznici nakupují víc a jiní míň), analýzy prodeje, návštěvnosti, nebo třeba PPC (pay per click reklama) a SEO (optimalizace pro vyhldavače). Je to i brána do světa strojového učení, které jde aplikovat např. na analýzu on-line obsahu nebo vazeb v sociálních sítích.

Jiná otázka je, pro koho je R vhodné z pohledu profesních a osobnostních předpokladů. Když to posuzuju podle sebe a dalších, které jsem v téhle souvislosti potkal, R sedne:

Kdo by se do R rozhodně neměl pouštět

Asi je hloupost se do R pouštět, pokud ho k ničemu nepotřebujete. Používáte Excel, pracujete v něm rychle a efektivně a nikdy jste nenarazili na nic, co by neuměl? Pak R nejspíš nepotřebujete.

Když slyšíte slova jako programování, kódování, skripty nebo programovací jazyk, dostáváte vyrážku a začne vás bolet hlava? Pak pro vás R taky nebude.

Nebo naopak bravurně programujete v Pythonu a jste s ním pro své datově-analytické potřeby naprosto spokojeni? Ani pak R spíš nevyužijete.

Do R se raději nepouštějte ani v případě, že neumíte alespoň pasivně anglicky. Anglických zdrojů je na webu bambilion, ale českých jen pár.

Co vám R ve srovnání s Excelem přinese

Stručně: ryhlost, efektivitu, více možností, eleganci. A zároveň trochu trápení při studiu.

Jde to říct i konkrétněji:

Speciálními výhodami R pak je R MarkdownShiny. Tím prvním jdou dělat znovupoužitélné, automatické, moc hezky vypadající reporty, které ocení každý, kdo pracuje pro klienty nebo pro náročného šéfa. To druhé slouží k tvorbě interaktivních webových aplikací, které zpracují nejrůznější data a úhledně zobrazí výsledek.

Proč zrovna R a ne třeba Python

Když se chcete pustit do datové analytiky a uděláte si rychlou rešerši, co byste se měli naučit, vypadne na vás R, nebo Python (nebo obojí). Tyhle dva jazyky se na data používají nejvíc a už dlouho spolu v popularitě soupeří.

Stručně řečeno, jsou mezi nimi tyto rozdíly:

Jak bude vypadat zbytek série

Na tento článek naváže několik dalších, které vás provedou cestou od Excelu k R. Jen to a nic jiného. Možná jsem vás namlsal obsahovou analýzou tweetů nebo modelováním zákaznického chování podle počasí, ale to vás v téhle sérii nenaučím. Místo toho vás naučím úplné základy, bez kterých se dál nedostanete.

Ukážu vám věci, které asi běžně děláte v Excelu a v R jdou udělat hodně podobně. A naučím vás i věci, které taky děláte v Excelu, ale v R jdou udělat o dost lépe. Už tím na tom vyděláte, pokud se do toho se mnou pustíte. A někdy později, až tahle série skončí a vy budete mít základy v malíčku, vám třeba ukážu i to, co dělám v R jako markeťák a Excel by mi na to rozhodně nestačil.

Těším se, že se na té cestě ještě potkáme.

Na článek navazuje bezplatná elektronická kniha Od Excelu k R.