Na velikosti záleží

Pokud jste tady, protože jste slyšeli moji přednášku na Jizerce a chcete si pohrát se s aplikacemi pro centrální limitní větu nebo simulaci power, nebo si chcete stáhnout mou přednášku, tak jste tady správně.

Pokud jste na přednášce nebyli, můžete to zkusit, ale …

Přednáška ke stažení

Centrální limitní věta

Výpočet power u normálního rozdělení

Covid-19 party kalkulátor

Skočit rovnou dolů na aplikaci

V souvislosti s aktuální pandemií Covid-19 dostávám čas od času otázky typu „Byl(a) jsem na večírku (party/svatbě), bylo tam 200 lidí, jaká je pravděpodobnost, že tam byl někdo pozitivní?“

Je to (s mnoha ALE) hezká rozcvička na binomické rozdělení.

Do mé kalkulačky (Shiny aplikace) můžete zadat datum, kdy jste na akci byli a kolik tam bylo lidí. Aplikace si „sama“ z webu Ministerstva zdravotnictví stáhne počet aktivních případů daný den, z něj spočte četnost případů v české populaci a pomocí binomického rozdělení spočítá, jaká je pravděpodobnost, že na akci s daným počtem účastníků, byl žádný, jeden, dva, …, deset nakažených.

ALE

Aplikace předpokládá náhodný výběr účastníků z celé české populace. To znamená, že každý obyvatel ČR, bez ohledu na věk a konkrétní místo pobytu, měl stejnou pravděpodobnost, že se akce účastnil. Večírky nebo svatby nejsou ten případ.

  • Na večírky chodí (alespoň do jisté míry) lidé, kteří se znají. Takže pokud je mezi nimi jeden pozitivní, je pravděpodobnost někoho dalšího pozitivního jistě větší.
  • Na večírky chodí spíše mladší lidé. Aktuálně je četnost pozitivních mezi nimi větší než v celé populaci.
  • Večírky v Praze jsou jistě rizikovější než večírky v Trnávce.
  • Aktuálně uváděný počet nemocných není aktuální počet infikovaných v populaci (ten je možná až násobně větší). Je to jenom počet pozitivně testovaných minus vyléčení a mrtví.

Alespoň řádový odhad ale snad aplikace dává. A téměř jistě počet pravděpodobně infikovaných podhodnocuje.

Jak číst grafy?

Pokud do aplikace zadáte, že jste 12. září 2020 byli na akci, kde bylo 500 lidí, dostanete následující obrázek:

Z něj se dozvíte, že s pravděpodobností 53 % na akci nikdo infikovaný nebyl. Právě jeden infikovaný tam byl s pravděpodobností 34 %, dva s pravděpodobností 11 % a tak dále. V součtu to dá 100 %.

Všimněte si, že v aktuální situaci (12. září 2020) se až u akcí s počtem účastníků kolem 800 srovnává pravděpodobnost, že tam nebude žádný nakažený s pravděpodobností, že tam bude právě jeden. Obojí cca 37 %.

Aktualizace (14. září 2020)

Většina mé bubliny žije v Praze, tak jsem dodělal variantu, kdy je možné provést stejný výpočet pro Prahu. Princip je stejný. Situace v Praze pochopitelně vychází hůře než pro celou ČR.

Problém je, že data podle jednotlivých krajů na webu ministerstva mají zpoždění. Aktuálně jsou do 6. září.

Aktualizace (22. září 2020)

Aby kalkulačka nebyla jen pro pražskou kavárnu, rozšířil jsem ji, a je možné vybrat libovolný region (kraj) v ČR. Data pro regiony mají na webu Ministerstva zdravotnictví podle všeho vždy týden zpoždění za daty pro celou ČR, takže v současné době rychlého růstu pozitivních případů má informace o regionálním riziku jen omezený význam.

Dále přibyla možnost nakreslit si vývoj rizika, že na akci o daném počtu účastníků potkáte někoho pozitivního (alespoň jednoho nebo libovolně více), v čase. Je to možné jen pro celou ČR.

Vlastní aplikace

Úvahy o kontextu

Pokud vám vyjde pro vaši akci pravděpodobnost 90 % (tj. 0,9), že tam nikdo nakažený nebyl, nenechte se ukolébat. Pokud vezmeme takových podobných akcí 10, je pravděpodobnost, že na žádné z nich nikdo nakažený nebyl 0,910 = 0,35. To znamená 65 % pravděpodobnost, že alespoň na jedné z 10 obdobných akcí někdo nakažený byl. (Statistici odpustí jisté zjednodušení v úvaze.)

Ve Šťastném pondělí jsem slyšel ministra plukovníkat říkat, že svatby by se měly omezit na 30 lidí. Když spočtete riziko výskytu alespoň jednoho pozitivního účastníka svatby, která byla v neděli 20. září a bylo na ní 30 (ve statistickém smyslu z populace náhodně vybraných) hostů, vyjde vám cca 6 %. Pro svatbu se 40 hosty to bude 8 % a pro svatbu s 50 hosty dostaneme 10 %. Zajímalo by mě, jaká super stratifikovaná data má a jaké statistické metody plukovník používá, protože proč by riziko 6 % mělo být přijatelné a 8 % už ne, to nevím.

Zdroje

Kolik obyvatel si pamatuje rok 1968?

U příležitosti blížícího se výročí se na mě obrátil kamarád s otázkou, kolik obyvatel ČR si reálně pamatuje okupaci v roce 1968. Krátce jsem si pohrál s daty volně dostupnými na webu Českého statistického úřadu a zkusím se podělit.

Věková struktura populace je na webu ČSÚ dostupná k 31. prosinci 2017. Ne všichni, kteří byli v roce 1968 naživu, si ho reálně pamatují. Stanovili jsme hranici 15 let jako dostatečný věk na to, aby člověk plně vnímal tehdejší události. To znamená, že podle našich předpokladů mají plnohodnotné vzpomínky na rok 1968 lidé narození v roce 1953 a dříve. Jejich podíl v současné české populaci je 19,2 %.

Pokud by nás zajímalo, jaký je podíl voličů, můžeme „zahodit“ obyvatele mladší než 18 let. Podíl voličů, kteří si rok 1968 dobře pamatují, je 23,6 %. Vzhledem k nerovnoměrné účasti různých věkových skupin u voleb to ale nic neříká o „volební síle“ těch, kteří rok 1968 zažili a nezažili.

Rok 1989

Když už máme data zpracována, můžeme se podobně podívat na další milník české historie, rok 1989.

Odkazy