Skočit rovnou dolů na aplikaci
V souvislosti s aktuální pandemií Covid-19 dostávám čas od času otázky typu „Byl(a) jsem na večírku (party/svatbě), bylo tam 200 lidí, jaká je pravděpodobnost, že tam byl někdo pozitivní?“
Je to (s mnoha ALE) hezká rozcvička na binomické rozdělení.
Do mé kalkulačky (Shiny aplikace) můžete zadat datum, kdy jste na akci byli a kolik tam bylo lidí. Aplikace si „sama“ z webu Ministerstva zdravotnictví stáhne počet aktivních případů daný den, z něj spočte četnost případů v české populaci a pomocí binomického rozdělení spočítá, jaká je pravděpodobnost, že na akci s daným počtem účastníků, byl žádný, jeden, dva, …, deset nakažených.
ALE
Aplikace předpokládá náhodný výběr účastníků z celé české populace. To znamená, že každý obyvatel ČR, bez ohledu na věk a konkrétní místo pobytu, měl stejnou pravděpodobnost, že se akce účastnil. Večírky nebo svatby nejsou ten případ.
- Na večírky chodí (alespoň do jisté míry) lidé, kteří se znají. Takže pokud je mezi nimi jeden pozitivní, je pravděpodobnost někoho dalšího pozitivního jistě větší.
- Na večírky chodí spíše mladší lidé. Aktuálně je četnost pozitivních mezi nimi větší než v celé populaci.
- Večírky v Praze jsou jistě rizikovější než večírky v Trnávce.
- Aktuálně uváděný počet nemocných není aktuální počet infikovaných v populaci (ten je možná až násobně větší). Je to jenom počet pozitivně testovaných minus vyléčení a mrtví.
Alespoň řádový odhad ale snad aplikace dává. A téměř jistě počet pravděpodobně infikovaných podhodnocuje.
Jak číst grafy?
Pokud do aplikace zadáte, že jste 12. září 2020 byli na akci, kde bylo 500 lidí, dostanete následující obrázek:
Z něj se dozvíte, že s pravděpodobností 53 % na akci nikdo infikovaný nebyl. Právě jeden infikovaný tam byl s pravděpodobností 34 %, dva s pravděpodobností 11 % a tak dále. V součtu to dá 100 %.
Všimněte si, že v aktuální situaci (12. září 2020) se až u akcí s počtem účastníků kolem 800 srovnává pravděpodobnost, že tam nebude žádný nakažený s pravděpodobností, že tam bude právě jeden. Obojí cca 37 %.
Aktualizace (14. září 2020)
Většina mé bubliny žije v Praze, tak jsem dodělal variantu, kdy je možné provést stejný výpočet pro Prahu. Princip je stejný. Situace v Praze pochopitelně vychází hůře než pro celou ČR.
Problém je, že data podle jednotlivých krajů na webu ministerstva mají zpoždění. Aktuálně jsou do 6. září.
Aktualizace (22. září 2020)
Aby kalkulačka nebyla jen pro pražskou kavárnu, rozšířil jsem ji, a je možné vybrat libovolný region (kraj) v ČR. Data pro regiony mají na webu Ministerstva zdravotnictví podle všeho vždy týden zpoždění za daty pro celou ČR, takže v současné době rychlého růstu pozitivních případů má informace o regionálním riziku jen omezený význam.
Dále přibyla možnost nakreslit si vývoj rizika, že na akci o daném počtu účastníků potkáte někoho pozitivního (alespoň jednoho nebo libovolně více), v čase. Je to možné jen pro celou ČR.
Úvahy o kontextu
Pokud vám vyjde pro vaši akci pravděpodobnost 90 % (tj. 0,9), že tam nikdo nakažený nebyl, nenechte se ukolébat. Pokud vezmeme takových podobných akcí 10, je pravděpodobnost, že na žádné z nich nikdo nakažený nebyl 0,910 = 0,35. To znamená 65 % pravděpodobnost, že alespoň na jedné z 10 obdobných akcí někdo nakažený byl. (Statistici odpustí jisté zjednodušení v úvaze.)
Ve Šťastném pondělí jsem slyšel ministra plukovníkat říkat, že svatby by se měly omezit na 30 lidí. Když spočtete riziko výskytu alespoň jednoho pozitivního účastníka svatby, která byla v neděli 20. září a bylo na ní 30 (ve statistickém smyslu z populace náhodně vybraných) hostů, vyjde vám cca 6 %. Pro svatbu se 40 hosty to bude 8 % a pro svatbu s 50 hosty dostaneme 10 %. Zajímalo by mě, jaká super stratifikovaná data má a jaké statistické metody plukovník používá, protože proč by riziko 6 % mělo být přijatelné a 8 % už ne, to nevím.
Zdroje