Two Big Eggs: Jak zamíchat řádky v Excelu: Postup pro randomizaci dat

V Excelu si můžete řádky řadit podle milionu kritérií, která se dokonce dají i vrstvit. Excel však bohužel nenabízí možnost řádky zamíchat náhodně. Když tak chcete udělat marketingový pokus – například rozdělit si emailové adresy na tři různé skupiny a poslat na ně newslettery v různé dny – je vám Excel na prd. Po letech zoufalosti jsem konečně vynalezl postup, jak řádky uspořádat náhodně.

Pozn. 1: Jistě jsou i elegantnější řešení problému. Pokud umíte programovat, uděláte si na to jednoduchý skript. Pravděpodobně také existují online nástroje, které udělají to stejné za méně času. Problém ale nastává, když programovat neumíte a/nebo máte v ruce data, která byste nechtěli (a vlastně ani neměli) nechat běhat po síti – např. osobní údaje z emailové databáze.

Pozn. 2: Pokročilé emailingové systémy implicitně umí vaši databázi náhodně segmentovat. Níže uvedený postup se ale dá uplatnit obecně. Chcete náhodně rozřadit participanty do experimentální a kontrolní skupiny? Chcete udělat A/B testing direct mailu? Chcete vybrat náhodných 5 % vašich zákazníků, kterým pošlete dotazník zjišťující jejich spokojenost? Všude tam se dá postup uplatnit.

Jak zamixovat řádky v Excelu

1. Vytvoříme pořadová čísla

Otevřeme naši tabulku v Excelu a podíváme se, kolik máme řádků, které chceme mixovat.
(Data mohou být sařazena podle libovolného kritéria - třeba podle abecedy.)
Do tabulky vložíme nový prázdný sloupec.
Do prvního řádku vepíšeme číslo 1.
Uchopíme pravý dolní roh buňky s číslem 1 a za současného držení klávesy ALT roztáhneme čísla až do posledního řádku tabulky.
Všechny čísla nakopírujem do schránky (CTRL+C).

2. Použijeme randomizátor random.org

Vejdeme na stránku http://random.org/lists.
Nakopírujeme tam čísla z tabulky.
Stiskneme tlačítko randomize, načež se čísla náhodně rozháží.

Pomocí nástroje random.org zamixujeme až 10 000 čísel

3. Vykopírujeme sloupec ze zdrojového kódu a zbavíme náhodně seřazená čísla HTML značek

Nyní se postup stává trochu geeky, ale nebojte se, znalost HTML není nutná.

Zobrazíme si zdrojový kód stránky (Např. v Safari: Develop-->Show Page Source).
Najdeme si v něm sloupec s náhodně seřazenými čísly a zkopírujeme i s HTML tagy do Wordu
Ve Wordu použijeme funkci "vyhledat a nahradit k odstranění tagů <li> a </li>. (Teoreticky bychom tam mohli tagy i nechat, ale potom by se při vložení zpět do Excelu chovala jako text, což by při seřazení vytvořilo posloupnost 1, 10, 100, 101 (...), 109, 11, ...).

Náhodně seřazená čísla vykopírujeme ze zdrojového kódu

Nepotřebné HTML tagy odstraníme pomocí Wordu

Ve Wordu najdeme všechny tagy <li> a </li> a nahardíme je "ničím"

4. Očištěný sloupec nahrajeme zpět do původního Excelu a celý sešit seřadíme vzestupně

V Excelu vytvoříme nový sloupec.
Vkopírujeme do něj čísla očištěná od tagů.
Celý sešit seřadíme podle nového sloupce vzestupně, čímž se náhodně zamixovaná čísla seřadí a zbytek tabulky náhodně rozmixuje.

Tadá. Máme náhodně seřazené řádky. Nyní si můžeme data rozdělit na libovolný počet stejně velkých dílů (nebo si vybrat subpopupaci z celého vzorku) a začít s experimenty. Přeji hodně zábavy. Dejte si při tom ale pozor na velikost vzorku. Obvykle nemá smysl experimenty dělat, pokud nemáte aspoň stovky pozorování.

A teď schválně: Kdo zná úspornější systém, jak řádky randomizovat?