A Lei dos Pequenos Números e seus impactos no Design

Como um viés de análise estatística pode afetar a criação de produtos digitais e como (tentar) superá-lo.

Luciano Infanti
UX Collective 🇧🇷

--

Image by David Monje via Unsplash.

Quando usamos dados para o desenvolvimento de produtos o fazemos com um objetivo maior: balizar a tomada de decisão em algo menos subjetivo — talvez exato. O problema é que sem o domínio do vasto corpo de conhecimento que garante parte dessa cientificidade tão desejada, estamos fadados a cair em armadilhas que sequer sabíamos que poderiam existir. Eis mais uma delas.

A Lei dos Grandes Números

A Lei dos Grandes Números (LGN) é um teorema matemático — e para entender porque o chamamos de lei e não teorema procure por Lei Forte dos Grandes Números — que afirma que a média dos resultados obtidos para um grande número de experimentos deve se aproximar do valor teórico esperado — também chamado Esperança Matemática. Isso significa que esses dois valores se aproximam mais conforme se aumenta o número de experimentos.

A LGN basicamente estuda como uma série numérica se comporta quando seu número de experimentos (ou ensaios) tende ao infinito. Uma das consequências dela é o e Teorema do Macaco Infinito. Nenhuma relação com Design mas vale a pena pesquisar pra descobrir oque matemáticos fazem quando estão com insônia.

A LGN garante que — quando satisfeitas certas condições — o resultado experimental irá convergir para o resultado probabilístico teórico.

Um exemplo prático

As definições as vezes podem ser um pouco ríspidas demais. Vamos ver como a coisa se comporta em um exemplo do dia a dia. Simulei dez lançamentos independentes (ensaios) de um dado não viciado.

Figura 1. Lançamento aleatório de dez dados usando Random.org.

Observamos que a média dos valores obtidos no lançamento dos dados foi 5. Sabemos que a média aritmética dos valores possíveis de um dado é (1+2+3+4+5+6)/6=3,5. Por que esses valores são diferentes?

Em um dado não viciado, ou seja, um dado cujas faces apresentam todas 1/6 de chance de caírem para cima, a média dos lançamentos deveria ser próxima de 3,5. Esse é o valor que chamamos de Esperança — é o valor teórico esperado para o experimento, que é fornecido pela Teoria Probabilística.

Mas acontece que o arcabouço matemático usado sempre pressupõe infinitos experimentos independentes, o que não é algo que conseguimos replicar bem no mundo real.

Isso significa que sempre teremos um valor experimental observado um pouco diferente do valor esperado. O quão diferentes vão ser esses números dependerá do número de ensaios feitos.

Figura 2. Visualização da convergência da média observada para a média teórica. Fonte.

A Figura 2 é uma simulação de mil lançamentos de dados que mostra a distribuição média observada conforme se aumenta o número de ensaios. Inicialmente, o valor experimental é bastante diferente do valor esperado, como nosso exemplo onde a média foi 5.

Mas, como podemos observar, esse valor se torna cada vez mais próximo do valor teórico conforme os ensaios aumentam. Se pudéssemos jogar infinitos dados, esses valores seriam exatamente iguais. E é exatamente isso que a LGN diz: os números, a princípio, serão diferentes. Porém, conforme se acumulam os experimentos, o valor observado de 5 irá convergir lentamente até chegar bem próximo de 3,5. Com milhões de experimentos, poderíamos considerar que o valor é, para fins práticos, exatamente 3,5.

A Lei dos Pequenos Números

Assumir que a Lei dos Grandes Números é válida também para pequenas amostragens é o viés de análise estatística que Daniel Kahneman e Amos Tversky chamam de Lei dos Pequenos Números. Eles foram capazes de mostrar em um artigo que essa incapacidade de julgar de forma acurada eventos estatísticos é comum a quase todos nós — mesmo para pessoas com treinamento em matemática ou psicologia.

Basicamente, a Lei dos Pequenos Números diz que vamos tratar experimentos realizados com amostragens muito diferentes de forma igual: os achados de um teste de usabilidade com 5 usuários vão ser tratados como se fossem de um experimento com 5.000 usuários — familiar?

Voltando ao exemplo dos dados, esse viés nos faria acreditar que o valor teórico é 5 (ou próximo disso), porque foi isso que observamos no experimento — ignorando a quantidade inexpressiva de ensaios. Na prática é um excesso de confiança no que foi encontrado.

A Lei dos Pequenos Números diz que vamos tratar experimentos realizados com amostragens muito diferentes de forma igual.

Agora, na Figura 3, temos a mesma situação da figura anterior: o lançamento de um dado não viciado. Já podemos observar que, ao contrário do anterior, nesse ensaio (gerado por um algoritmo), o valor médio observado nunca chegou a 3 — o que já é um bom indício de como a variância amostral pode afetar bastante a média experimental observada em amostragens pequenas.

Figura 3. Visualização da convergência da média observada para a média teórica. Fonte.

Se o pesquisador parasse o estudo com apenas 10 ensaios (linha vermelha contínua), imaginaria que a tendência (linha vermelha tracejada) dos dados é diminuir e que a média está próxima de 3,25 — o que claramente seria um erro já que com apenas mais alguns ensaios iria observar que o valor cresceria.

Acreditar que a média teórica é próxima de 3,25 e que os dados apresentam uma tendência de queda conforme se realizam mais ensaios é o que fazemos no dia a dia quando testamos com 5 usuários e falamos que “a média do tempo de execução da tarefa é 79 segundos, logo todo mundo vai demorar mais ou menos isso”.

Se esse raciocínio parece incongruente no caso de um simples dado, imagine os horrores de tentar aplicá-lo a algo complexo como seres humanos.

Impactos no dia a dia do designer

Vieses de análise estatística e falta de intuição probabilística são comportamentos generalizados e estudados há algum tempo. A maioria deles, porém, como a Falácia de Monte Carlo, não costuma trazer malefícios ao designer moderno (a menos que ele seja também um fã de Blackjack). Infelizmente o mesmo não pode ser dito da Lei dos Pequenos Números.

A seguir, alguns comportamentos identificados por Daniel e Amos aplicados no contexto de pesquisa. Os comportamentos são mais fortes quando aplicados a Testes de Usabilidade e às métricas arrancadas deles mas também encontramos esse viés em testes quantitativos pequenos. Veja se reconhece alguma situação.

1 — Apostar na validação de hipóteses

O designer acredita que os números extraídos de seus testes de usabilidade tem algum valor estatístico, superestimando o poder dos testes. Aposta na validação de hipóteses de pesquisa (que às vezes sequer são enunciados falseáveis sob a luz do experimento proposto) baseadas em amostragens insignificantemente pequenas sem nos darmos conta de que as chances contra a validade do experimento são extremamente altas.

2 — Confiar de forma exagerada em padrões iniciais

Confia de forma indevida em tendências iniciais oriundas de dados dos primeiros testes — exatamente como o pesquisador que parou o estudo com 10 ensaios na Figura 3. Além disso, confia na estabilidade do padrão observado, superestimando a significância dos achados.

Em outras palavras, se vê a média experimental diminuindo para os primeiros testes, logo imagina que este comportamento irá se manter para qualquer extensão que se faça do estudo.

3 — Acreditar demais na replicabilidade dos estudos

A Lei dos Números Pequenos faz com que pessoas apresentem uma alta confiança na replicabilidade dos resultados realizados — basicamente subestimando a importância de intervalos de confiança.

É como se tivéssemos certeza de que ao realizar o mesmo Teste de Usabilidade, encontraríamos exatamente os mesmos resultados, o que na verdade é improvável. Os dois exemplos de experimentos com dados mostram exatamente isso: experimentos com baixas amostragens provavelmente quase sempre terão grandes divergências entre si.

4 —Ignorar a Variância Amostral

O designer que tem sua vida regida pela Lei dos Pequenos Números raramente — ou nunca — atribuí desvios nos resultados obtidos à variância amostral, cujo impacto é menos diluído em amostragens diminutas. Ele sempre encontra uma explicação causal (ou quase isso) para as discrepâncias observadas.

É como já falamos: se os experimentos são tão diferentes para algo simples como um dado, imagine quão pouco controle temos sobre experimentos que envolvem milhões de variáveis — que muitas vezes sequer conhecemos ou consideramos.

E como fazemos para mitigar isso?

Nem sempre temos o luxo de realizar dezenas de Testes de Usabilidade ou fazer pesquisas quantitativa com milhares de usuários. Nesses casos, o melhor a fazer é estar ciente dos vieses envolvidos, estudar para evitar cair nas armadilhas comuns e tomar algumas ações para mitigar os impactos no resultado da pesquisa, que eventualmente guiará o desenvolvimento do produto.

As propostas a seguir não são senão sugestões. Não trago a resposta para esse problema complicado mas sim o que acredito que possa ajudar a mitigá-lo.

1 — Informação complementar via formas de pesquisa alternativas

Preencha as lacunas deixadas pelos Testes de Usabilidade e entrevistas com métodos alternativos. Descubra novas formas de coletar informação sobre o usuário.

Seja um bom cientista: use os dados para tentar destruir suas hipóteses — e não comprová-las. Então, siga com as que sobreviveram.

Observe métricas de comportamento, escute feedback através de todos os pontos de contato da sua empresa com o cliente e fique atento a possíveis mudanças que sejam necessárias.

2 — Melhore o design da amostragem e aumente a variabilidade

A sua amostragem determinará a qualidade máxima da possível análise. Ou seja, a pesquisa começa com o desenho da amostragem. O mundo real é bastante diverso e sua amostra precisa refletir isso. Testar com grupos específicos de renda, idade, comportamento e outros invariavelmente trará consigo seus vieses. Amostragem por conveniência não deve ser a regra. Na impossibilidade de transpor isso, esteja pelo menos ciente e aponte isso no resultado dos estudos.

Chame os extremos do espectro do perfil do seu usuário assim como também chame os perfis que devem compor o núcleo dos seus usuários. Isso provavelmente aumentará a variabilidade da amostra e ajudará a mitigar (alguns dos) problemas de amostragens pequenas.

E claro, estude sobre teoria da amostragem para conhecer mais os vieses por trás dos diferentes desenhos de amostragem.

3 — Refaça testes e controle variáveis

Quando for testar uma nova feature ou fluxo, aproveite pra re-testar aquele Design antigo que já está em produção. Novas pesquisas ajudarão a consolidar os números conseguidos anteriormente.

Sempre que possível, refaça experimentos. Assim você aumenta o corpo de evidência a favor (ou contra) suas soluções.

Além disso, quem sabe você não observa mudanças no comportamentos dos usuários em relação à seu produto e tem novos insights?

4 — Não faça inferências a partir de Testes de Usabilidade

Não devemos parar de fazer Testes de Usabilidade usuários só porque os números que as vezes tentamos arrancar deles não são estatisticamente significantes— não, de forma alguma! Esse tipo de ferramenta é excelente para encontrar falhas de usabilidade ou erros no conceito do produto. Só não podemos nos apropriar do ferramental estatístico de forma descabida pra fingir que o que fazemos nos permite inferir o comportamento de uma população com segurança.

Testes de Usabilidade não servem para inferir comportamentos da população. Não de forma cientificamente confiante. Você só vai criar resistência na equipe para alterar o que precisar ser alterado porque está apegado a meias verdades.

Aquele valor de 28 segundos de tempo médio para completar a tarefa ou aqueles 75% de taxa de sucesso na Tarefa 2 do seu teste com 4 usuários não têm valor estatístico e não podem ser usados para falar do resto dos usuários. Pelo menos não de forma confiante. Se você precisa fazer isso, existem ferramentas e métodos superiores para isso — e que de fato funcionam.

Considerações finais

Talvez o viés da Lei dos Pequenos Números não tenha uma solução única e infalível, mas parece válido (e eu ousaria dizer interessante) conhecê-lo. É como Daniel e Amos dizem em seu artigo:

Mesmo que o viés não possa ser desaprendido, ainda podemos aprender a reconhecer sua existência e tomar as precauções necessárias.

Precisamos estar atentos aos desafios que o Design enfrenta quando colide com outras disciplinas. A vantagem, porém, é que essas disciplinas normalmente já têm um vasto corpo de conhecimento do qual podemos usufruir. Devemos sempre lembrar de estudar o conhecimento como um todo e não ficar na bolha do que já temos familiaridade. Assim, tornamos a disciplina do Design ainda mais forte (e divertida).

Obrigado pelo seu tempo. 👋

--

--