É P, M ou G? Aprimorando o uso da escala Fibonacci na medição do esforço de tarefas do Sprint

young-confident-scientist-pointing-at-magnified-mi-2021-12-23-00-20-18-utc (1)

Nos últimos 3 anos, temos utilizado metodologia ágil no desenvolvimento de projetos de biotecnologia. Um dos principais desafios é a atribuição de um valor para o esforço necessário para o desenvolvimento de uma tarefa.

Havíamos aprendido com Jeff Sutherland em ‘Scrum – a arte de fazer o dobro de trabalho na metade do tempo’; que nosso cérebro é muito ruim em atribuir um valor absoluto a uma tarefa, como número de horas (o que estava totalmente de acordo com nossa experiência prévia), e sim trabalhar com escalas comparativas. Nas palavras dele:

Então, você tem uma lista de coisas que precisam ser feitas, e você já priorizou cada item. Agora, o trabalho é descobrir quanto esforço, tempo e dinheiro serão necessários ao projeto. Conforme eu já disse antes, nós, seres humanos, somos absolutamente péssimos nisso, mas, ao que tudo indica, somos bons em classificação relativa por tamanho — comparar um em relação ao outro. Considere, por exemplo, estimar a diferença entre camisetas pequenas, médias e grandes.”

Ele avança com algumas formas de atribuir valores comparativamente, até chegar a escala Fibonacci. No livro, ele da algumas razões extras para usarmos essa escala.

“Mas talvez você tenha notado aí um padrão nos números que defini: 1, 3, 5, 8, 13. Cada número na série é a soma dos dois números anteriores. Chama-se sequência de Fibonacci, e há um motivo por que a usamos. Ela está em todos os lugares.”

“Os humanos são programados para achar as proporções atraentes. Para o nosso objetivo, tudo o que é importante saber é que a nossa espécie tem uma profunda compreensão das proporções da sequência de Fibonacci. Nós a conhecemos de forma intuitiva.”

“Os números na sequência de Fibonacci se distanciam de forma suficiente para que possamos sentir facilmente a diferença. É fácil para alguém tender a um lado ou a outro. Se uma pessoa estima algo como cinco, e outra como oito, conseguimos ver a diferença de forma intuitiva. Mas a diferença entre cinco e seis? É bastante sutil, mais sutil do que o nosso cérebro consegue registrar.”

“Na medicina, sabe-se muito bem que, para um paciente reportar que notou uma melhora em um sintoma, essa diferença tem de ser maior que 65%. A nossa mente não trabalha em incrementos estáveis. Somos melhores em perceber saltos de um estado para outro — e não saltos estáveis, mas sim irregulares.”

Ele encerra com a conclusão de que a Fibonacci e a melhor escala.

“Usar a sequência de Fibonacci para calcular o tamanho de uma tarefa permite que façamos estimativas que não precisam ser 100% exatas. Nada será exatamente um cinco, um oito ou um 13, mas, ao usar esses números, temos maneiras de colher opiniões acerca do tamanho de uma tarefa na qual todos estão usando mais ou menos a mesma unidade de medida, e, dessa forma, conseguimos formar um consenso.

Fazer estimativas em grupo dessa forma é uma maneira de obter uma previsão bem mais precisa do que se tivéssemos de fazê-las sozinhos.”

E então partimos direto para a escala Fibonacci como métrica de esforço

Como Jeff antecipa no livro, um dos grandes desafios do uso da escala é que todos tenham o mesmo parâmetro. Ele sugere que isso seja resolvido com o “Pôquer do planejamento”.

“A ideia é simples. Cada pessoa tem um baralho de cartas com aqueles números superinteressantes de Fibonacci — 1, 3, 5, 8, 13 e assim por diante. Cada item que precisa ser estimado é levado à mesa. Então, todos puxam a carta que acreditam representar o esforço necessário para concluí-lo e a colocam em cima da mesa com o número voltado para baixo. Todos viram suas cartas ao mesmo tempo”

“Se todo mundo está a uma carta de diferença do outro (digamos, um 5, dois 8 e um 13), a equipe apenas soma os resultados e tira a média (naquele caso, 6,6) e segue para o outro item. Lembre-se de que estávamos falando de estimativas, não cronogramas blindados. E estimativas em pequenas partes do projeto.”

“Se os números das cartas mostrarem uma diferença superior a três, as pessoas com as cartas mais altas e as mais baixas falam sobre o motivo por que acreditam que o seu número é o adequado. Então, fazemos uma nova rodada para a mesma tarefa. Caso contrário, eles só fazem a média das estimativas que irão se aproximar dos números aos quais aqueles estatísticos da Rand Corporation chegaram.”

“Esse método incrivelmente simples é um modo de evitar qualquer tipo de comportamento de ancoragem, tais como os efeitos manada ou halo, e permite que toda a equipe compartilhe conhecimento sobre uma tarefa específica.”

“Contudo, é crucial que você esteja com a equipe que realmente vai executar o trabalho para fazer as estimativas”

O poker ajuda a criar um consenso intuitivo, mas se escapamos um pouco da área de especialidade das pessoas, as variações entre o Fibonacci se tornam gigantescas. Isso começou a virar, mais que um desafio, um impeditivo para o uso da escala na estimativa de esforço.

Será que o esforço poderia ter uma métrica absoluta? Será que poderíamos alinhar melhor a percepção de esforço entre as pessoas?

Pensei que usar uma métrica com granularidade maior, talvez ajudasse nesse alinhamento. Uma métrica com menos opções. E com as quais as pessoas tivessem mais familiaridade. Afinal, como fazer uma medição de esforço por comparação se não temos clara a comparação? No livro, a primeira métrica que Jeff comenta, do tamanho das camisetas, P, M ou G, atende esse critério.

Além disso, essa escala tem a vantagem da familiaridade: todo mundo compra camisetas, sabe seu tamanho e pode estimar facilmente o tamanho de camiseta dos seus amigos (por exemplo para comprar um presente de aniversário). Essa métrica tem outra vantagem: 90% das observações se encaixam nela. Sim, podemos ter o PP, o GG ou até o GGG, mas se imaginarmos que os problemas, como camisetas de pessoas, tem uma distribuição normal, então essas observações estão para além dos 2 desvios padrões da média.

Será que conseguimos associar os números Fibonacci a escala PMG? Eu resolvi fazer esse exercício.

As tarefas fáceis, tarefas P, são Fibonacci 2 a 5. Isso torna as tarefas Fibonacci 1, muito fáceis, pontos fora da curva, ou PP. As tarefas 8 e 13 são tarefas médias. Tarefas 21 são tarefas difíceis. Tarefas 34 são tarefas muito difíceis GG e tarefas 55 são tarefas muito, muito difíceis GGG. Veja que ainda que possamos pensar em tarefas 89 ou números ainda mais altos na escala fibonacci, mas mais provável que elas possam ser quebradas em tarefas menores, que caibam em um dos outras categorias.

O resultado seria como o gráfico abaixo, com a frequência de tarefas no eixo do Y e a estimativa de esforço nas escalas Fibonacci e PMG no eixo do X. A curva é assimétrica com uma concentração maior de tarefas de baixo esforço e uma longa cauda de tarefas de alto esforço.

Esse gráfico é bastante representativo da minha lista de tarefas e acho que pode ajudar outros a melhor atribuir esforço as suas. Mas preciso fazer 3 considerações finais:

A primeira é que eu desenvolvi uma métrica absoluta de tempo para as tarefas fáceis e muito fáceis que, por comparação, me ajudaram a balizar as tarefas médias e difíceis. A maior parte das minhas atividades diárias são tarefas Fibonacci 2. Elas estão envolvidas com a produção de conteúdo, que pode ser uma resposta de e-mail, uma correção em uma proposta, a análise de um resultado. Elas levam em torno de 1h e em geral todo material que necessito está a mão. As tarefas que necessitam que eu me desloque ou que eu primeiro busque as informações necessárias em algum lugar que eu não sei qual é (ou uma informação que eu não sei se existe), e por isso podem durar de 3-24h, são tarefas 3. Um post de blog como esse, que requer vários dias de pesquisa e redação, pode chegar a ser uma tarefa 5. Da mesma forma, posso fazer uma tarefa bem simples, como uma ligação ou um e-mail para esclarecer uma dúvida pontual ou alinhar uma expectativa. Duram 15 min e teriam Fibonacci 1. Quase não contabilizo essas atividades. Talvez devesse, mas meu sentimento é que o ganho de produtividade com o registro e contabilização seria irrelevante. Tarefas ainda menores que essas, como olhar uma data no calendário, definitivamente não valem o esforço de contabilizar.

A segunda, e muito importante, é que é possível que exista sobreposição entre as tarefas de Fibonacci alto e baixo. Algumas atividades de fibonacci baixo na sua lista de tarefas podem ser na verdade sub-tarefas de uma tarefa de Fibonacci alto. Então o número total de pontos Fibonacci na sua lista de coisas para fazer em um determinado momento pode estar superestimado mais frequentemente que subestimado.

A terceira, mas não menos importante, é o impacto dessa métrica de esforço na precificação do seu tempo ou serviço. Nem todo o preço é uma medida direta do esforço, porque o conhecimento tende a reduzir o esforço necessário para executar uma tarefa, mas aumenta o seu custo de oportunidade. Por isso, os 5 min que você leva para executar uma tarefa, não porque ela seja fácil (e poderia ser executada por qualquer outra pessoa), mas porque ela é muito difícil e você acumulou conhecimento e experiência para executa-la rápido, custam muito mais do que os 5 min para executar uma tarefa fácil. Mas vamos deixar essa discussão para outro texto.

É P, M ou G? Aprimorando o uso da escala Fibonacci na medição do esforço de tarefas do Sprint

Receba novidades sobre a Bio Bureau