📈 pass@k · pass+50% · pass^k

Évaluer un agent / LLM : on génère n échantillons pour une tâche, c sont corrects. Trois questions, trois métriques (estimateurs sans remise, cf. HumanEval) :

$$\text{pass@}k = 1-\frac{\binom{n-c}{k}}{\binom{n}{k}} \quad\; \text{pass+50\%} = \!\!\sum_{j>k/2}\!\frac{\binom{c}{j}\binom{n-c}{k-j}}{\binom{n}{k}} \quad\; \text{pass}^{k} = \frac{\binom{c}{k}}{\binom{n}{k}}$$

pass@k (bleu) — au moins 1 des k essais réussit (best-of-k, suppose qu'on sait choisir le bon). Croît.
pass+50% (vert) — la majorité des k essais réussit → le vote gagne, sans vérificateur. Toujours entre les deux.
pass^k (rouge) — les k réussissent tous d'affilée (fiabilité). Décroît.

Traits pleins = estimateurs sur n échantillons ; pointillés = limite i.i.d. Coche « garder p constant » et augmente n pour voir l'estimateur rejoindre la limite.