El tamaño de las muestras es una de las decisiones fundamentales a tomar al diseñar la evaluación de una intervención. Cuando las intervenciones tienen efectos multinivel, como es el caso de la formación de maestros o monitores de educación física a cargo de grupos de pupilos, el tamaño de la muestra de pupilos es importante, pero lo es especialmente el tamaño de la muestra a nivel de los grupos en los que se realiza la intervención. Las consideraciones metodológicas basadas en resultados de simulación aconsejan de manera general utilizar entre 50 y 100 grupos de 20 casos cada uno. Este número se puede precisar e incluso reducir hasta 10 clústers de 10 casos cada uno según sean (a) el tamaño del efecto que se quiere probar, (b) el coeficiente de correlación intraclase, (c) el diseño de obtención de datos, (d) la retención de casos prevista, (e) el modelo de análisis de datos, (f) el conocimiento a priori que se puede incorporar en el análisis, (g) el método de estimación y (h) los índices de bondad de ajuste que se planea utilizar. El primer objetivo de esta comunicación consiste en presentar los resultados de una revisión sistemática de 34 estudios sobre la efectividad de intervenciones dirigidas a mejorar constructos contemplados en la SDT y publicados hasta el año 2015 inclusive. En estos estudios se reporta la evaluación de los efectos de diversas intervenciones con base en datos obtenidos en entre 1 y 9 clusters (9 estudios), entre 10 y 42 clusters (15 estudios), entre 58 y 223 clusters (8 estudios), o en un número no reportado de clústers (2 estudios). Nuestro segundo objetivo es analizar la enorme discrepancia entre los consejos derivados de la metodología y los diseños realmente empleados en los estudios para tratar de tender puentes entre ambas prácticas.