Para mí criterio (no quiero generalizar) lo único que le hace perder una "total validez" si nos ponemos objetivamente meticulosos es que con 5 muestras con posibilidad AB o BA (si no he entendido mal la comparativa) no se elimina por completo el factor azar... es decir, puedes acertar el resultado de las 5 pistas sin necesidad siquiera de escucharlas según estadísticas (aunque también sería tener cierto nivel "de suerte", o "más suerte" que si el número de muestras a probar fueran menores y también acertáramos todas)... ya que para eliminar totalmente el azar se necesita al menos un acierto mínimo de 9 en 10 intentos (que no tiene equivalencia o comparación alguna con acertar 5 de 5, 4 de 4, 3 de 3, o un número menor de muestras). Aquí dejo también el offtopic por mi parte sobre la validez o no de la prueba.
Aún así, acertar 5 de 5 ya tendría "cierta relevancia".
Por supuesto, mi admiración a pablopi por la iniciativa y el tiempo que se por experiencia requieren estos tipos de pruebas (pocos hemos planteado pruebas similares y creo sinceramente que a parte de la trabajera son interesantísimas).
Un saludete