Cómo validamos
Metodología
La pregunta no es si una estrategia funcionó en el pasado, sino si funcionará con datos que nunca vio. Esta es la lógica con la que la evaluamos — los métodos y los principios, no la calibración.
El problema: un buen backtest no es una buena estrategia
Una estrategia puede verse rentable solo porque se ajustó a los datos del pasado. Si pruebas suficientes variantes — parámetros, reglas, marcos temporales — alguna parecerá excelente por puro azar. Eso es sobreajuste: confundir un patrón que memorizó la historia con una ventaja que se repetirá. Con datos nuevos, la estrategia sobreajustada falla, y esa es la diferencia entre pasar en demo y sobrevivir en condiciones reales.
El ciclo sano de desarrollo es idea → backtest → validar → decidir. El backtest propone; la validación dispone. Nuestro trabajo es la tercera etapa: someter el resultado del backtest a pruebas diseñadas para distinguir señal de ruido, antes de que arriesgues capital.
Validar con datos que la estrategia nunca vio
El antídoto contra el sobreajuste es evaluar fuera de muestra (out-of-sample): medir el desempeño sobre datos que no participaron en el diseño ni en el ajuste de la estrategia. Una variante de esto es el análisis walk-forward, que avanza en el tiempo y vuelve a probar de forma sucesiva, imitando cómo operaría la estrategia en la práctica. Si la ventaja desaparece fuera de muestra, no era una ventaja.
Los métodos
Describimos aquí los conceptos centrales. Son métodos publicados y revisados; no incluimos fórmulas con constantes ni la calibración del sistema.
Deflated Sharpe Ratio (DSR)
El ratio de Sharpe mide el rendimiento ajustado por riesgo, pero es fácil de inflar: si pruebas muchas configuraciones y te quedas con la mejor, ese Sharpe «ganador» está sesgado por la propia búsqueda. El Deflated Sharpe Ratio corrige ese sesgo — descuenta el efecto de haber probado múltiples variantes y la no-normalidad de los retornos — para estimar si la ventaja es real o un artefacto de la selección.
Probabilidad de sobreajuste del backtest (PBO)
La probabilidad de sobreajuste del backtest responde una pregunta incómoda: si una configuración fue la mejor dentro de la muestra, ¿qué probabilidad hay de que sea apenas mediocre fuera de ella? Una probabilidad alta es la firma del sobreajuste — el desempeño in-sample no sobrevive cuando cambian los datos.
Validación cruzada purgada con embargo (CPCV)
La validación cruzada combinatoria purgada prueba la estrategia sobre muchas combinaciones de tramos de entrenamiento y de prueba, en lugar de una sola división. Para que la prueba sea honesta con series temporales, purga las observaciones que se solapan en el tiempo con el tramo de prueba e impone un embargo: descarta un margen alrededor de cada tramo para evitar que información cercana en el tiempo se filtre y haga ver la validación mejor de lo que es.
Estrés por régimen y aislamiento de componentes
Una estrategia puede verse sólida en promedio y desplomarse en condiciones específicas. Por eso evaluamos su desempeño en distintos contextos de mercado — en particular, regímenes de alta y baja volatilidad — en lugar de un único número agregado. Y cuando una estrategia combina varios componentes, los aislamos para distinguir cuáles aportan ventaja real y cuáles son ruido que sobrevivió por casualidad. El certificado refleja estos controles en su sección de estado, sin exponer los umbrales internos.
Evaluación por tiers, estilo agencia de calificación
El resultado se expresa en una banda — Robusta, Robustez Condicional, Robustez Limitada o No Robusta — y en un Score de Robustez de 0 a 100. La banda es pública; la calibración que la determina, no. Publicar la escala y reservar la calibración es deliberado, y es el mismo principio de una agencia de calificación: el mercado necesita entender qué significa cada nivel, pero la integridad del sistema depende de que los umbrales exactos no sean optimizables desde afuera. Por eso los cortes entre bandas, los pesos de cada dimensión y los umbrales de cada control no se publican.
Independencia y grado de auditoría
Aplicamos al ámbito retail el mismo principio que la due diligence operacional (ODD) del mundo institucional: una revisión independiente, realizada por un tercero que no tiene posición en el resultado. No operamos estrategias, no vendemos cuentas de fondeo ni evaluaciones de challenge, y no cobramos en función del veredicto. Validamos con el registro de operaciones — no con tu código ni con los parámetros que te dan la ventaja. Tu estrategia es confidencial y sigue siendo tuya.
Reproducibilidad
Cada certificado incluye un Hash de Reproducibilidad: una huella criptográfica del veredicto y de las entradas que lo produjeron. Con las mismas entradas, el sistema produce el mismo veredicto y el mismo hash. Eso convierte al certificado en algo verificable, no en una opinión: se puede confirmar que el documento no se alteró después de emitirse.
Marco de referencia
Nuestra metodología se apoya en trabajo académico publicado, en particular el de Marcos López de Prado: el Deflated Sharpe Ratio (Journal of Portfolio Management, 2014) y los métodos de detección de sobreajuste y validación cruzada purgada descritos en Advances in Financial Machine Learning (Wiley, 2018). Citamos los métodos; no reproducimos calibraciones ni parámetros propios.