Introducción a las variables ficticias o variables dummy

Introducción a las variables ficticias o variables dummy

Las variables ficticias, variables dummy o también conocidas como variables indicadoras son «variables artificiales» creadas para representar un atributo con dos o más niveles o categorías diferentes.

Para entender mejor las variables ficticias, es preciso comprender porqué utilizamos estas variables. El análisis de regresión trata como numéricas a todas las variables independientes del análisis, veámoslas como X. Estas variables numéricas pueden ser de escala, de proporción o de intervalos y por ende sus valores pueden ser comparables, por ejemplo, «4 es el doble que un 2» o «9 menos 1 es igual a 8».

Existen casos en los que es preciso introducir una variable de atributo o una variable de escala nominal como lo puede ser una MARCA o un TIPO DE EFECTO.

Ejemplo de utilización de una variable ficticia

Imaginemos que tenemos 6 tipos de efectos enumerados 1, 2, 3, 4, 5 y 6. En este caso si decimos 4 menos 2 no significa realmente nada, no se puede restar el efecto 2 al efecto 4. Estos números empleados aquí se utilizan para indicar los niveles del tipo de efecto más no tienen un significado intrínseco propio.

Las variables ficticias se utilizan en estos casos para de cierta forma engañar al algoritmo de regresión con la intención de que analice de forma correcta las variables de atributos.

Puntos claves sobre las variables dummy

Algunos aspectos claves a tener en cuenta sobre las variables ficticias son los siguientes:

  • Las variables ficticias asignan los números 1 y 0 como indicativo de pertenencia a cualquier categoría mutuamente excluyente, y exhaustiva y mutuamente excluyente.
  • El número de variables ficticias necesarias para la representación de una única variable de atributo es igual al número de niveles o categorías de esa variable menos uno.
  • Para una variable de atributo determinada, ninguna de las variables ficticias construidas puede ser redundante. Por lo tanto una variable ficticia no puede ser un múltiplo constante o una simple relación lineal de otra.
  • Cuando interactúan dos o o más variables de atributo, por ejemplo estado civil y sexo, deben representarse mediante una tercera variable ficticia que será el producto de las variables ficticias individuales.

2 comentarios sobre “Introducción a las variables ficticias o variables dummy

  1. Hola,tengo una serie de 140 valores de divisas con mucha volatilidad y quisiera saber cómo puedo utilizar las variables dummy para ayudarme en la interpretación de valores futuros.
    Muchas gracias

    1. Hola Blas, las variables dummy son una herramienta muy útil y la forma de usarlas depende de si prefieres un modelo estadístico clásico como ARIMA y GARCH, o un enfoque de machine learning como XGBoost.

      Existen varios tipos de variables dummy. Las estacionales capturan efectos que se repiten en el tiempo, como el efecto de los lunes o la estacionalidad mensual. Las variables centradas en shocks marcan eventos puntuales que afectan a la serie, como anuncios de un banco central, ayudando al modelo a diferenciar la variación normal del mercado de la extraordinaria. Por su parte, las vinculadas a la volatilidad permiten distinguir periodos de alta de los de baja, lo que ayuda a modelos como GARCH. Por último, las de cambio estructural señalan quiebres o cambios significativos en el comportamiento de la serie.

      Para integrar estas variables, se incluyen como regresores adicionales en modelos estadísticos como ARIMAX. En modelos GARCH, se pueden utilizar en la ecuación de la varianza para modelar los choques de volatilidad. En el machine learning, actúan como características categóricas que el algoritmo utiliza para identificar patrones.

      Espero que esta información te sea de gran ayuda.

      Un saludo.

Deja una respuesta

Tu dirección de correo electrónico no será publicada. Los campos obligatorios están marcados con *