Arlette
23-06-2017, 12:53 AM
Tocaremos en esta oportunidad una variable nada sencilla de calcular, pero bien fácil de entender. Se trata del denominado " R²” o “R-cuadrado", es decir el llamado “coeficiente de determinación”.
El coeficiente determina la calidad de una función o modelo para intentar replicar los resultados, dado que el objetivo principal del R-cuadrado es el de predecir futuros resultados, o bien probar una hipótesis.
Pero para poder entender este concepto, antes empecemos por definir qué son los denominados Modelos de Regresión. Estos modelos estudian la relación entre una variable dependiente, objetivo o de interés y un conjunto de variables explicativas de la misma (o llamadas variables independientes). Y para eso, nos tenemos que adentrar en el mundo de los cálculos que pertenecen al mundo de la Estadística.
• Por un lado, puede existir una variable dependiente, o que también es llamada variable de interés, variable respuesta o variable "Y".
• Por el otro, puede existir un conjunto de variables explicativas o independientes, que suelen expresarse como "X1, X2,...,Xn", siendo "n" la cantidad de variables explicativas o independientes.
Podemos encontrar las siguientes situaciones:
1. Existe una relación funcional entre ellas, en el sentido de que el conocimiento de las variables dependientes determina completamente el valor que toma la variable respuesta. Un ejemplo podría ser la relación que existe entre el tiempo (Y) que tarda un auto en recorrer una distancia y dicha distancia (X) a velocidad constante.
2. No existe ninguna relación entre la variable dependiente y las variables explicativas: el conocimiento de estas últimas no proporciona ninguna información sobre el comportamiento de la variable dependiente. Cualquier ejemplo de los más disparatados puede ser elegido: la relación entre la cantidad de alumnos en un aula promedio por país y el precio de la acción de Apple (AAPL).
3. Hay un caso intermedio, en el que existe cierta relación entre la variable dependiente y las variables explicativas, en el sentido de que el conocimiento de estas últimas permite predecir con mayor o menor exactitud el valor de la variable respuesta. Se incorpora en el modelo una variable aleatoria de media cero, al que denominaremos error de observación.
De las tres situaciones anteriores, las relaciones intermedias entre las distintas variables son las que ocurren en la mayoría de los casos.
A modo de ejemplo: ¿cuáles son las variables que explican la inflación? Podemos hablar de la tasa de emisión monetaria, de la expectativa de inflación calculada en base a la proyección del consenso de las encuestas privadas, del uso de la capacidad instalada o de la demanda de dinero, entre otras. Todas ellas contribuyen de alguna manera en la formación del nivel de precios en una economía.
Estos temas se estudian y se cuantifican con los denominados Modelos de Regresión, los cuales estiman una función de regresión determinada, y el modelo probabilístico que sigue el error aleatorio para estimar la función de distribución de la variable de ese error. La función de regresión nos dirá cuál es la relación funcional de la variable dependiente con las variables independientes, que nos permitirá tener una idea general del comportamiento de la variable dependiente en función del comportamiento de las variables independientes.
La estimación de ambas funciones se hace a partir del conocimiento de una serie de datos que sirven de muestra de las variables bajo estudio.
A la diferencia entre el valor observado de la variable y el valor predicho por el modelo (es decir, el error) la llamaremos “residuo”. La media cuadrática de los residuos es la varianza residual:
• Si la varianza residual es cero, el modelo explica el 100% de valor de la variable.
• Si la varianza residual coincide con la varianza de la variable dependiente, el modelo no explica nada y el coeficiente de determinación es del 0%.
En el mundo de las finanzas, el denominado "R-cuadrado" se aplica básicamente a estudiar cuánto del rendimiento de una cartera puede ser explicado a través del rendimiento del mercado en general, o un índice de referencia.
Estadísticamente, el R² puede tomar valores entre 0 y 1: en el caso de que el rendimiento total de una cartera coincidiera exactamente con el del mercado en general o de su índice de referencia, su R-cuadrado sería igual a uno. Si el rendimiento total de una cartera no tuviera relación alguna con los retornos del mercado, el R-cuadrado será cero.
Es decir que indica qué tan “buena” es la correlación, o la explicación de los movimientos entre los dos grupos de variables.
El valor del coeficiente de determinación aumenta cuando se incluyen nuevas variables explicativas o independientes en el modelo. Se incrementa hasta cuando son poco significativas o tienen poca correlación con la variable dependiente.
El coeficiente determina la calidad de una función o modelo para intentar replicar los resultados, dado que el objetivo principal del R-cuadrado es el de predecir futuros resultados, o bien probar una hipótesis.
Pero para poder entender este concepto, antes empecemos por definir qué son los denominados Modelos de Regresión. Estos modelos estudian la relación entre una variable dependiente, objetivo o de interés y un conjunto de variables explicativas de la misma (o llamadas variables independientes). Y para eso, nos tenemos que adentrar en el mundo de los cálculos que pertenecen al mundo de la Estadística.
• Por un lado, puede existir una variable dependiente, o que también es llamada variable de interés, variable respuesta o variable "Y".
• Por el otro, puede existir un conjunto de variables explicativas o independientes, que suelen expresarse como "X1, X2,...,Xn", siendo "n" la cantidad de variables explicativas o independientes.
Podemos encontrar las siguientes situaciones:
1. Existe una relación funcional entre ellas, en el sentido de que el conocimiento de las variables dependientes determina completamente el valor que toma la variable respuesta. Un ejemplo podría ser la relación que existe entre el tiempo (Y) que tarda un auto en recorrer una distancia y dicha distancia (X) a velocidad constante.
2. No existe ninguna relación entre la variable dependiente y las variables explicativas: el conocimiento de estas últimas no proporciona ninguna información sobre el comportamiento de la variable dependiente. Cualquier ejemplo de los más disparatados puede ser elegido: la relación entre la cantidad de alumnos en un aula promedio por país y el precio de la acción de Apple (AAPL).
3. Hay un caso intermedio, en el que existe cierta relación entre la variable dependiente y las variables explicativas, en el sentido de que el conocimiento de estas últimas permite predecir con mayor o menor exactitud el valor de la variable respuesta. Se incorpora en el modelo una variable aleatoria de media cero, al que denominaremos error de observación.
De las tres situaciones anteriores, las relaciones intermedias entre las distintas variables son las que ocurren en la mayoría de los casos.
A modo de ejemplo: ¿cuáles son las variables que explican la inflación? Podemos hablar de la tasa de emisión monetaria, de la expectativa de inflación calculada en base a la proyección del consenso de las encuestas privadas, del uso de la capacidad instalada o de la demanda de dinero, entre otras. Todas ellas contribuyen de alguna manera en la formación del nivel de precios en una economía.
Estos temas se estudian y se cuantifican con los denominados Modelos de Regresión, los cuales estiman una función de regresión determinada, y el modelo probabilístico que sigue el error aleatorio para estimar la función de distribución de la variable de ese error. La función de regresión nos dirá cuál es la relación funcional de la variable dependiente con las variables independientes, que nos permitirá tener una idea general del comportamiento de la variable dependiente en función del comportamiento de las variables independientes.
La estimación de ambas funciones se hace a partir del conocimiento de una serie de datos que sirven de muestra de las variables bajo estudio.
A la diferencia entre el valor observado de la variable y el valor predicho por el modelo (es decir, el error) la llamaremos “residuo”. La media cuadrática de los residuos es la varianza residual:
• Si la varianza residual es cero, el modelo explica el 100% de valor de la variable.
• Si la varianza residual coincide con la varianza de la variable dependiente, el modelo no explica nada y el coeficiente de determinación es del 0%.
En el mundo de las finanzas, el denominado "R-cuadrado" se aplica básicamente a estudiar cuánto del rendimiento de una cartera puede ser explicado a través del rendimiento del mercado en general, o un índice de referencia.
Estadísticamente, el R² puede tomar valores entre 0 y 1: en el caso de que el rendimiento total de una cartera coincidiera exactamente con el del mercado en general o de su índice de referencia, su R-cuadrado sería igual a uno. Si el rendimiento total de una cartera no tuviera relación alguna con los retornos del mercado, el R-cuadrado será cero.
Es decir que indica qué tan “buena” es la correlación, o la explicación de los movimientos entre los dos grupos de variables.
El valor del coeficiente de determinación aumenta cuando se incluyen nuevas variables explicativas o independientes en el modelo. Se incrementa hasta cuando son poco significativas o tienen poca correlación con la variable dependiente.