DISTRIBUCIONES BIDIMENSIONALES

REGRESIÓN Y CORRELACIÓN 


 

  1. INTRODUCCIÓN

  2. DISTRIBUCIONES BIDIMENSIONALES

  3. IDEA DE CORRELACIÓN

  4. NUBE DE PUNTOS O DIAGRAMA DE DISPERSIÓN

  5. CORRELACIÓN LINEAL Y RECTA DE REGRESIÓN

  6. MEDIDA DE LA CORRELACIÓN

  7. ESTIMACIÓN MEDIANTE LA RECTA DE REGRESIÓN

  8. EJERCICIOS

INTRODUCCIÓN

Si sobre una población de niños entre 0 y 6 años, estudiamos las variables peso y estatura, esperamos que en general ocurra que a mayor estatura también encontremos mayor peso, aunque es posible que en algunos pocos casos no ocurra así.

Vemos que existe una relación entre las dos variables, aunque no es funcional, o sea, no puedo determinar con exactitud el peso que corresponderá a cada estatura.

En este tema trataremos de describir y medir con parámetros este tipo de relaciones, que aparecen en gran cantidad de problemas.

 

Volver al índice


DISTRIBUCIONES BIDIMENSIONALES

Cuando sobre una población estudiamos simultáneamente los valores de dos variables estadísticas, el conjunto de los pares de valores correspondientes a cada individuo se denomina distribución bidimensional.

Ejemplo 1:

Las notas de 10 alumnos en Matemáticas y en Lengua vienen dadas en la siguiente tabla:

MATEMÁTICAS

2

4

5

5

6

6

7

7

8

9

LENGUA

2

2

5

6

5

7

5

8

7

10

Los pares de valores {(2,2),(4,2),(5,5),....,(8,7),(9,10)}, que corresponden cada uno de ellos a un individuo, decimos que forman una distribución bidimensional.

 

Volver al índice


IDEA DE CORRELACIÓN

Es frecuente que estudiemos sobre una misma población los valores de dos variables estadísticas distintas, con el fin de ver si existe alguna relación entre ellas, es decir, si los cambios en una de ellas influyen en los valores de la otra. Si ocurre esto , decimos que las variables están correlacionadas, o bien que hay correlación entre ellas.

En el ejemplo anterior parece que hay cierta tendencia a que cuanto mejor es la nota en Matemáticas, mejor es la de lengua.

Volver al índice


NUBE DE PUNTOS O DIAGRAMA DE DISPERSIÓN

La primera forma de describir una distribución bidimensional es representar los pares de valores en el plano cartesiano. El gráfico obtenido recibe el nombre de nube de puntos o diagrama de dispersión.

Ejemplo 1:

Notas de Matemáticas y Lengua

Volver al índice


CORRELACIÓN LINEAL Y RECTA DE REGRESIÓN.

Cuando observamos una nube de puntos podemos apreciar si los puntos se agrupan cerca de alguna curva. Aquí nos limitaremos a ver si los puntos se distribuyen alrededor de una recta. Si así ocurre diremos que hay correlación lineal. La recta se denomina recta de regresión.

Hablaremos de correlación lineal fuerte cuando la nube se parezca mucho a una recta y será cada vez más débil (o menos fuerte) cuando la nube vaya dispersándose con respecto a la recta.

Cuando la recta es creciente la correlación es positiva o directa ( al aumentar una variable, la otra tiene también tendencia a aumentar). Cuando la recta es decreciente la correlación es negativa o inversa ( al aumentar una variable, la otra tiene tendencia a disminuir).

 

Ejemplo 1:

En el siguiente gráfico observamos que , en nuestro ejemplo, la correlación es bastante fuerte, ya que podemos dibujar una recta que esté muy próxima a los puntos de la nube.

 

En este ventana gráfica se muestra la nube de puntos correspondiente al ejemplo de las calificaciones de 10 alumnos en dos asignaturas.

Aparece también el "centro de gravedad "de la nube o punto cuyas coordenadas son las medias x , y de las variables, también llamadas medias marginales.

Observa además el valor de las desviaciones típicas Sx, Sy llamadas desviaciones típicas marginales.

Modifica la posición de los puntos con las flechas que aparecen en la parte inferior de la escena y observa el efecto en los valores de  las medias y desviaciones típicas. También puedes situar el cursor del ratón sobre los puntos y arrastrar sin soltar hasta la posición deseada. Si pulsa el botón inferior "inicio" recuperarás la distribución inicial. Si al modificar algún punto desaparece de la escena puedes hacer un zoom con las flechas de la línea superior de la ventana.

 

Ejemplo 2:

Una persona se entrena para obtener el carnet de conducir repitiendo un test de 50 preguntas. En la gráfica se describen el nº de errores que corresponden a los intentos realizados.

Observa que hay una correlación muy fuerte (los puntos están "casi" alineados) y negativa (la recta es decreciente).

 

Actividad :

Calcula en el gráfico anterior, el centro de gravedad de la nube de puntos y el valor de las desviaciones marginales.Anota los resultados en el cuaderno.

 

Ejemplo 3:

A 12 alumnos de un centro se les preguntó a qué distancia estaba su residencia del Instituto, con fin de estudiar si esta variable estaba relacionada con la nota media obtenida. Se obtuvieron los datos que figuran en la siguiente tabla:

 

Distancia (en km)

0,05

0,1

0,12

0,4

0,5

0,7

1

1,2

2,1

2,5

3

3

Nota media

8,4

4

5,7

9,1

6,3

6,7

4,3

5,4

7,8

4,5

7,2

8,1

Observamos una nube de puntos que no nos sugiere ninguna recta concreta, porque la correlación es prácticamente inexistente, es decir, no tiene nada que ver con el rendimiento académico la distancia del domicilio al instituto.

Volver al índice


MEDIDA DE LA CORRELACIÓN

La apreciación visual de la existencia de correlación no es suficiente. Usaremos un parámetro, llamado coeficiente de correlación que denotaremos con la letra r, que nos permite valorar si ésta es fuerte o débil, positiva o negativa  

El cálculo es una tarea mecánica, que podemos realizar con una calculadora ó un programa informático,utilizando un proceso con las siguientes fórmulas :

1)Cálculo de las medias:

      mediax                                       mediay

2)Cálculo de las desviaciones típicas:

      desviacion x                         desviacion y

3)Cálculo de la covarianza:

      covarianza

4)Cálculo de la correlación:

      correlacion

 

Nuestro interés está en saber interpretar los resultados obtenidos. Por ello antes de ponernos a trabajar destacaremos una de sus principales propiedades

-1 < r < 1

 

Actividad :

A continuación tienes unos ejes con una nube de puntos que puedes modificar haciendo clic sobre ellos con el ratón y arrastrándolos. No tengas miedo de equivocarte, siempre puedes volver a la posición inicial pulsando el botón inicio. Las coordenadas de los puntos las puedes saber con aproximación haciendo clic en cualquier punto del plano y arrastrando hasta colocarte encima del punto.

Observa el valor de r, así como el ajuste de la nube a la recta. Intenta deducir las propiedades de r, relacionando su valor con la forma de la nube y realizando los siguientes ejercicios.

  1. Acerca los puntos a la recta. ¿Hacia qué valor se aproxima r?

  2. Aleja los puntos de la recta, separándolos entre sí ¿Hacia qué valor se aproxima r?

  3. Mueve los puntos hasta que la recta tenga pendiente negativa, es decir, sea decreciente. En estas condiciones contesta a las preguntas anteriores.

  4. Si alineas todos los puntos ¿Qué valor  aproximadamente toma r?

Anota tus conclusiones en tu cuaderno; puedes ayudarte con el siguiente esquema:

 

Valor de r

Tipo de correlación

 

Nube de puntos

muy fuerte; fuerte; débil;muy débil; inversa; directa

r>0

r próximo a 1

 

Muy fuerte

directa

 

 

r>0

r próximo a 0

   

Muy debil

directa

  

  

r< 0

r próximo a -1

 

Muy fuerte

inversa

 

r< 0

r próximo a 0

  

Muy debil

inversa

 

|r|=0,5

 

 

 

|r|=0,3

 

 

 

Volver al índice


ESTIMACIÓN MEDIANTE LA RECTA DE REGRESIÓN

Es evidente que no todos dibujaríamos exactamente la misma recta para una nube de puntos, aunque la correlación fuera bastante fuerte.

De todas las rectas posibles se ha elegido como la mejor aproximación la llamada de los mínimos cuadráticos. Para calcularla se utiliza la fórmula:

     recta de regresion

La recta de regresión sirve para hacer estimaciones o previsiones, teniendo en cuenta que:

  • Los valores obtenidos son aproximaciones en términos de probabilidad: es probable que el valor correspondiente a x0 sea y0.
  • La fiabilidad es mayor cuanto más fuerte sea la correlación.
  • La fiabilidad aumenta al aumentar el número de datos.
  • La estimación es más fiable para los valores próximos a la media.

Ejemplo 1:

Con los datos del primer ejemplo, (las notas de 10 alumnos en Matemáticas y en Lengua), podemos contestar con aproximación a la siguiente cuestión: si un alumno no realizó el examen de lengua, pero sí el de matemáticas, obteniendo un 7, ¿qué nota cabe esperar que obtuviera en lengua?

MATEMÁTICAS

2

4

5

5

6

6

7

7

8

9

LENGUA

2

2

5

6

5

7

5

8

7

10

Observa el punto amarillo, cuya abscisa corresponde a la nota de matemáticas y su ordenada a la nota que esperamos que tenga en lengua. El resultado es aproximado y relativamente fiable, ya que la correlación es fuerte y el valor de la nota no está muy próximo a la media, aunque el nº de datos que tenemos no es muy alto.

 


 

EJERCICIOS

 

Calcula el valor de la correlación y la recta de regresión, comprobando e interpretando los resultados obtenidos .

1)Distribuciones bidimensionales con frecuencias

Considera la siguiente distribución bidimensional donde se incluyen en la última fila las frecuencias. Modifica los valores de la última fila de la siguiente ventana gráfica y observa el resultado tanto gráfico como numérico.

 

A

B

C

D

E

F

G

H

I

J

X

2

3

4

5

6

6

7

7

8

10

Y

1

3

2

4

4

6

4

6

7

9

Fi

1

1

3

4

4

2

3

1

1

1

 

 

2)Calificaciones de varios alumnos en dos asignaturas.

 

A

B

C

D

E

F

G

H

I

J

X

2

3

4

5

6

6

7

7

8

10

Y

2

5

2

5

4

6

6

7

5

 5

Si un alumno ha obtenido un 9 en la asignatura X ¿qué nota podemos preveer que obtenga en la asignaturaY? ¿Y si X=4

3)Distancia a la canasta y número de encestes.

 

A

B

C

D

E

F

G

H

I

J

X

1

2

2

4

5

6

7

8

9

10

Y

9

10

6

4

2

0

1

1

1

 0

Estima el número de encestes Y previsibles , desde una distancia X de 3 metros y de 6 metros

4) Peso y estatura de 10 alumnos.

 

A

B

C

D

E

F

G

H

I

J

X

60

62

61

65

70

68

72

75

70

71

Y

160

165

168

170

175

170

178

175

180

178

¿Qué estatura Y corresponde a pesos X de 67 kg y de 80 kg?

Nota: Para evitar problemas de escala toma un peso inicial  60. De esta forma podrás introducir 0,2,1,5... en vez de 60, 62, 61, 65... Haz lo mismo con las tallas, tomando una talla inicial 160. Deberás modificar el punto medio (x , y ) resultante, pero las desviaciones , covarianza y correlación no se ven afectadas.

5)Temperaturas marcadas por dos termómetros en 10 días distintos

 

A

B

C

D

E

F

G

H

X

10 12 15 20 25 22 18 30

Y

50 53.6 59 68 77 71.6 64.4 86

¿A cuántos grados Farenheit Y   equivalen 16º y 28º Celsius? ¿Qué confianza te merecen las previsiones en este caso?

 

 

 

 

 


Autora: Pilar Barriuso Pérez

 
© Ministerio de Educación y Ciencia. Año 2006