Temas de Estadística Práctica
Antonio Roldán Martínez


Distribuciones bidimensionales


Estás en
Inicio > Estadística > Tema 5 - Distribuciones bidimensionales. Regresión.

Tema 5                  

 

Distribuciones bidimensionales. Regresión

Cuestión-ejemplo

Prácticas

Ejercicios

Uso en el aula

Para ampliar
  

  Regresión no lineal


 
Relaciones alométricas

Resumen teórico

 

Cuestión - Ejemplo

¿Tendré que estudiar mucho para sacar notable?

Un grupo de Enseñanza Secundaria ha elaborado una encuesta sobre las horas diarias que emplean en el estudio y la calificación obtenida en Matemáticas en el último examen.

Han recogido los resultados en la siguiente tabla:

Horas de estudio 0 0 1 1 1 1 1 2 2 2 2 2 3 4 4 5
Calificación 2 1 3 4 3 2 2 4 5 7 8 6 5 8 10 7

Además de estudiar el grado de asociación entre las dos variables, que ya se explicó en el tema anterior mediante el coeficiente de correlación, nos puede interesar hacer pronósticos: ¿Qué nota puedo esperar si estudio 2 horas y meda? Para realizar esos pronósticos usaremos las técnicas de Regresión.


Práctica 1

Puede ser interesante, en primer lugar, determinar el grado de paralelismo que existe entre ambas variables.

Abre el archivo regresion.ods,  que te servirá para desarrollar la práctica.

 

Descarga y estudia el documento practica51.pdf

 

Si no lo has realizado ya, descarga el documento de teoría

 

Una vez realizada la práctica, abre el documento minimocuad.pdf para profundizar en el tema.


Práctica 2

Construcción de un modelo para el estudio de la Regresión

En esta práctica partirás de una hoja de cálculo en blanco, y deberás construir sobre ella un modelo.

Si tienes dificultades en algún detalle de la confección de este modelo, puedes consultar bidim0.ods en la carpeta de modelos de esta sesión.

 

Desarrolla la práctica siguiendo el contenido del documento practica52.pdf

 


Práctica 3

Abre el archivo regconfrec.ods. Contiene un modelo de regresión ya confeccionado.

 

Con él desarrollarás la práctica 3, siguiendo el documento practica53.pdf

 


Ejercicio 1

La población del pueblo de Andrés ha seguido esta evolución en los últimos quinquenios (redondeando a cientos)

Año Población
1970 8200
1975 8700
1980 8900
1985 9900
1990 10000
1995 10500
2000 11200

Copia estos datos en el modelo que has creado en la Práctica 2 y lee los resultados para ver si coinciden con estos

¿Qué población esperaríamos para 2005 y 2010?

Usa las celdas que has creado para pronósticos que están fuera de la tabla. Te debe dar:

Y´(2005) = 11585 habitantes
Y´(2010) = 12.075 hab.

El error típico es 184, que es la desviación típica de los errores. Repasa su columna y observarás que todos son de esa magnitud. Como verás en otro tema, es raro que un error supere el doble del error típico, es decir 184*2 = 368 habitantes. De hecho, se cumple en este ejemplo.

Ejercicio 2

En un viaje muy aburrido, Elena anota la hora cada vez que pasa el coche familiar por puntos kilométricos múltiplos de 20. El resultado de su entretenimiento es el siguiente:

Minutos Kilómetros
0 0
10 20
28 40
41 60
55 80
70 100
86 120
98 140

 

Pronostica: A) En qué minuto pasó por el km. 75  B)  Dónde se encontraban al cumplir la primera hora.

Usa tu modelo.

A) En el minuto 52    B) En el kilómetro 86

Ejercicio 3

Una empresa de electrónica ha lanzado un producto nuevo, que como todos los de su clase, presenta la llamada "enfermedad infantil", ya que en los primeros envíos suelen abundar los pequeños problemas hasta que la producción se estabiliza. Para estudiar las incidencias, se ha recogido en una tabla el número de llamadas realizadas al servicio técnico de una zona elegida al azar por averías en el nuevo producto, durante 6 meses. Los datos se recogen en la tabla siguiente:

    Seis primeros meses
    1 2 3 4 5 6
Llamadas por día 0 0 1 3 5 6 9
1 0 5 3 5 12 9
2 2 3 6 7 2 0
3 1 8 6 3 0 4
4 7 4 3 2 2 1
5 6 4 0 1 0 1
6 6 2 3 1 1 1
7 1 0 1 0 0 0
8 1 0 0 1 0 0

La variable X corresponde a los seis meses de recogida de datos, y la Y el número de llamadas habidas en un día. Las frecuencias interiores representan el número de días en los que se han recibido las llamadas representadas por la variable Y.

Traslada esta tabla (sólo la parte de color amarillo) a la hoja de cálculo regconfrec.ods. de esta sesión. Resuelve, con esa herramienta, las siguientes cuestiones:

(a) La gráfica conjunta resultante presenta una tendencia hacia un máximo al fondo de la misma.

¿En qué meses y para qué número de llamadas se presenta la zona de máximos? ¿Qué significado tiene esto para el seguimiento de las averías?

(b) A la vista de la distribución de medias condicionadas de Y, que evidentemente posee una tendencia decreciente (observa la gráfica marginal de Y), ¿podemos afirmar que el número de llamadas se va concentrando alrededor de la media con el transcurso de los meses?. Pasa a la hoja Cálculos y estudia qué datos de la tabla nos darían esa información.

(c) Usa la hoja Pronósticos para averiguar en qué mes las averías dejarían de ser un problema importante.


Uso en el aula


Herramientas

bidimen.ods

Modelo similar al que se propone construir en la práctica 2, pero conteniendo pronósticos y gráficos. Es muy útil para ejercicios de interpretación de las tablas en los que el objetivo no son los cálculos. En su segunda hoja permite pronósticos puntuales, para interpolar y extrapolar con gran rapidez.

movil.ods

Esta hoja está diseñada para comprobar que la suma de errores cuadráticos respecto a una recta se minimiza si esta es la de regresión. Tienes una pequeña experiencia en el documento minimocuad.pdf

regfrec.ods

Permite realizar los cálculos de regresión en el caso en el que cada par de datos XY viene acompañado de la frecuencia correspondiente.

regconfrec.ods

Realiza los cálculos de regresión en el caso de frecuencias conjuntas en una tabla de doble entrada.

tendencias.ods

Esta hoja de cálculo agrupa todos los casos de regresión lineal y no lineal. La consulta del valor del coeficiente de determinación R2 permite elegir la tendencia que minimiza los errores cuadráticos y conseguir así la función que mejor representa los datos.

exponencial.ods, potencial.ods, logaritmica.ods y cuadratica.ods

Son cuatro hojas que recogen las mismas técnicas que tendencias.ods, pero de forma separada.

bidimen1.ods

bidimen2.ods

bidimen3.ods

bidimen4.ods

son archivos auxiliares del documento bidim.pdf


Documentos para usar

bidim.pdf

Es un documento preparado para guiar a los alumnos en el aprendizaje de los conceptos y las técnicas referentes a las distribuciones bidimensionales en las que las variables son cuantitativas. Permite un repaso de conceptos o bien, con la ayuda de los profesores, para iniciar el tema.


Para ampliar


Regresión no lineal

Cuando unos datos no siguen un proceso lineal, existen técnicas, como la de tomar logaritmos, que permiten el ajuste a otras funciones.

Fundamentalmente son cuatro:

Función exponencial: Se usa para crecimientos y decrecimientos en los que la tasa es proporcional al valor actual (de forma aproximada). Cuanto mayor es el valor actual, mayor es el incremento que sufre.

Función logarítmica: Si se da la proporcionalidad anterior entre el valor actual y la tasa, pero de forma inversa, es decir, que la tasa de variación sea proporcional al valor inverso del actual (1/X), el mejor ajuste es el logarítmico.

Función potencial
: Es la más potente, pues permite encontrar un exponente fraccionario, lo que abarca las potencias y raíces de todo tipo de exponentes. Su expresión es
y = a.xb

Función polinómica: Suelen ajustarse bien a los datos, pero sus fórmulas pueden complicarse.

 

En el resumen teórico dispones de una explicación más detallada de la regresión no lineal.

En LibreOffice.org están contenidos directamente los tipos exponencial, potencial, lineal y logarítmico. Para este curso se ha construido también un ajuste cuadrático. Los ajustes polinómicos requieren cálculos matriciales y no se incluyen aquí.

Abre la hoja tendencias.ods y ajusta con él estos datos:

X 1 2 3 4 5 6 7 8 9 10 11
Y 1 3 6 7 10 13 21 24 35 67 72

Para ello rellena en columna los datos de X e Y, en la primera hoja Entrada de datos, borrando después el resto del área de entrada.

También puedes copiar esta tabla a la hoja Borrador de tendencias.ods, y desde allí usar Copiar, pasar a la hoja de Entrada de Datos y usar Pegado Especial, activando Transponer y eligiendo copiar sólo Números.

Observa los gráficos de la hoja Entrada de Datos. Podemos observar en ellos que el ajuste lineal y el logarítmico no se ajustan bien y tienen un coeficiente bajo. Los ajustes potencial, cuadrático y exponencial son muy buenos, y es difícil distinguir cuál de ellos se ajusta mejor a los datos. Para ello debes estudiar el valor del coeficiente de determinación R2 en cada uno de ellos.

Potencial: R2 = 0,9611  Cuadrático: R2 = 0,9577  Exponencial R2 = 0,9582

Luego, por muy poco, el mejor ajuste lo presenta la función Y´=0,831X^1,714

Independientemente del valor de  R2 , podemos tener motivos teóricos para elegir uno u otro ajuste. Por ejemplo, si los datos anteriores correspondieran a ciertos crecimientos biológicos, usaríamos la exponencial.

Otro ejemplo

X 1 2 3 4 5 6 7 8 9 10
Y 1 5 10 14 23 40 50 70 80 95

Repite los pasos y observarás que los mejores ajustes son la potencial y la cuadrática. La elección dependería del modelo previo, si lo hubiera. En caso contrario son determinantes las preferencias de quien realice el experimento.

Además de la hoja tendencias.ods, que agrupa todos los casos de regresión no lineal, puedes consultar cada caso uno a uno en archivos separados:

 

Exponencial: archivo exponencial.ods

 

Potencial: Archivo potencial.ods

 

Logarítmica: Archivo logaritmica.ods

 

Cuadrática: Archivo cuadratica.ods


Relaciones alométricas

Hasta la llegada de los ordenadores a la enseñanza, era muy difícil abordar en la Enseñanza Secundaria ajustes no lineales en tablas de datos procedentes de trabajos de campo o experimentos. Con la Hoja de Cálculo podemos intentar descubrir propiedades aunque los cálculos en que se basan tengan que dejarse a las herramientas informáticas. Como lo importante es la comprensión de conceptos y procesos, no sería muy grave prescindir de los cálculos.

Esta situación se produce, por ejemplo, al comparar medidas múltiples realizadas en Biología sobre un organismo. Al escribir los datos en una hoja de cálculo se podrán descubrir relaciones alométricas que de otra forma pasarían desapercibidas.

Un caso práctico de este tipo lo tienes en el documento ampliar52.pdf

 

Cambios en la resistencia eléctrica según la temperatura

La resistencia (en realidad, la resistividad) de un conductor metálico aumenta o disminuye según aumente o disminuya también la temperatura. La relación entre ambos cambios se mide con coeficiente a, que se define como el cambio de resistividad por cada grado centígrado de variación.

La fórmula que relaciona estas magnitudes es

Rt = R0*(1+a∆t)

siendo R0 la resistencia inicial de un conductor metálico, Rt la final si se cambia la temperatura, a el coeficiente de cambio de resistividad y ∆t el incremento de temperatura en º C

Es interesante evaluar el valor de a a partir de un experimento. Puedes seguir un desarrollo en el documento ampliar53.pdf