Estás en Inicio > Estadística > Diccionario
Descarga en PDF (No funcionarán los enlaces externos)
Diccionario de Estadística práctica
Selecciona una letra o un tema:
A
Si la variable que se estudia es continua, o discreta con muchos valores distintos, se organizarán sus datos en forma de intervalos. Para ello se fija un valor mínimo y otro máximo, de forma que todos los datos estén comprendidos entre ellos (a veces esto no se garantiza y quedan intervalos abiertos). La diferencia entre ambos se denomina rango de los datos y posteriormente se divide en un número de intervalos mediante valores intermedios.
Aleatorio
Experimento aleatorio
Un experimento se llama aleatorio cuando repetido indefinidamente presenta siempre resultados totalmente impredecibles.
Variable aleatoria
Llamaremos Variable aleatoria simple (discreta) a un conjunto de valores X1, X2, X3, ...,Xn (llamados también sucesos) a los que les corresponden unos números (llamados probabilidades) , p1, p2, p3, ..., pn que cumplen:
a) Todas las probabilidades son positivas o nulas.
b) La suma de todas ellas es igual a la unidad
Se llama amplitud de un intervalo de datos agrupados a la diferencia entre los valores de sus extremos.
Sinónimo de curtosis.
Asimetría de una distribución de frecuencias es la característica por la que los datos pierden su simetría respecto a la media. Expresado de otra forma, es el mayor o menor grado de desviación que existe entre la media (reparto equitativo) y la mediana (punto medio de la distribución).
B
Una distribución de Bernouilli se compone de dos sucesos contrarios A y B, a los que se les suele llamar éxito y fracaso, con probabilidades p y q respectivamente
Distribución binomial
Esta importante distribución se aplica a pruebas repetidas de la ley de Bernouilli, con las siguientes condiciones:
a) Se realizan experimentos repetidos del tipo
Bernouilli, n en total.
b) La probabilidad p permanece constante en todos ellos
c) Cada experimento es independiente del resultado anterior.
C
Nombre asignado coloquialmente a la representación gráfica de la distribución normal.
Es cualquier propiedad de objetos o personas que deseamos estudiar en Estadística
Es el estudio y recuento de todos los elementos de una población.
(Ver Nivel de Confianza)
Llamaremos constante a una característica que sólo admite una modalidad, por ejemplo la constante de gravitación universal
Una variable se llama continua si entre cada dos valores suyos pueden existir infinitos otros, como el peso, la estatura, etc.
Contraste de hipótesis
Sinónimo de Test de hipótesis
Coeficiente
Es el cociente de dividir la covarianza de una distribución bidimensional entre las desviaciones típicas de X e Y respectivamente.
Es la varianza conjunta en una distribución bidimensional X-Y. Se calcula como el cociente de los productos de las diferencias de X y de Y respecto a sus medias, entre el número de pares de la distribución.
Cuadrados mínimos
Se aplica a la variable (o dato, o medida) que sólo admite una medida nominal
Diremos que un número es el cuantil de orden p en una distribución de frecuencias si el porcentaje de datos inferiores a él es igual a p (y los superiores 100-p). Por ejemplo, el cuantil C85 será un punto que cumple que el 85% de los datos es inferior a él.
Se aplica a la variable que admite medidas de intervalo o de razón
Los cuantiles que dividen a la distribución en cuatro partes iguales, es decir, C25, C50 y C75, reciben el nombre de cuartiles, y se representan por Q1 o primer cuartil es el número que deja inferiores a él un 25% de los datos. Q2 o segundo cuartil o mediana es el número que deja inferiores a él un 50% de los datos. Q3 o tercer cuartil es el número que deja inferiores a él un 75% de los datos.
Cuasivarianza o varianza insesgada es similar a la varianza, pero dividiendo las sumas de cuadrados entre n-1.
Independientemente de su asimetría, una distribución puede presentar los datos con un reparto más uniforme, en el que las frecuencias sean muy parecidas. El gráfico aparecerá como aplastado y diremos que la distribución es platicúrtica o de poca curtosis. En el otro extremo, si las frecuencias cercanas al centro son mayores (con diferencia) que las alejadas, diremos que es leptocúrtica o con gran curtosis. Al caso intermedio lo denominaremos como distribución mesocúrtica
CH
Es la distribución teórica que representa la distribución muestral de la suma de cuadrados de los datos dividida entre la varianza de la población.
D
Es el valor cuantitativo o cualitativo que representa un atributo o medida en la población.
Se suelen definir 9 deciles D1, D2, ... D9, que son los puntos que dividen al intervalo en diez partes iguales, correspondientes a los cuantiles de porcentajes 10%, 20%, ...90% respectivamente.
Desviación media
Es una medida de la dispersión consistente en la media aritmética de las desviaciones individuales respecto a la media, tomadas en valor absoluto. También se usan desviaciones respecto a la mediana.
Es la raíz cuadrada de la varianza.
Coeficiente
El coeficiente de determinación es el cociente entre la varianza explicada y la total en un ajuste a la recta de regresión.
Adjetivo que se aplica a toda medida o proceso que sólo puede presentar dos valores, como SÍ/NO, Hombre/Mujer, Encendido/Apagado.
Si una variable solo admite un número finito de valores entre cada dos, recibirá el nombre de discreta (edades medidas en años, número de hermanos, etc.).
El conjunto formado por los valores de la variable y sus frecuencias constituye la distribución de frecuencias de la población o muestra, y se representa en las tablas de frecuencias.
Si en un experimento todas las medidas que se obtienen son dobles, pertenecientes a dos variables distintas, a las que llamaremos X e Y respectivamente, se denominará distribución bidimensional a la formada por los pares X-Y de valores relacionados en ambas variables.
Muestral
Distribución muestral es la resultante de considerar, de forma teórica, todas las posibles muestras que se puedan elegir. Es una distribución teórica, construida sobre variables aleatorias, y sus elementos se obtienen mediante técnicas matemáticas.
Distribución teórica
Llamaremos distribución teórica a la correspondiente distribución de probabilidades en una variable aleatoria.
Las principales distribuciones teóricas son:
Una distribución se llama uniforme cuando todas las probabilidades son iguales. Como todas suman 1 (caso discreto), cada una será igual a 1/n.
E
De predicción
Es la diferencia entre un valor de Y y su estimación Y' en una recta de regresión (o en una curva de regresión general)
Muestral
Típico de estimación
Es la raíz cuadrada de la varianza residual en una operación de estimación.
Escala de medida
Es un conjunto básico de modalidades y números (considerados como sus medidas) a partir del cual se construye un procedimiento para medir las restantes modalidades. Así, la escala centígrada de temperaturas se basa en asignar 0º a la temperatura de fusión del agua y 100º a la de ebullición
Una escala se llama nominal si la única relación que tiene en cuenta es la de igualdad (y su contraria la desigualdad). Suele estar formada por nombres, códigos o números considerados como etiquetas (como el DNI). Así, son nominales los apellidos, la Comunidad Autónoma, el distrito postal, etc.
La escala ordinal añade a la nominal la posibilidad de ordenar los datos, es decir, considera las relaciones de mayor y menor, aunque no se plantea una distancia entre unas medidas y otras. La escala de Insuficiente, Suficiente, Bien, Notable y Sobresaliente es ordinal.
Se introduce una medida tipo (o patrón) llamada unidad y se tiene en cuenta cuantas unidades están comprendidas entre dos medidas distintas. Tienen sentido, además de la igualdad y el orden, las diferencias entre dos medidas. Podemos sumar y restar medidas, pero no tienen sentido sus cocientes. Son de intervalo la gran mayoría de las escala de las ciencias experimentales: temperatura, peso, velocidad, intensidad de la corriente eléctrica, etc.
En esta escala se le da también un sentido a las razones entre dos medidas, es decir, las veces que una medida contiene a la otra. Fue la medida por excelencia de la Geometría griega y se ha trasladado a todas las Ciencias Sociales y de la Naturaleza. Se distingue también por la existencia de un cero verdadero, no convencional. Así, la escala centígrada de temperatura es sólo de intervalo y la Kelvin es de razón.
La esperanza matemática de una variable aleatoria discreta es la suma de los productos de sus valores por sus probabilidades. Equivale a la media en una distribución de frecuencias.
Se llama estadístico a todo valor numérico extraído mediante cálculos de los datos de una muestra. Normalmente se usa para estimar un parámetro de la población.
Estadístico de contraste
Es la expresión matemática, calculada a partir de la muestra, que nos servirá para tomar la decisión en un contraste de hipótesis.
Es la operación por la que se asigna a un parámetro de la población el mismo valor que a un estadístico calculado a partir de una muestra.
Estimación por intervalos
Al ser la estimación una operación arriesgada, en lugar de apostar por una estimación puntual, se rodea esta de un intervalo de seguridad, que es el Intervalo de confianza.
Es un estadístico calculado en una muestra que estima un parámetro de la población. Los más importantes son los que estiman la media y la varianza.
Es el valor mínimo que puede tener un valor incluido en un intervalo de datos agrupados.
Es el valor máximo posible en un intervalo de datos agrupados. Se considera no alcanzable. Así si un intervalo comprende desde 5 hasta 10, incluiremos en el mismo los valores comprendidos entre estos dos, incluyendo el 5 y sin incluir el 10.
F
Definición
El número de veces que se repite un valor concreto en una recogida de datos se llama frecuencia absoluta o simplemente frecuencia.
Frecuencia absoluta
Es sinónimo de frecuencia. Se representa por la letra n o por la f, según los distintos textos.
Frecuencia relativa o proporción
Es el cociente de dividir cada frecuencia absoluta entre el total de valores N. Se representa por f o por h.
Frecuencia acumulada
Es el número de datos del conjunto que son menores o iguales a u valor dado. Por tanto, se calculará sumando todas las frecuencias de datos menores o iguales al mismo. Podemos acumular las frecuencias absolutas y también las relativas y los porcentajes.
Frecuencias conjuntas
Son los pares de frecuencias formados en una distribución bidimensional
Frecuencia marginal
Llamaremos frecuencia marginal de un valor de X en una distribución bidimensional X-Y a la que le corresponde a ese valor si no tenemos en cuenta la existencia de Y. En la práctica coincide con la suma de todas las frecuencias contenidas en la fila correspondiente a ese valor.
Frecuencias condicionadas
Son las frecuencias que posee una variable si sólo consideramos un valor (o varios) de la otra variable en una distribución bidimensional X-Y. En la práctica se traduce a considerar sólo una fila o sólo una columna, según el valor elegido.
Llamaremos función de distribución F(x) de una variable aleatoria, a la formada por las probabilidades acumuladas, es decir: F(m) = Prob(x≤m) (El símbolo Prob designa a la probabilidad de que sea cierta la comparación del paréntesis)
G
Distribución de Gauss
Sinónimo de distribución normal.
H
Hipótesis nula
Llamaremos Hipótesis nula H0. a la afirmación que hacemos sobre los parámetros de una población y cuya validez deseamos contrastar.
Hipótesis alternativa
Frente a la hipótesis nula podemos oponer otra, a la que llamamos hipótesis alternativa H1. Suele ser una desigualdad que se opone a la igualdad que afirmamos.
Representación gráfica de una distribución de datos agrupados en intervalos. Es similar al diagrama de barras, pero con los rectángulos adosados y de áreas proporcionales a las frecuencias de los intervalos.
I
Índice simple de base fija
Un término de la serie se identifica (convencionalmente) con el número 1, o el 100%. Diremos que este valor y0 posee el índice 1. Para el resto de valores se define el índice como el cociente entre su propio valor yi y el valor y0 identificado como de índice 1.
Índice simple de base variable (o en cadena)
Tiene la misma definición que el anterior, pero en lugar de elegir un valor y0 como base, en el cociente se toma el término anterior yi-1.
Índice compuesto
Cuando se desea comparar la evolución de varios conjuntos a la vez, se definen índices compuestos, obtenidos combinando los índices simples. Una técnica sencilla es sustituir los múltiples valores de cada término por su media ponderada.
Inferencia estadística
Es la ciencia que estudia las operaciones de estimación
Un estimador es insesgado cuando su media muestral coincide con el parámetro
Intervalos en distribuciones de frecuencias
Si la variable que se estudia es continua, o discreta con muchos valores distintos, se organizarán sus datos en forma de intervalos, que son conjuntos formados por los números reales comprendidos entre un máximo y un mínimo.
Es el intervalo del que se rodea una estimación puntual acompañada de una probabilidad de que el parámetro estimado pertenezca a dicho intervalo.
J
K
L
Distribución de frecuencias con gran curtosis.
Ley de los grandes números
"Las frecuencias observadas tienen como límite las probabilidades cuando n tiende al infinito"
M
Promedio entre los dos extremos (o punto medio de un intervalo de datos agrupados), que se elige como representante de todos los valores comprendidos.
Media aritmética
Llamaremos media aritmética o simplemente media al valor resultante de sumar todos los datos y después dividir el resultado entre el número de ellos.
Media geométrica
Es la raíz enésima del producto de los datos. Se usa cuando el producto es más representativo que la suma, como ocurre cuando se promedian cocientes o razones.
Media armónica
Es la media diseñada para promediar cantidades inversamente proporcionales y equivale al inverso de la media de los inversos de x
Media cuadrática
Es muy usada en la teoría de errores y en estudios sobre ajustes de datos. Es la raíz cuadrada de la media de los cuadrados de los datos.
Media ponderada
En esta media se multiplica cada dato por un peso (valor numérico), se suman todos los productos se divide el resultado entre la suma e los pesos.
Llamaremos mediana de un conjunto de datos de tipo ordinal (o de intervalo o razón) al dato que ocupa el punto medio de la distribución ordenada de datos. Es decir, es el punto que divide a la distribución en dos partes iguales: el total de frecuencias de los datos inferiores a la mediana es igual al de las frecuencias de los datos mayores.
Es la operación de asignar un número a cada una de las modalidades de una característica, convirtiendo algunas relaciones entre modalidades en sus correspondientes relaciones entre los números que representan su medida.
Medida directa
Llamaremos medida directa en cualquier estudio o experimento, a aquella que se ha obtenido directamente sobre los objetos, individuos o entidades con los instrumentos usuales de medida.
Medida diferencial
Dada una medida directa X, llamaremos medida diferencial x a su diferencia con la media del grupo.
Medida típica Z
Si se divide una medida diferencial entre la desviación típica del grupo, se obtiene la medida o puntuación típica Z.
Distribución de frecuencias con curtosis media.
Mínimos cuadrados
Llamaremos Moda al valor de la distribución de datos que presente una frecuencia mayor.
Las distintas formas de presentarse una característica se llaman modalidades. Por ejemplo, 1,82 y 1,65 cm. son dos modalidades de la característica altura, y varón y mujer dos modalidades de la característica sexo
Definición
Es un subconjunto de la población que es más fácil de estudiar que la población.
Definición
Es un conjunto de operaciones o técnicas dirigidos a la elección de la muestra adecuada.
N
Es la probabilidad de que un valor estimado pertenezca al intervalo de confianza que rodea a la estimación. Los más usados son 90%, 95% y 99%
La probabilidad de que unos valores caigan en la región de rechazo n un contraste de hipótesis, a pesar de que H0 sea verdadera, se conoce con el nombre de nivel de significación a,
Distribución normal
La distribución Normal o ley de Gauss es la más usada de las distribuciones teóricas continuas. La popularizaron Gauss, en el estudio de los errores de las medidas, y también Laplace, pero ya la había usado Moivre como límite de la binomial.
Por su característica forma, se la conoce también como campana de Gauss. Aquí sólo nos interesa su definición y uso dentro de la Estadística. La expresión de su función de densidad con media 0 y desviación típica 1 es
O
Su significado más usual es el del término independiente de la ecuación de la recta de regresión. Se puede representar como el corte de esa recta con el eje Y.
P
Un número que caracterice o describa una población recibe el nombre de parámetro. La estatura media de los alumnos y alumnas de 16 años es un parámetro de esa población, o la Renta per cápita de la población española
Su significado más usual es el del coeficiente de la variable X en la recta de regresión lineal.
Similares a los deciles, P1, P2, P3, ......P99, son 99 números que dividen la distribución en 100 partes iguales.
Esta distribución, llamada de los sucesos
raros, es el caso límite de la binomial, con las siguientes condiciones:
a) El número de intentos n debe tender a infinito.
b) La propiedad p debe ser muy pequeña (de ahí el nombre de suceso raro)
c) El producto de n.p ha de ser constante, y al que llamaremos m.
Distribución de frecuencias con poca curtosis.
Llamaremos población a un conjunto bien definido por ciertas características que deseamos estudiar: La población de una Comunidad Autónoma, los aprobados de 2º de Bachillerato en mi Centro, los profesores de E.S.O. en la Delegación Norte, etc.
Equivale a la frecuencia relativa expresada como tanto por ciento o porcentaje.
Llamaremos pronóstico o predicción para un valor de X a su imagen Y´en la recta de regresión. Esta definición se extiende a cualquier otra curva de ajuste de datos.
Es sinónimo de frecuencia relativa
La estimación se llama puntual cuando identificamos, sin más, el parámetro con el estadístico. En ese caso añadiremos un acento circunflejo al parámetro para representar que estamos estimando.
El p-valor de un resultado en un experimento es la probabilidad de obtener ese valor u otros menores (o mayores, según sea el experimento) si se satisface la hipótesis nula.
R
Si se fija un valor mínimo y otro máximo, de forma que todos los datos de un recuento estén comprendidos entre ellos (a veces esto no se garantiza y quedan intervalos abiertos), la diferencia entre ambos se denomina rango de los datos.
Rango percentil
Es la medida inversa del percentil. Dada una medida concreta, como puede ser la calificación de una alumna en Música, su rango percentil equivale al percentil más cercano a esa calificación. Un alumno que tenga rango percentil de 78 es aquel en el que el 78% de sus compañeros tiene una puntuación inferior a él.
La recta de regresión de Y sobre X es aquella que minimiza la suma de cuadrados de las diferencias entre los valores de Y y los correspondientes Y’ medidos en dicha recta.
S
Sinónimo de asimetría
En ANOVA
Total
Es la suma de las diferencias al cuadrado entre los datos experimentales y su media.
Intragrupos
Representa la suma de cuadrados corregidos que se da dentro de los grupos, es decir, las diferencias de los datos entre la media de cada grupo.
Intergrupos
Es la suma ponderada de las diferencias al cuadrado entre as medias de los grupos y la media total.
Interacción
En un modelo con varios factores representa la influencia mutua entre ellos.
Es una afirmación que se hace de una población en la Estadística Inferencial: si es es simétrica, normal, continua… y sobre la muestra, si es aleatoria simple, es de tamaño mayor que 30…
T
Distribución que sigue la estimación de la desviación típica.
Teorema central del límite
Si las variables x1, x2, x3,... xn, tienen todas la misma distribución, con los mismos valores m para la media y s para la desviación típica, la variable
sigue asintóticamente la distribución normal N(0,1).
Test de hipótesis
Un test de hipótesis (o contraste) es un proceso, compuesto de varios pasos muy concretos, que nos permite aceptar o rechazar una hipótesis en términos estadísticos.
Es la operación de convertir una medida en típica restándole la media y dividiendo entre la desviación típica.
U
V
Llamaremos Variable aleatoria simple (discreta) a un conjunto de valores X1, X2, X3, ...,Xn (llamados también sucesos) a los que les corresponden unos números (llamados probabilidades) , p1, p2, p3, ..., pn que cumplen:
a) Todas las probabilidades son positivas o nulas.
b) La suma de todas ellas es igual a la unidad
Coeficiente de variación
Es el cociente de dividir la desviación típica entre la media.
Definición
Es el cociente de dividir la suma de los cuadrados de las desviaciones de los datos respecto a la media entre el número total de datos. Su raíz cuadrada es la desviación típica.
Es la parte de una varianza que se considera producida por un factor determinado que influya en un experimento. En la regresión lineal es la varianza de las predicciones.
Es la varianza total observada en un experimento, independientemente de las variables que puedan influir en los resultados.
Residual
Es la diferencia entre la varianza total y la explicada.
La técnica del Análisis de la Varianza consiste en descomponer la variabilidad de una población (representada por su varianza) en diversos sumandos según los factores que intervengan en la creación de esa variabilidad.