¿Por qué se debe identificar el tipo de variables?
Identificar el tipo de variables es crucial por varias razones:
- Ayuda a seleccionar las herramientas estadísticas adecuadas para analizar los datos.
- Determina la forma de presentación gráfica de los datos.
- Permite la correcta interpretación de los resultados.
- Guía el proceso de limpieza y preparación de datos, específico para cada tipo.
Tipos de Gráficos
- Barras: Adecuado para datos numéricos y categóricos. El eje X representa las categorías y el eje Y la frecuencia. Útil para datos categóricos y también para representar la frecuencia de intervalos numéricos.
- Histograma: Para datos numéricos continuos. Muestra la distribución de frecuencias dentro de intervalos en un eje numérico, donde el ancho representa el rango de valores. Específico para variables numéricas y para visualizar la distribución de datos.
Medidas de Tendencia Central
Media: Promedio de un conjunto de datos.
- Ventajas: Considera todos los valores, es representativa, de fácil cálculo y útil para calcular medidas de dispersión.
- Desventajas: Sensible a valores extremos, no refleja adecuadamente la tendencia central con valores muy grandes o muy pequeños.
Mediana: Valor central de un conjunto de datos ordenados.
- Ventajas: Fácil de calcular con un número bajo de observaciones, útil con datos sesgados o que no siguen una distribución normal.
- Desventajas: No utiliza todos los valores del conjunto de datos, puede no representar la tendencia central.
Moda: Valor con mayor frecuencia absoluta.
- Ventajas: Fácil de identificar, útil para datos categóricos y discretos.
- Desventajas: Puede no existir una moda clara o puede haber múltiples modas, no proporciona información sobre la dispersión o variabilidad de los datos.
Medidas de Variación
Las medidas de variación indican la dispersión o la variabilidad de un conjunto de datos, es decir, cuán alejados están los valores individuales de la medida central.
- Varianza: Media de las diferencias al cuadrado entre cada punto de datos y la media del conjunto. Una varianza alta indica datos muy dispersos, mientras que una varianza baja indica datos cercanos a la media.
- Desvío estándar: Raíz cuadrada de la varianza. Indica la dispersión de los datos alrededor de la media y es más fácil de interpretar que la varianza.
Probabilidades y Propiedades
La probabilidad es una medida de la posibilidad de que ocurra un evento. Se expresa como un valor entre 0 (imposible) y 1 (seguro). La probabilidad siempre está entre 0 y 1, nunca puede ser menor que 0 ni mayor que 1. La suma de las probabilidades de todos los eventos posibles en un espacio muestral es igual a 1.
Distribuciones de Probabilidad
Distribución Hipergeométrica
Describe la probabilidad de obtener un número específico de éxitos en una muestra extraída de una población finita sin reemplazo. Se utiliza cuando se selecciona una muestra sin reemplazo y se quiere conocer la probabilidad de obtener un cierto número de éxitos. La media (μ) se calcula como: μ = n * K / N, donde n es el tamaño de la muestra, K es el número de éxitos en la población y N es el tamaño total de la población.
Distribución Normal
Es una distribución continua comúnmente utilizada en estadística debido a su importancia teórica y su aparición en numerosos fenómenos naturales y sociales. Tiene las siguientes características:
- Forma de campana: Posee una forma simétrica de campana, donde los valores están distribuidos de manera simétrica alrededor de su media.
- Media, mediana y moda iguales: La media, mediana y moda coinciden y se encuentran en el centro de la distribución.
- Valor esperado (media): El valor esperado (media) de una distribución normal es el punto central de la distribución y se representa por μ. En una distribución normal, el valor esperado es también el punto de simetría de la curva.
- Desvío estándar: El desvío estándar de una distribución normal es una medida de la dispersión de los datos con respecto a la media. Es necesario conocer la fórmula de la regla empírica:
- El intervalo (𝑥̅ ± S) contiene aproximadamente el 68% de los datos.
- El intervalo (𝑥̅ ± 2S) contiene aproximadamente el 95% de los datos.
- El intervalo (𝑥̅ ± 3S) contiene aproximadamente el 99.9% de los datos.
Diferencias entre Distribución Binomial e Hipergeométrica
Falso: La diferencia entre una variable con distribución binomial y una variable con distribución hipergeométrica no está determinada por la cantidad. La diferencia fundamental radica en la forma en que se seleccionan las muestras y cómo afecta esto a la probabilidad de éxito (con reemplazo para la binomial y sin reemplazo para la hipergeométrica).
Coeficiente de Asimetría
Verdadero: El coeficiente de asimetría es una medida relativa de la forma de la distribución de los datos.
Coeficiente de Correlación de Pearson (r)
Falso: Un coeficiente de correlación de Pearson (r) de 0.96 no implica que la ecuación de regresión explica el 96% de la variación en la variable dependiente. El coeficiente de determinación (r^2) es el que explica la proporción de variación en la variable dependiente que es explicada por la regresión.
Relación entre Variables
Falso: La ecuación dada, y = -24x + 16, representa una relación lineal, pero no es una relación directa. Esto se debe a que el coeficiente (-24) indica una relación negativa entre las variables. Una relación directa sería cuando un aumento en x conlleva un aumento en y, y viceversa.
Probabilidad Subjetiva y Estadística
a) Falso: La probabilidad subjetiva se basa en la percepción y creencias individuales, no en datos estadísticos. Incluso después de múltiples intentos (en este caso, 100), la probabilidad subjetiva no se convierte en probabilidades estadísticas precisas.
b) Falso: Para calcular la moda, no es necesario ordenar los datos. La moda es simplemente el valor que aparece con mayor frecuencia en un conjunto de datos, por lo que se puede identificar sin ordenarlos.
c) Falso: Una característica de un experimento aleatorio es que *sí* podemos describir el conjunto de todos los resultados posibles a priori.
Conceptos Clave en Estadística
a) Cuando existan datos extremos es adecuado el empleo de la mediana como medida de tendencia central.
b) Los percentiles dividen a la distribución en cien partes iguales.
c) Un estadístico se extrae de la muestra.
d) Sacar conclusiones sobre la población a partir de la muestra es cuestión de la estadística inferencial.
e) El rango es una medida que solo tiene en cuenta el dato máximo y el dato mínimo.
Coeficiente de Asimetría y Desvío Estándar
a) Falso: El coeficiente de asimetría (C.A.) mide la asimetría de la distribución de los datos. Un valor positivo de C.A. indica una asimetría hacia la derecha, mientras que un valor negativo indica una asimetría hacia la izquierda. Un C.A. = 3.5 indica un sesgo a la derecha, no a la izquierda.
b) Falso: S^2 representa la varianza, no el desvío estándar. El desvío estándar es la raíz cuadrada de la varianza.
c) Verdadero: Para el cálculo de la mediana se necesita ordenar los datos en forma ascendente.
d) Falso: La ecuación y = -3x – 2 representa una relación lineal, pero no es una relación directa. El coeficiente (-3) indica una relación negativa.
Población, Muestra y Variables
Población: Conjunto completo de elementos o individuos que poseen una característica específica y sobre los cuales se desea realizar inferencias. Es el grupo total que se estudia y del cual se obtienen datos.
Muestra: Subconjunto representativo de la población que se selecciona para estudiarla y hacer inferencias sobre la población más grande. Se elige de manera que sea representativa de la población en su conjunto.
Variables: En estadística, las variables son características o propiedades que pueden variar y que se pueden medir, observar o manipular.
- Categóricas o cualitativas: Representan características no numéricas y se clasifican en grupos o categorías. Pueden ser nominales (sin orden) u ordinales (con un orden inherente).
- Numéricas o cuantitativas: Representan cantidades numéricas y se pueden medir con precisión. Se dividen en dos categorías: discretas (valores contables, generalmente enteros) y continuas (valores que pueden tomar cualquier valor dentro de un rango).
Probabilidad de Frecuencia Relativa
Se calcula observando la frecuencia con la que ocurre un evento en un conjunto de datos o a partir de experimentos repetidos. Se fundamenta en datos observados y se obtiene dividiendo el número de veces que ocurre un evento por el número total de veces que se realizó el experimento o se observaron los datos.
Enfoque Axiomático de la Probabilidad
La probabilidad en el enfoque axiomático se define como una función que asigna a cada evento un número entre 0 y 1, donde 0 representa la imposibilidad de que ocurra el evento y 1 representa la certeza de que ocurra el evento. Esta definición se realiza mediante tres axiomas:
- Axioma de la no negatividad: La probabilidad de un evento siempre es un número no negativo: 0 ≤ P(E) ≤ 1, donde E es un evento.
- Axioma de la certeza: La probabilidad del espacio muestral completo (evento seguro) es 1: P(S) = 1, donde S es el espacio muestral.
- Propiedades derivadas de estos axiomas incluyen:
- Probabilidad del evento imposible: P(∅) = 0, donde ∅ es el conjunto vacío o evento imposible.
- Complemento de un evento: P(E^c) = 1 – P(E), donde E^c es el complemento del evento E.
- Propiedad de la resta: P(E) = 1 – P(E^c).
Combinación y Permutación
Permutación: Un arreglo ordenado de objetos o elementos tomados de un conjunto, donde el orden de los elementos importa. Se representa como P(n, k) y se calcula como la cantidad de formas diferentes en las que se pueden organizar k elementos de un conjunto de n elementos. (P(n, k) = n! / (n – k)!), donde n! (n factorial) representa el producto de todos los números enteros positivos desde 1 hasta n.
Ejemplo: Si tenemos las letras A, B y C, las permutaciones de 2 letras que se pueden formar son AB, AC, BA, BC, CA y CB. Aquí, tenemos 3 elementos y queremos permutarlos de a 2.
Combinación: Una selección no ordenada de objetos o elementos de un conjunto, donde el orden no importa. Se representa como C(n, k) y se calcula como la cantidad de formas diferentes en las que se pueden seleccionar k elementos de un conjunto de n elementos sin tener en cuenta el orden.
Ejemplo: Si tenemos las letras A, B y C, las combinaciones de 2 letras que se pueden formar son AB, AC y BC. Aquí, no importa el orden en que se seleccionen las letras, solo nos importa qué letras están incluidas en el par.
Espacio Muestral y Eventos
Espacio muestral: Conjunto de todos los resultados posibles de un experimento aleatorio. Representa todas las posibles conclusiones o resultados que podrían ocurrir.
Eventos: Los eventos son subconjuntos del espacio muestral. Representan resultados específicos o conjuntos de resultados de un experimento. Los eventos pueden ser simples (un resultado único) o compuestos (varios resultados). Se denotan usualmente con letras mayúsculas, como A, B, etc.
Operaciones entre Eventos
- Unión (∪): Representa el evento que ocurre si al menos uno de los eventos ocurre. A ∪ B es verdadero si ocurre A o B o ambos.
- Intersección (∩): Representa el evento que ocurre si ambos eventos ocurren al mismo tiempo. A ∩ B es verdadero si ocurren tanto A como B simultáneamente.
- Complemento (c): Representa el evento que no ocurre. A^c es el conjunto de resultados que no están en A.
Eventos Mutuamente Excluyentes
Ejemplo: Eventos mutuamente excluyentes son eventos que no pueden ocurrir simultáneamente. Si uno ocurre, el otro no puede ocurrir al mismo tiempo. Por ejemplo, si lanzas un dado, los eventos «obtener un número par» y «obtener un número impar» son mutuamente excluyentes, ya que un número no puede ser par e impar al mismo tiempo al lanzar un dado.
Otro ejemplo clásico de eventos mutuamente excluyentes se relaciona con el lanzamiento de un dado. Imagina que estamos interesados en dos eventos:
- Evento A: Obtener un número par al lanzar un dado.
- Evento B: Obtener un número impar al lanzar el mismo dado.
Estos dos eventos son mutuamente excluyentes ya que no pueden ocurrir simultáneamente en un solo lanzamiento del dado. Al lanzar el dado, solo puede obtenerse un número par (2, 4 o 6) o un número impar (1, 3 o 5), pero nunca ambos en el mismo lanzamiento. Si ocurre uno de estos eventos, el otro no puede suceder al mismo tiempo. Por lo tanto, A y B son mutuamente excluyentes en el contexto del lanzamiento del dado.
Verdaderos o Falsos
a) En la permutación no importa el orden de los elementos. Falso: En una *combinación*, el orden de los elementos no importa. Las combinaciones son selecciones no ordenadas de elementos de un conjunto, por lo que dos combinaciones con los mismos elementos pero en orden diferente se consideran iguales. En una *permutación*, el orden sí importa.
b) La esperanza matemática se refiere al promedio de los datos. Verdadero.
c) Dos eventos mutuamente excluyentes se pueden realizar en forma simultánea. Falso: Dos eventos mutuamente excluyentes son aquellos que no pueden ocurrir simultáneamente. Si uno de los eventos sucede, el otro no puede suceder al mismo tiempo.
d) La probabilidad del espacio muestral es igual a 1. Verdadero.