Ejercicios Resueltos de Estadística
Parte 1: Pruebas de Normalidad y Medidas Descriptivas
1) Si al evaluar la normalidad de un conjunto de datos mediante una prueba de Shapiro-Wilk se obtienen los siguientes resultados:
>shapiro.test(data$cont_hombros)
Shapiro-wilk normality test data:
Data$cont_hombros
W=0.97843, p-value=8.036e07
a) Que no se ajustan a una distribución normal
2) Calcular la varianza muestral s2 para la siguiente muestra {6,3,8,5,3}
a) X= [x/n=5; [(x-X)2= 18; s2=(x-X)2/n-1=4.5
3) Si usted dispone de la siguiente base de datos (llamadas,tabla) y un subconjunto de los datos definidos por los siguientes vectores:
Individuo<-c(1:7)
Sexo<-c(masculino, femenino, femenino, femenino, masculino, masculino)
Edad<-c(17,18,16, 22, 23, 16, 19)
Altura<-c(1.73, 1.75, 1.80, 1.65, 1.85, 1.73)
Peso<-…
¿Cuál sería el comando de R y la respuesta analítica en R que permitirían calcular la varianza de la altura solo de las mujeres?
I) var(tabla$altura(subset))
II) (((1.75-1.72)2)+((1.80-1.72)2)+((1.65-1.72)2)+((1.68-1.72)2))/(4-1)
Parte 2: Grados de Libertad, Percentiles y Medidas de Tendencia Central
4) ¿Cuál(es) afirmación(es) es (son) correcta(s)? Los grados de libertad son:
i. El número de datos menos el número de parámetros estimados en una prueba.
ii. La dispersión que presentan los datos con respecto al o los parámetros estimados.
5) ¿Cuál de las siguientes afirmaciones son correctas?:
I) El percentil 25 es el valor de la variable que reúne al menos el 25% de los datos
II) Si -n=80, el 25% de 80 es 20, por tanto, se busca el dato de la posición 20.
6) Señale cuál de las siguientes formulas corresponden al cálculo de la mediana considerando que el tamaño muestral es impar y el presunto resultado para el siguiente conjunto de datos es {2,5,4,3,3,4,5,6,6,20,10,8,6,1,58,69,72,45,100,35,24,56,15]:
a) Me=(n+1)1/2=12 me=8
b) Me=(n)-2=21 me=69
c) Me=(n-1)/2=11 me=6
d) Me=(n-1)/2=11 me=8
e) Me=(n+1)/2=12 me=6
Parte 3: Pruebas de Hipótesis y Teorema del Límite Central
7) En todo el contraste de hipótesis intervienen dos hipótesis H0 y H1. Con respecto a ellas, cuál de las siguientes afirmaciones NO es o NO son correctas:
I) La decisión de rechazar la hipótesis nula, que en principio se considera falsa, está en función de que sea o no compatible con la evidencia empírica contenida en la muestra.
II) El contraste clásico de hipótesis permite controlar a priori la probabilidad de cometer el error de rechazar la hipótesis nula siendo ésta falsa; dicha probabilidad se llama nivel de significación de contraste(alfa) y que suele fijarse en un valor determinado.
8) Con respecto al teorema de límite central, señale cuál de las siguientes afirmaciones son correctas.
I) Describe la distribución de la media de una muestra aleatoria proveniente de una población con varianza finita.
II) La suma de n variables aleatorias independientes y de varianza finita y no nula se aproxima a una distribución normal a medida que n aumenta.
9) Cuáles afirmaciones son incorrectas. Prueba de una cola (unilateral) y de dos colas (bilateral) implica:
I) Que una prueba de hipótesis (H1) de una cola podría redactarse como: media(A) < media(B), o media(A) > media (B), ya que se conoce el signo de la potencial diferencia antes de ejecutar la prueba
II) Una hipótesis alternativa H1 de dos colas, donde se desconoce el signo de la potencial diferencia, por ende la hipótesis alternativa H1 sería: media(A) =/ media(B)
10) En un test de chi-cuadrado (X2) da como resultado (X2=2.148, gl=2, valor-p=0.342 ) entonces se:
a) acepta H0 por lo tanto todos los tratamientos son iguales
Parte 4: Distribuciones de Frecuencias y Valor-p
11) Señale cuales afirmaciones son correctas.
I) Una distribución de frecuencias o tabla de frecuencias es una ordenación de los datos estadísticos, asignando a cada dato su frecuencia correspondiente.
12) Señale cuáles afirmaciones son correctas. El valor-p o valor de probabilidad es:
I) La probabilidad de que el estadístico de prueba tome un valor igual o superior al muestral bajo el supuesto de que la hipótesis nula es cierta.
II) Un valor que cuando es pequeño indica que es muy infrecuente (y poco verosímil) obtener una muestra como la obtenida, mientras que cuando el valor es alto indica que es frecuente (y verosímil) obtener una muestra como la obtenida por azar.
III) Un indicativo de cuánto (o cuán poco) contradice la muestra actual la hipótesis alternativa
13) Dado los siguientes datos, construya una tabla de distribución y calcule desde las frecuencias absolutas. Las frecuencias relativas, y las frecuencias relativas acumuladas crecientes y por medio de estos resultados responda cuales opciones son los resultados respectivos
I, II, VI Y VII
14) Calcule y seleccione cual es el resultado de la x: media, me: mediana y la mo: moda del siguiente conjunto de datos numéricos: 5,3,6,5,4,5,2,8,6,5,4,8,3,4,5,4,8,2,5,4
Mo=5, Me=5, x=4.8
Parte 5: Distribución Muestral de la Media y Asimetría
15) Las propiedades de la distribución muestral de la media son:
I) Eficiencia, refiriéndose a la precisión del estadístico muestral como estimador del parámetro de la población.
II) No ser sesgada, implicando que el promedio de todas las medias muéstrales posibles será igual a la media poblacional u2=u
III) Consistencia, refiriéndose al efecto del tamaño de la muestra en la utilidad de un estimador.
IV) Conforme aumenta el tamaño de la muestra, la variación de la media de la muestra en relación con la media de la población disminuye.
V) La distribución de medias muéstrales se vuelve normal a medida que aumenta el tamaño de la muestra.
16) Con respecto a la asimetría de datos, cuales son incorrectas:
I) Es el grado en que los datos son asimétricos.
II) Datos distribuidos normalmente por definición exhiben relativamente alta asimetría.
III) Datos con asimetrías positivas.
Parte 6: Toma de Decisiones en Pruebas de Hipótesis y Manejo de Datos en R
17) Cuáles afirmaciones son correctas. “La toma de decisión en una prueba de hipótesis, consiste asumir una probabilidad de cometer un error de tipo”
I) Rechazar H0 siendo que es verdadera, de tipo I (alfa)
II) Aceptar H0, siendo que es falsa, de tipo II (beta)
18) Cuando usted trabaja con bases de datos, ¿qué función desempeñan el signo $ (por ejemplo en el comando tabla$solumnaX) y el comando attach()?
I) El signo $ identifica columnas por su nombre y permite extraerlas vectorizadas.
II) El comando attach() permite que R “entienda” que cada columna se puede interpretar.
19) ¿Cuál es la esperanza de encestada del basquetbolista L. James por cada partido, si se tiene de cada encestada (xi) su probabilidad p(xi) estimada, representada en la siguiente tabla?
a) 10
20) Cual o cuales de los siguientes comandos me permitirían estimar la desviación estándar del peso de las mujeres:
Subset<-data$sexo==”f” sd(data$altura(subset])
21) Si usted desea realizar una ordenación y agrupación de un vector X compuestos por valores numéricos en el programa R; señalando calcular el número de intervalos, la amplitud de los intervalos y el valor mínimo y máximo de vector, entonces ¿Qué vectores de comandos deberíamos utilizar para ordenar estos cálculos en el orden que se señala?
I) m<-diff(range(X))/k
II) n<-min(X)
III) f<-max(X)
IV) p<-nclass.Sturges(X)
22) Si usted desea graficar en R una función lineal: y= a + bx, donde a= 3 y b= 1, especificando además los puntos a graficar con los colores. Cuál sería el comando a utilizar:
plot(x,y,points(x,y),col=”red”)
23) respecto a los comandos getwd() y setwd() cual de siguientes aseveraciones son correctas:
setwd() permite cambiar el directorio del trabajo de R
getwd() muestra el directorio de trabajo de R
Parte 7: Coeficiente de Variación, Pruebas de Normalidad y Funciones en R
24) Si usted tiene una muestra de varones con un peso medio muestral de 80 kg y con una desviación típica o estándar de 20 kg ¿cuál de los siguientes corresponde el resultado estimado del coeficiente de variación de Pearson?:
B) corresponde a un 25% de variabilidad relativa con respecto al peso medio.
25) ¿Cuáles hipótesis son correctas? Si se realiza un test de bondad de ajuste shapiro en que mi resultado de valor-p es 0.0043, y con un nivel de significancia de alfa: 0.05
Se rechaza H0: los datos se distribuyen normalmente.
26) el vector data <-read.csv(file.choose(),header=T), que función cumple file.choose
Permite seleccionar un archivo de manera interna.
27) ¿Cuáles comandos me permitirían obtener los valores de la variable altura_f de los individuos destacados en negrita?:
data f [3.2]
data f[22,10]
28) La función plot(x,y), col=”blue”) permite crear:
d) un gráfico de puntos x vs y con símbolos azules.
Parte 8: Cálculo de la Mediana y Otras Medidas Descriptivas en R
29) ¿Que afirmaciones son correctas con respecto al cálculo de la mediana?
I) Se deben ordenar los datos de manera creciente primero.
II) Calcular la profundidad denota la posición de la mediana a partir de un extremo.
III) Cuando n es impar la profundidad de la mediana es siempre un número par.
IV) Cuando n es par la profundidad de la mediana es siempre un número impar.
30) Si usted dispone de un vector numérico X, ¿qué información le entregará R si usted ejecuta los siguientes comandos: length(X); median(X); sd(X); y range(X)?
II) Número de elementos de X; la mediana de los elementos de X; la desviación estándar de los elementos de X; el valor mínimo y máximo de los elementos de X, respectivamente.
Solo II
31) Lea detalladamente. “El cociente ni/N, indica proporción que representa los datos de una categoría o clase determinada, en relación al total de datos (N)”. En relación con esta afirmación señala a qué definición corresponde:
c) Frecuencia relativa de cada clase o categoría.
Parte 9: Curtosis y Medidas Descriptivas
32) ¿Cuál de las siguientes afirmaciones no son correctas:
c) Leptocúrtica: es la curtosis >1. Donde los datos están en la media, siendo una curva muy apuntada. <0
33) Los siguientes datos son los puntajes de un grupo de adolescentes en un test de Agudeza Visual:
(25, 12, 15, 23, 24, 39, 13, 31, 19, 16)
Calcule la x: media, me: mediana, var: varianza y ds: desvío estándar. Luego señale de las siguientes opciones muestra los resultados correctos:
b) x= 21,7; me: 21; var:73,12; ds:8,55
34) Señale cuales de las afirmaciones son incorrectas en relación con la clasificación del tipo de datos.
I) Discretos: solo considera calores enteros como el número de hijos, número de empleados en una empresa, número de asignaturas aprobadas en unos semestres, etc.
II) Los datos cualitativos se clasifican en nominales y ordinales.
III) Los datos ordinales son características o cualidades cuyas categorías no tienen un orden preestablecido.
IV) Los datos nominales son características o cualidad cuyas categorías tienen un orden preestablecido.
c) III y IV
35) De la siguientes datos de edad de personas, calcule la x: media, me: mediana, var: varianza y ds: desviación estándar, y luego marque cuales valores son los resultados correctos.
D: 23, 45, 75, 89, 75, 89, 13, 45, 76, 98, 100, 1, 14, 63, 13, 56, 73, 56, 83, 76, 92, 83, 75, 15, 23, 22, 21, 43, 64, 53, 47, 8, 7, 88, 96, 48, 50, 25, 34, 35, 63, 21, 64, 86, 84, 85, 100.
Ordenados: 1 13 13 14 15 21 21 22 23 23 25 34 35 43 45 45 47 48 50 53 56 56 63 63 64 64 73 75 75 75 76 76 83 83 84 85 86 87 88 89 89 92 96 98 100 100.
b) x: 57.97; me: 63; var: 829.66; ds: 28.80