Download Función de distribución

Survey
yes no Was this document useful for you?
   Thank you for your participation!

* Your assessment is very important for improving the work of artificial intelligence, which forms the content of this project

Transcript
Estadística para Enfermería Tema 3
Variables aleatorias
Ejemplos:
X, hematocrito de una persona elegida aleatoriamente.
Y, peso de una persona elegida aleatoriamente.
U, número de hijos de una familia elegida aleatoriamente.
W, Transaminasa GOT de una persona elegida aleatoriamente.
EN TODAS ELLAS…
 El resultado es un número.
 No toman exactamente el mismo valor cada vez que se
hace la prueba.
 Puede variar de uno a otro, y en su variación influye el
azar.
Definición intuitiva: Una variable aleatoria es una variable cuyo
valor numérico se determina al azar.
1
Las variables aleatorias se representarán por letras mayúsculas, y
sus valores numéricos observados por letras minúsculas.
Clasificación de variables aleatorias
Discretas.
Continuas.
Definición: Una variable aleatoria X es discreta si puede tomar un
número finito (o infinito numerable) de valores puntuales posibles.
Ejemplos: número de hijos, número de incidentes cardiacos…
Definición: Una variable aleatoria X es continua si puede tomar
cualquier valor en algún intervalo (o intervalos) del conjunto de los
números reales.
(Además, la probabilidad de que tome uno determinado es 0.)
Ejemplos: número de hematíes, nivel de hemoglobina…
2
En el caso de X, hematocrito de una persona elegida
aleatoriamente:
 La variable X puede tomar cualquier valor entre cero y,
digamos, 60 %. Es decir, los valores de X están en el intervalo
[0, 60].
 ¿Cuál es la probabilidad de que un enfermo tenga un
hematocrito de, exactamente, 46.9813210692170312?
3
Variables aleatorias discretas: Funciones de probabilidad
La influencia del azar implica que se describa el comportamiento de
la variable en términos de probabilidades.
Ejemplo:
La siguiente tabla muestra la función de probabilidad para la variable
aleatoria X, número de personas por día que solicitan un tratamiento
innecesario en el servicio de urgencia de un pequeño hospital.
X
0
1
2
3
4
5
P(X=x) 0.01 0.1 0.3 0.4 0.1 ?
a) Obtener P(X=5). ¿Qué probabilidad representa en el contexto
del problema?
b) Encontrar P[X ≤ 2]. Interpretar esta probabilidad en el
contexto del problema.
c) Encontrar P[X < 2].
d) Encontrar P[X > 3].
Media y varianza de una variable aleatoria.
e) Calcular la media y la DE de la v.a.
4
Función de distribución
F(x)=P(X≤x).
Ejemplo:
La tabla siguiente muestra la función de probabilidad para la variable
aleatoria X, número de incidentes cardiacos al año en enfermos
coronarios.
X
6
7
8
9
10
P(X=x) 0.05 0.1 0.6 0.15 0.1
a) Hallar la tabla para la función de distribución F.
b) Utilizar F para calcular P[X ≤ 8].
c) Utilizar F para calcular P[X > 7].
5
Ejercicios
1. Sea X el número de casos nuevos de SIDA diagnosticados en un
importante hospital, durante un día. La función de distribución
de X se supone que es
x
0
1
2
3
4
5
6
F(x) 0.1 0.2 0.3 0.6 0.8 0.9 1.0
a) Hallar la probabilidad de que en un día cualquiera,
i. Sean diagnosticados tres casos nuevos, a lo sumo.
ii. Por lo menos un caso nuevo sea diagnosticado.
b) Hallar la función de probabilidad para X.
c) Calcular la media de casos diagnosticados al día y σ2.
6
LA DISTRIBUCIÓN BINOMIAL
Ejemplo
Un portador de tuberculosis tiene un 10% de posibilidades de
transmitir la enfermedad a alguien que no haya estado previamente
expuesto a ella y con el que entre en contacto directo.
Durante
el
transcurso de un día, un portador entra en contacto con diez de tales
individuos. ¿Cuál es la probabilidad de que exactamente cinco
contraigan la enfermedad?
¿Qué tienen de particular este experimento?
1. Se puede considerar a cada uno como compuesto por un número fijo de
pruebas idénticas n. (10)
2. El resultado de cada prueba puede clasificarse como "éxito" (contraer la
enfermedad) o “fracaso” (no contraer la enfermedad).
3. Las pruebas son independientes en el sentido de que el resultado de una
prueba no tiene efecto sobre el resultado de cualquier otra, y la probabilidad
de éxito p continúa siendo la misma de una prueba a otra. p = 0.1
4. La variable de interés es el número de éxitos en n pruebas.
7
Es el modelo binomial: Cualquier v.a. X que represente el número
de éxitos en n pruebas idénticas e independientes, con probabilidad
de éxito p, constante de una prueba a otra, se llama variable aleatoria
binomial con parámetros n y p: B(n,p). B(10,01).
Media y Varianza
¿Cuántos se espera que contraigan la enfermedad?
El sentido común señala 10(0.1) = 1 como número esperado de los
que contraen tuberculosis. La varianza no es tan evidente.
Teorema: Sea X binomial con parámetros n y p. Entonces:
E[X] =μ= np
Var X = σ2 = np(1 - p).
8
¿Qué pinta tiene el gráfico de barras de una distribución
binomial?
B(10,0.1)
Binomial
Prob. de Evento,Ensayos
0,1,10
probabilidad
0,4
0,3
0,2
0,1
0
0
2
4
6
8
10
x
B(20,0.3)
Binomial
Prob. de Evento,Ensayos
0,3,20
0,2
0,16
0,12
0,08
Esperanza
y Varianza en la distribución binomial
0,04
0
0
4
8
12
9
16
20
B(30,0.4)
Binomial
Prob. de Evento,Ensayos
0,4,30
0,15
0,12
0,09
0,06
0,03
0
0
5
10
15
20
25
30
B(100,0.5)
Binomial
Prob. de Evento,Ensayos
0,5,100
0,08
0,06
0,04
0,02
0
0
20
40
¿Conclusiones?
10
60
80
100
Variables aleatorias continuas: Funciones de densidad
En el caso discreto, las funciones de densidad (funciones de
probabilidad) se representan frecuentemente mediante tablas.
El caso continuo es más complejo debido a que como una variable
aleatoria continua puede tomar infinitos valores, resulta
imposible enumerarlos todos.
Necesitamos disponer de una expresión que nos permita calcular
probabilidades ya que para el caso continuo, nos interesa conocer
la probabilidad de que X esté comprendida en un intervalo de
valores específico.
11
Ejemplos:
1. Supongamos que la función de densidad de la variable aleatoria C,
o número de centímetros cúbicos de un fármaco que han de
prescribirse para el control de ataques epilépticos, es
f (c) = 200c / 9
0  c  0.3
a. Calcular el valor de f (0,2).
b. Calcular la probabilidad de que deban prescribirse al menos
0.2 cc del fármaco para controlar los ataques.
c. Calcular la probabilidad de que deban prescribirse al menos
0.1 cc de fármaco.
d. Calcular la probabilidad de que deban prescribirse entre 0.1 y
0.2 cc de fármaco.
12
2. Sea X el tiempo de supervivencia en años después de un
diagnóstico de leucemia. La figura muestra la función de
densidad de X.
a) Sombrear la región correspondiente a la probabilidad de que
el paciente sobreviva menos de 6 meses.
b) Si el área del apartado a vale 7/16, ¿cuál es la probabilidad de
que un paciente sobreviva por lo menos 6 meses?
c) ¿Cuál es la probabilidad de que un paciente sobreviva
exactamente 6 meses?
13
3. Supongamos que la variable aleatoria X, tiempo en minutos que
tarda una enfermera en responder a la llamada de un paciente, está
uniformemente distribuida en el intervalo de 0 a 5 minutos. La
figura siguiente representa esta densidad.
a) Comprobar que en este caso c = 15 .
b) Sombrear el área que representa la probabilidad de registrar una
respuesta que exceda los 3 minutos.
c) Calcular la probabilidad representada en el apartado b.
d) ¿Cuál es la media en el tiempo de respuesta?
14
Función de distribución (acumulativa)
La función de distribución, representada por F, se define como
F(x) = P[X  x].
En el caso continuo podemos hallar F(c) calculando el área
delimitada por la gráfica de densidad, a la izquierda del punto c.
En general, esto implica cálculos bastante complejos, por eso se han
creado tablas de probabilidades acumulativas para las variables
aleatorias utilizadas con mayor frecuencia.
15
Ejemplos:
1. Sea X la variable aleatoria número de años de funcionamiento de
un marcapasos hasta que empieza a fallar. La figura representa la
densidad de X.
(a) ¿Qué región(es) representa F(4)?
(b) ¿Qué probabilidad representan las regiones II y III juntas?
Expresar esta probabilidad en función de F.
(c) ¿Qué probabilidad representa la región V? Expresar esta
probabilidad en función de F.
(c) Expresar P[X  4] y P[X < 4] en función de F.
16
2. La figura siguiente muestra la gráfica de una función de densidad
de una variable aleatoria X, entendida como el tiempo en
minutos que debe transcurrir para que un sedante haga efecto.
(a) ¿Qué región(es) del diagrama corresponde(n) a F(2)?
(b) ¿Qué región(es) del diagrama corresponde(n) a F(6)?
(c) Expresar la región III en función de F.
(d) Expresar la región IV en función de F.
17
3. Sea la variable X entendida como el tiempo de eficacia en meses
para un electrodo de pH. Su densidad viene representada en la
figura.
(a) ¿Qué regiones de la gráfica comprende F(27)?
(b) Expresar mediante la función F la probabilidad de que un
electrodo de pH elegido aleatoriamente funcione con eficacia
durante al menos 18 meses. ¿Qué regiones corresponden a
esta probabilidad?
(c) Expresar mediante la función F la probabilidad de que un
electrodo
de
pH
elegido
aleatoriamente
funcione
correctamente durante un periodo de 27 a 36 meses. ¿Qué
regiones corresponden a esta probabilidad?
18
Distribución normal
Esta distribución fue descrita por primera vez en 1773 por Abraham
De Moivre como el valor límite de la densidad binomial cuando
el número de ensayos es infinito.
La distribución normal es de gran importancia en el análisis y cálculo
de todos los aspectos relacionados con datos experimentales en
ciencias y en medicina.
Su función de densidad tiene la forma:
1
1 / 2( x   ) /  2
e
f (x) =  2
(x : nº real)
donde  es la desviación típica de la variable aleatoria y µ es su
media.
19
Consideraciones sobre la normal
Para identificar una determinada variable aleatoria distribuida
normalmente sólo necesitamos hallar los valores de µ y de .
La ecuación de la función de densidad de la normal no es sencilla
aunque, como trabajaremos más con las tablas de probabilidad que
con ella misma, su complejidad no tiene demasiada importancia.
Propiedades de la Curva Normal
1. La gráfica de densidad de cualquier variable aleatoria normal es
una curva simétrica en forma de campana con centro en su media µ.
2. f(x)  0 y el área limitada por la gráfica de f y el eje horizontal es l.
Las
probabilidades
se
calculan
correspondientes.
20
encontrando
las
áreas
Distribución Normal Tipificada
Hay un número infinito de variables aleatorias normales, cada una
de ellas se caracteriza únicamente por los parámetros µ y 2.
Para calcular las probabilidades asociadas a una curva normal
específica hay que recurrir al procedimiento de tipificación, mediante la
cuál se puede transformar cualquier cuestión relativa a una variable
aleatoria normal en otra equivalente pero referida a una variable
aleatoria normal de media 0 y varianza 1.
Esta variable normal particular se representa con la letra Z y se
conoce como variable aleatoria normal tipificada, cuya función de
distribución acumulativa se ofrece por separado.
Ejemplos de uso de la normal tipificada
(a) Hallar P[Z  1.56] = F (1.56). La probabilidad es de 0.9406.
(b) Encontrar P[Z  -1.29]. p=0.9015.
(c) Hallar P[-1.72  X  1.80]. p= 0.9214
(d) Hallar el punto z tal que P[Z  z] = 0.025. z = -1.96.
21
Teorema de tipificación
Sea X una variable normal con media µ y varianza 2 . La variable
(X - µ)/ es normal tipificada (estándar).
Ejemplo. El plomo, como muchos otros elementos, está presente
en el medio natural. La revolución industrial y el automóvil han
incrementado la cantidad de plomo en el medio hasta el punto de
que, en algunos individuos, la concentración de plomo puede
alcanzar niveles peligrosos. Sea X: concentración de plomo en
partes por millón en la corriente sanguínea de un individuo.
Supongamos que X es una variable normal con media 0.25 y
desviación típica 0.11. Una concentración superior o igual a 0.6
partes por millón se considera extremadamente alta. ¿Cuál es la
probabilidad de que un individuo seleccionado aleatoriamente esté
incluido en esta categoría?
P[X  0.6] = P  X  0.25  0.6  0.25  = P[Z  3.18]= 1 - P[Z  3.18]=
 0.11
0.11
1 - 0.9993 =0.0007
22

Ejemplo.
Sea X la cantidad de radiación que puede ser absorbida por un
individuo antes de que le sobrevenga la muerte. Supongamos que
X es normal, con una media de 500 roentgen y una desviación
típica de 150 roentgen. ¿Por encima de qué nivel de dosificación
sobreviviría solamente el 5% de los expuestos?
P[X  x0] = 0.05
P[X  x0] = P  X  500 
 150
x0  500 
= P Z  x0  500 

150 
150 

= 0.05
De este modo, (x0 – 500) /150 es el punto de la curva normal
tipificada que deja un 5% del área a la derecha y el 95% restante
a la izquierda.
Este valor es 1,645. Así pues:
x0  500
=
150
1.645
x0 = 150 (1.645) + 500 = 746.75 roentgen
23
Ejercicios
1. Calcular las siguientes probabilidades:
a) P[Z  -1.52]. b)
P[Z  1.37].
d) P[-1.21  Z  1.73]. e)
c)
P[Z  -1.42].
P[Z = 1.50].
f) El punto z tal que P[Z  z]
.

0.05.
2. Entre los diabéticos, al nivel de glucosa en sangre en ayunas
puede suponérsele una distribución aproximadamente normal
con media l06 mg/100 ml y desviación típica 8 mg / 100 ml.
(a)
Calcular P[X  120 mg/100 ml].
(b)
Calcular P[106  X  110].
(c) Encontrar un punto x0 que tenga la propiedad de que el 25%
de los diabéticos tenga un nivel de glucosa en ayunas X por
debajo de él.
24
Regla de la probabilidad normal
Sea X una variable aleatoria de distribución normal con su
correspondiente µ y varianza 2; entonces:
(a) La probabilidad de que X tome un valor a una distancia
máxima de una desviación típica de su media es 0.68 (P[µ - 
< X < µ + ]  0.68).
.
(b) La probabilidad de que X tome un valor a una distancia
máxima de su media de dos veces la desviación típica es 0.95
(P[µ - 2 < X < µ + 2]  0.95).
.
(c) La probabilidad de que X tome un valor a una distancia
máxima de tres veces la desviación típica de su media es 0.99
(P[µ - 3 < X < µ + 3]  0.99).
.
25
Límites 2-σ
Una de las aplicaciones más frecuentes de la regla de probabilidad
normal surge en el contexto médico. Cuando se toma una muestra
de sangre se realizan varios análisis sobre ella; por ejemplo, suelen
medirse de forma rutinaria los niveles de potasio, sodio, proteínas
totales, calcio y colesterol. Durante varios años se han recogido
mediciones procedentes de un gran número de personas,
información que ha sido utilizada para establecer con un alto grado
de precisión, los niveles medios y la cantidad de variabilidad
esperada en individuos sanos. Estos valores pueden ser utilizados
para establecer lo que llamamos "límites 2-sigma", µ ± 2, para
cada variable estudiada, ya que gracias a la regla de la probabilidad
normal sabemos que aproximadamente un 95% de las personas
sanas estarán dentro de estos límites; afortunadamente tan sólo un
5% de la población estará fuera de ellos, de los cuáles un 2.5%
presentará niveles anormalmente altos y el 2.5% restante los
presentará anormalmente bajos.
26
Existen dos razones para observar valores más allá de los límites 2sigma en las tablas médicas establecidas. Una persona puede estar
perfectamente sana y, simplemente, ocurrir que sus niveles
“normales” son inusualmente altos o bajos al compararlos con los
de la población general; sin embargo, también puede darse el caso de
que esta persona tenga algún problema. De este modo, la presencia
de niveles inusuales debe tomarse sólo como una señal de aviso que
indica la necesidad de seguir indagando.
Ejemplos:
1. El potasio en personas sanas sigue una normal con µ=4,4 y
σ=0,45. ¿Cuáles son los límites 2-σ?
2. La HCM (hemoglobina corpuscular media) en sangre sigue una
N(30,2). ¿Qué límites de normalidad, que incluyan el 95% de los
individuos sanos, se pueden proponer?
Nota: Decir que una variable biológica sigue la distribución normal
es, en realidad, un abuso del lenguaje. Sería más correcto decir que,
utilizando el modelo normal, se consigue reproducir de forma muy
notable el comportamiento empírico de la variable. La distribución
normal es un modelo no una verdad absoluta.
27
Ejercicio:
Cierto estimulador tiene un umbral que varía de un voluntario sano
a otro. Su distribución es aproximadamente normal con una media
de 5 voltios y una desviación típica de 0,5 voltios.
Completar las siguientes frases:
El 95% de los voluntarios tienen un umbral que se sitúa entre ____
y _____ voltios.
En el 95% de los voluntarios el umbral se sitúa por encima de
_____ voltios.
En el 95% de los voluntarios el umbral se sitúa por debajo de _____
voltios.
El 90% de los voluntarios tienen un umbral que se sitúa entre ____
y _____voltios.
En el 84% de los voluntarios el umbral se sitúa por encima de ____
voltios.
En el 84% de los voluntarios el umbral se sitúa por debajo de _____
voltios.
¿Cuál es la probabilidad de que el umbral supere los 6,3 voltios?
¿Cuál es la probabilidad de que un voluntario tenga un umbral entre
4,5 y 5,5 voltios?
28
Las curvas ROC
Cierto estimulador tiene un umbral que varía de un voluntario sano
a otro. La distribución de X es aproximadamente normal con una
media de 5 voltios y una desviación típica de 0,5 voltios.
En cierto tipo de enfermos, la variable sigue una N(6,0.5).
Dependiendo del criterio diagnóstico, habrá unos valores de
especificidad y sensibilidad.
29
Por ejemplo, si se consideran enfermos los que superan el valor 5,5,
estos valores serán:
Sens  P( | E )  P( X  5,5 | E )  P( Z 
5,5  6
)  P( Z  1)  1  P( Z  1)  84,13%
0,5
Proporción de la curva de enfermos que quedan por encima del criterio
diagnóstico.
Esp  P( | S )  P( X  5,5 | S )  P( Z 
5,5  5
)  P( Z  1)  84,13%
0,5
Proporción de la curva de sanos que quedan por debajo del criterio diagnóstico.
30
Si el criterio fuese que se consideran enfermos los que superan los
5.2 voltios:
Sens  P( | E )  P( X  5,2 | E )  P( Z 
Esp  P( | S )  P( X  5,2 | S )  P( Z 
5,2  6
)  P( Z  1,6)  1  P( Z  1,6)  94,52%
0,5
5,2  5
)  P( Z  0,4)  65,54%
0,5
Nota: Al desplazar el criterio diagnóstico a la izquierda aumenta la
sensibilidad y disminuye la especificidad.
31
 Moviendo el punto de corte se cambian los valores de la
sensibilidad y de la especificidad.
 Si se desea aumentar la sensibilidad, la especificidad disminuye.
Y viceversa.
 Habrá tantos pares de valores de sensibilidad y especificidad
como posibles puntos de corte.
Definición de curva ROC:
La curva característica ROC contiene todos los posibles valores de
sensibilidad y especificidad de un indicador diagnóstico.
En el eje X se representa 1-especificidad (es decir, el coeficiente de
falsos positivos).
En el eje Y se representa la sensibilidad.
Por ejemplo, para diferentes puntos de corte del ejercicio del
umbral, los valores correspondientes de especificidad y sensibilidad
serían:
Punto de corte 5,1
5,2
5,3
5,4
5,5
5,6
5,7
5,8
5,9
Sensibilidad
0,96 0,94 0,92 0,88 0,84 0,79 0,72 0,65 0,60
Especificidad
0,60 0,65 0,72 0,79 0,84 0,88 0,92 0,94 0,96
32
Curva ROC
Especificidad 1-Especificidad Sensibilidad
0,6
0,4
0,96
0,65
0,35
0,94
0,72
0,28
0,92
0,79
0,21
0,88
0,84
0,16
0,84
0,88
0,12
0,79
0,92
0,08
0,72
0,94
0,06
0,65
0,96
0,04
0,6
33
Información contenida en la curva:
 Mediante esta representación de los pares (1-especificidad, sensibilidad)
obtenidos al considerar todos los posibles valores de corte de la prueba,
la curva ROC nos proporciona una representación global de la
exactitud diagnóstica.
 La curva ROC es necesariamente creciente, propiedad que refleja el
compromiso existente entre sensibilidad y especificidad: si se modifica
el valor de corte para obtener mayor sensibilidad, sólo puede hacerse a
expensas de disminuir al mismo tiempo la especificidad.
 Si la prueba no permitiera discriminar entre grupos, la curva ROC sería
la diagonal que une los vértices inferior izquierdo y superior derecho.
O en otras palabras: Si la prueba fuera inútil, la sensibilidad
(verdaderos positivos) sería igual a la proporción de falsos
positivos y la curva sería diagonal: de (0,0) a (1,1).
 La exactitud de la prueba aumenta a medida que la curva se desplaza
desde la diagonal hacia el vértice superior izquierdo.
 Si la discriminación fuera perfecta (100% de sensibilidad y 100% de
especificidad) pasaría por dicho punto.
 Las pruebas habituales tienen curvas intermedias:
34
Ejercicio:
El indicador Relación cintura-cadera (RCC) ha sido relacionado
con la incidencia de enfermedad cardiovascular. Supóngase que, a
través de estudios previos, ha conseguido establecerse en cierta
población general sana (libre de enfermedad cardiovascular) que
el valor de este indicador sigue un modelo de probabilidad
normal, de media 0,88 y desviación típica 0,10. Por el contrario,
en una población de sujetos con enfermedad cardiovascular
diagnosticada, el valor del indicador RCC sigue un modelo de
probabilidad normal, con media 0,93 y desviación típica 0,15.
Supóngase que se decide utilizar este indicador como prueba
diagnóstica de enfermedad cardiovascular, dando como positivo
(+) a todo sujeto con RCC superior a 0,90.
a) Calcúlense la sensibilidad, especificidad, falsos positivos y
falsos negativos de este criterio.
b) Sombrear en la imagen el área correspondiente a la
sensibilidad.
c) Sombrear en la imagen el área correspondiente al coeficiente
de falsos positivos.
35
d) Sombrear en la imagen el área correspondiente al coeficiente
de falsos negativos.
e) Sombrear en la imagen el área correspondiente a la
especificidad.
36
f) ¿Y si el punto de corte estuviese en 0,92?
g) Completar la siguiente tabla de especificidades y sensibilidades
para distintos puntos de corte:
Punto de corte 0,895 0,900 0,905 0,910 0,915 0,920 0,925
Sensibilidad
Especificidad
h) Construir la curva ROC.
37