3-SAS Metodos Estadisticos
Descrição do Produto
SAS BASICO Giampaolo Orlandoni M. Josefa Ramoni P.
Instituto de Estadística Aplicada Universidad de Los Andes Venezuela
ESTADISTICA DESCRIPTIVA PROCEDIMIENTOS SAS
• ESTADISTICA DESCRIPTIVA • PROCEDIMIENTOS SAS: 1. PROC MEANS 2 PROC FREQ 2. 3. PROC UNIVARIATE
METODOLOGIA ESTADISTICA 1‐METODOLOGIA ESTADISTICA 2‐DATOS ESTADISTICOS 1.1‐CONCEPTO Y NATURALEZA. 1.2‐CLASIFICACION: TEMPORALES, ATEMPORALES 1.3‐ESCALAS DE MEDIDA: NOMINAL, ORDINAL, INTERVALOS 3‐VARIABLES ESTADISTICAS 2.1‐VARIABLES CATEGORICAS O CUALITATIVAS 2.2‐VARIABLES CUANTITATIVAS: DISCRETAS, CONTINUAS 4‐ANALISIS DECRIPTIVO DE LOS DATOS ESTADISTICOS 3.1‐GRAFICOS: HISTOGRAMAS, CAJAS, TENDENCIA, DISPERSION 3 1‐DISTRIBUCION 3.1 DISTRIBUCION DE FRECUENCIAS. ABSOLUTA. RELATIVA. DE FRECUENCIAS ABSOLUTA RELATIVA 3.2‐MEDIDAS DESCRIPTIVAS: 1‐TENDENCIA CENTRAL 2‐POSICION 3‐DISPERSION 4‐FORMA 5‐ASOCIACION
METODOLOGIA ESTADISTICA IDENTIFICACION DEL PROBLEMA D E S C R I P T I V A
OBTENCION DE DATOS PROCESAMIENTO Y SINTESIS DE DATOS PROCESAMIENTO Y SINTESIS DE DATOS
DATOS de la POBLACION
DATOS de la MUESTRA
Conjunto total de mediciones Subconjunto representativo de la de la característica del proceso población (grupo de mediciones) CARACTERISTICAS POBLACIONALES (PARAMETROS) • Valores desconocidos de la Población • Se estiman con base en muestras
CARACTERISTICAS MUESTRALES (ESTIMADORES) • Función de la muestra • Se infieren a la población
LA ESTADÍSTICA: •Estudia Fenómenos Aleatorios: Fenómenos parcialmente predecibles debido a su variabilidad inherente. •Identifica y Analiza la Variabilidad Inherente de los Fenómenos Aleatorios. •Proporciona métodos para recolectar, organizar, resumir y analizar información con fines descriptivos e inferenciales.
PROBLEMAS, INFORMACION Y DATOS ESTADISTICOS REALIDAD UNIDADES EXPERIMENTALES MEDIDAS RELEVANTES DATOS ESTADISTICOS
INDISPENSABLE:
•Planificar la recolección de datos dentro del marco de las preguntas que deben contestarse. •Datos correctos y exactos, recopilados mediante elaborados diseños muestrales, son inútiles si no p permiten resolver las p preguntas g de interés.
INFORMACION UTIL
PROCESO GENERADOR DE INFORMACION UTIL PARA LA TOMA DE DECISIONES Y LA SOLUCION DE PROBLEMAS: 1. FORMULACION DEL PROBLEMA O PREGUNTAS QUE DEBEN RESOLVERSE 2. RECOPILAR DATOS RELATIVOS A LAS CUESTIONES PLANTEADAS 3. ORGANIZAR Y ANALIZAR LOS DATOS EN FORMA ADECUADA 1. ANALISIS GRAFICO 2. ANALISIS NUMERICO
DATOS ESTADISTICOS •RESULTADO SU O NUMERICO U CO DE MEDIDAS S SOBRE SO UNIDADES U S EXPERIMENTALES S •OBSERVACIONES DISPONIBLES PARA EL ANALISIS ESTADISTICO •INFORMACION: ESTA BASADA EN DATOS. PERMITE RESOLVER PROBLEMAS CLASIFICACION DE LOS DATOS: 1-DATOS TEMPORALES: SERIES CRONOLOGICAS DATOS DE UN MISMO ELEMENTO EN DISTINTOS PERIODOS DE TIEMPO EJEMPLO: PIB anual, Consumo 2-DATOS ATEMPORALES: MATRICES DE DATOS DATOS DE DIFERENTES ELEMENTOS EN UN MISMO PERIODO DE TIEMPO EJEMPLO: Carros X1 X2 ... Xj ......... Xp
ESCALAS DE MEDIDA 1. NOMINAL 2 ORDINAL 2. 3. INTERVALO 4. RELACION
MATRIZ de DATOS
Xij
ESCALAS DE MEDIDA ESCALA
CARACTERISTICAS 1.IDENTIFICACION Y CLASIFICACION DE UNIDADES
NOMINAL
EJEMPLOS
MEDIDAS ESTADISTICAS
1.CLASIFICACION POR SEXO
2.CLASIFICACION POZOS 2.LOS NUMEROS INDICAN LA CLASE O CATEGORIA. NO INDICAN CANTIDAD DE LA CARACTERISTICA DE PETROLEROS LAS UNIDADES (PRODUCTIVO SECO) (PRODUCTIVO,
1.PORCENTAJES 2.MODA
1.ORDENAMIENTO Y POSICION RELATIVA DE LAS UNIDADES
ORDINAL
2.INDICA SI UNA UNIDAD TIENE MAS O MENOS CANTIDAD DE LA CARACTERISITICA QUE OTRA CANTIDAD DE LA CARACTERISITICA QUE OTRA UNIDAD 3.NO INDICA LA MAGNITUD DE LAS DIFERENCIAS ENTRE LAS UNIDADES
1.FRACTILES S ECONOMICA O O SO SOCIAL 1.CLASE
2.MEDIANA
2.CALIDAD DEL CRUDO: (PESADO, LIVIANO)
4.PERMITE MEDIR OPINIONES, ACTITUDES, PREFERENCIAS 1.MEDIA 1.LAS DIFERENCIAS ENTRE UNIDADES PUEDEN COMPARARSE. INTERVALOS
2.LAS DISTANCIAS IGUALES EN LA ESCALA REPRESENTAN VALORES IGUALES EN LA CARACTERISTICA QUE SE MIDE
2.RANGO 1.TEMPERATURA 1 TEMPERATURA (F, (F C) 2.OPINIONES 3.INDICES
3 EL PUNTO CERO ES ARBITRARIO 3.EL PUNTO CERO ES ARBITRARIO
3 VARIANZA 3.VARIANZA 4.DESVIACION ESTANDAR 5.COEFICIENTE CORRELACION 6.COEFICIENTE VARIACION
1.EL PUNTO CERO ES FIJO RELACION
1.EDAD 2.LA RELACION ENTRE LOS VALORES DE LA ESCALA 2.INGRESO 3.COSTOS SE PUEDE CALCULAR
1.MEDIA GEOMETRICA 2.COEFICIENTE VARIACION
VARIABLE ESTADISTICA •VA: VA: REPRESENTA CARACTERISTICAS DE LOS ELEMENTOS QUE CONFORMAN LA POBLACION O MUESTRA •CLASIFICACION: CUALITATIVAS, CUANTITATIVAS
Variable CUALITATIVA CATEGÓRICA
CUANTITATIVA DISCRETA
CUANTITATIVA CONTINUA
Ejemplos •Bueno – Malo (Calidad Aparato, Servicio) •Pasa Pasa ‐ No pasa No pasa •Defecto‐ No Defecto •Color •N. Pozos Perforados Nú D f A id F ll •Número Defectos, Accidentes, Fallas •Nivel Educativo •Categoría Profesional •Temperatura p •Presión •Tiempo,Edad •Volumen de Crudo Extraído •Dureza •Presión Arterial •Precios
Características
Gráficos •BARRAS
•Atributos
•SECTORES
•Cualidades
•MOSAICOS
•Valores Enteros
•BARRAS
•Número Casos
•MOSAICOS •ASOCIACION •HISTOGRAMA HISTOGRAMA •POLIGONO
Valores Reales
•CAJAS TENDENCIA •TENDENCIA •ASOCIACION 8
VARIABLES DISCRETAS DIAGRAMA de BARRAS. GRAFICOS DE SECTORES (Carros.dat)
Frecuencia
Frec. Acumulada
Cl Class
CIL
Ab l t Absoluta R l ti Relativa Ab l t Relativa Absoluta R l ti
1
4
104
0.689
104
0.689
2
6
30
0.199
134
0.887
3
8
17
0.113
151
1.000
PROCEDIMIENTO SAS ANALYZE
VARIABLES CONTINUAS HISTOGRAMA de FRECUENCIAS. DIAGRAMA de CAJA. DISTRIBUCION de FRECUENCIAS (Carros.dat) 22 19
El Histograma indica la mezcla de tres poblaciones (origen) El análisis debe hacerse por grupo de origen El análisis debe hacerse por grupo de origen
20
PROCEDIMIENTO SAS ANALYZE VARIABLE DATA ONE VARIABLE ANALYSIS ONE VARIABLE ANALYSIS
DISTRIBUCION DE FRECUENCIAS Limite Clase 1 2 3 4 5 6 7 8 9 10 11 12 13 14 Total
Limite
Inferior Superior 13.0 15.6 15.6 18.1 18.1 20.7 20.7 23.3 23.3 25.9 25 9 25.9 28 4 28.4 28.4 31.0 31.0 33.6 33.6 36.1 36.1 38.7 38 7 38.7 41 3 41.3 41.3 43.9 43.9 46.4 46.4
49.0
Punto Medio 14.3 16.9 19.4 22.0 24.6 27 1 27.1 29.7 32.3 34.9 37.4 40 0 40.0 42.6 45.1 47.7
Frecuencia Absoluta 1 11 19 10 12 20 14 18 22 11 5 3 3 1 150
Frecuencia Acumulada
Relativa 0.0067 0.0733 0.1267 0.0667 0.0800 0 1333 0.1333 0.0933 0.1200 0.1467 0.0733 0 0333 0.0333 0.0200 0.0200 0.0067
Absoluta 1 12 31 41 53 73 87 105 127 138 143 146 149
Relativa 0.0067 0.0800 0.2067 0.2733 0.3533 0 4867 0.4867 0.5800 0.7000 0.8467 0.9200 0 9533 0.9533 0.9733 0.9933
150
1.0000
DIAGRAMA DE CAJA (BOX Plot) • • • •
Síntesis gráfica de los datos. Indica: ubicación, dispersión, asimetría Los lados de la caja representan el primer y tercer quartil Q1, Q3. La línea media de la Los lados de la caja representan el primer y tercer quartil Q1, Q3. La línea media de la caja representa la mediana o segundo quartil Q2. Los valores máximo y el mínimo no outliers se grafican como puntos al final de las líneas Rango Intercuartil RI=(Q3 ‐ g ( Q1): medida de la dispersión del 50% central de los datos ) p Min Valor No Outlier = Max[X(1), Q1-1.5(Q3-Q1)] 1.5(Q3-Q1)
Q1 = 25%
Q1
X Q2
RI = (Q3 ‐ Q1)
Q2 = 50%
Q3 = 75%
Q3
1.5(Q3 - Q1)
Max Valor No Outlier = Min[X(n), Q3+1.5(Q3-Q1)] VALORES EXTREMOS (0, *)
11
GRAFICOS DE TENDENCIA • Análisis de patrones y tendencias • Visualiza el comportamiento de los datos en el tiempo Visualiza el comportamiento de los datos en el tiempo
Tendencia creciente
Valores anormales
Tendencia decreciente
Ciclo s
Corrida de proceso
Variabilidad creciente 12
SINTESIS DESCRIPTIVA DE LOS DATOS ESTADISTICOS
1-TENDENCIA CENTRAL 2-POSICION 3-DISPERSION 4-FORMA 5 ASOCIACION 5-ASOCIACION GIAMPAOLO ORLANDONI MERLI.
2011
A‐GRAFICOS Y TABLAS GRAFICOS
•UNIVARIANTES. MULTIVARIANTES
TABLAS
•TABLAS DE FRECUENCIAS •TABLAS CRUZADAS
B‐MEDIDAS DESCRIPTIVAS ARITMETICA •MEDIA ARITMETICA •MEDIA 1. TENDENCIA CENTRAL
•MEDIANA •MODA •MAXIMO
2. POSICION (ORDEN)
•MINIMO ( , ) •CUANTILES (CUARTILES, PERCENTILES) •RANGO, RANGO INTERCUARTILICO
3. DISPERSION (VARIABILIDAD)
•VARIANZA, DESVIACION ESTÁNDAR •COEFICIENTE DE VARIACION
4. FORMA
5. ASOCIACION
•ASIMETRIA (SESGO) •CURTOSIS (ACHATAMIENTO) •COVARIANZA •CORRELACION
14
1-MEDIDAS DE TENDENCIA CENTRAL
Media Acotada Media Acotada (Media Recortada)
Conjunto Total Datos Conjunto Total Datos –
Media Media Geométrica (G)
G= ((X1 G X1*X2*…*Xn X2 … Xn)1/n
– (%Menor + %Mayor)
Se elimina un porcentaje (5‐10%) de los Se elimina un porcentaje (5‐10%) de los valores más altos y bajos del conjunto de datos (datos outliers) Escala de Medida No Lineal.
Log(G) =(log(Xi))/n 15
2-MEDIDAS DE POSICION (MEDIDAS DE ORDEN)
3-MEDIDAS DE DISPERSION (VARIABILIDAD)
DESVIACION ESTANDAR (S) •Raíz Raíz cuadrada positiva de la Varianza. Medida de dispersión más común cuadrada positiva de la Varianza. Medida de dispersión más común •Se expresa en las mismas unidades que la Variable Estadística. •Estandariza los valores de la VE (VE con media cero y desviación estándar unitaria) unitaria) Z (X μ) /σ ~ (0;1) Z = (X –μ) /σ ~ (0;1) •Permite calcular la proporción de datos contenido en cierto intervalo alrededor de la media: El Intervalo (μ ± Kσ) contiene al menos (1‐1/K2), K>1
COEFICIENTE DE VARIACIÓN: Medida de Dispersión Relativa UNIDAD
Media
Desv Est
CV (%)
1‐Comparación de muestras con distintas unidades de medida y diferentes promedios Tiempo Espera Salario
Minutos
78.7
12.14
12.05
Bs F
1000.0
215.35
21.53
2‐Comparación de muestras con las mismas unidades de medida, y diferentes promedios Temperatura A
°C
1100
225
20.45
Temperatura B
°C
800
200
18 25.00
4-MEDIDAS DE FORMA
19
HISTOGRAMAS y FORMAS
NORMAL
ASIMETRIA POSITIVA
UNIFORME
BIMODAL
INTERVALO VACIO
ASIMETRIA NEGATIVA
DATOS OUTLIERS
AREAS BAJO LA CURVA NORMAL
µ-3
µ-2
µ-
µ
µ+
µ+2
µ+3
68 26% 68.26% 95.44% 99.73%
21
FORMA GENERAL DE LOS PROCEDIMENTOS SAS PROC (NOMBRE)
(PROC)
DATA=LIBRERÍA.ARCHIVO Í OPCIONES;
•BY =PARTICIÓN DEL CONJUNTO DE DATOS EN POR LAS VARIABLES LISTADAS EN BY. BY
GRUPOS,
DEFINIDOS
•CLASS =VARIABLES DE CLASIFICACIÓN EN EL ANÁLISIS. •FREQ
=VARIABLE QUE INDICA LA FRECUENCIA DE OCURRENCIA
•ID
=VARIABLES
INDICADORAS EN LA SALIDA DEL PROCEDIMIENTO.
•OUTPUT=SALIDA DE DATOS. •VAR
=VARIABLES EMPLEADAS POR EL PROCEDIMIENTO
•WEIGHT=VARIABLE
PONDERACIÓN.
•FORMAT=ESPECIFICA EL FORMATO. •LABEL =ETIQUETAS DESCRIPTIVAS CON NOMBRES DE VARIABLES. •TITLE =‘TITULO’
PROC MEANS PROC MEANS DATA=LIBRERÍA.ARCHIVO OPCIONES; •BY
VARIABLES;
•CLASS
VARIABLES/OPCIONES;
•FREQ FREQ
VARIABLE;
•ID
VARIABLES;
•WEIGHT
VARIABLE; ;
•VAR
VARIABLES
•WEIGHT
VARIABLE;
•TYPES
REQUEST;
•WAYS
LIST;
•OUTPUT=OUT= ARCHIVO/OPCIONES;
PROC MEANS EJEMPLO 1
Data Notas;
3_1-Proc Means Notas.sas
Input Nombre $ Sexo $ Status $ An $ Seccion $ Nota1 Nota2; Datalines; Alarcon F 2 97 A 90 87 Bravo M 1 98 A 92 97 Camacho M 2 98 B 81 71 Duran M 1 97 A 85 72 Espinoza F 1 98 B 89 80 Franco M 1 97 B 78 73 Garces F 2 97 A 82 91 Hernandez F 1 98 B 84 80 Montilla M 2 97 A 88 86 Navas M 1 97 B 91 93
; Proc sort data=Notas; By Anio Status; run; Proc print; run;
Proc oc MEANS S fw=6 6 d data=Notas; t ot s; Class Anio; Var Nota2; run;
PROC MEANS EJEMPLO 2 Proc MEANS fw=6 data=Notas; Class Status Anio; Var a Nota2; ota ; Output out=sumstat1 mean=NotaPromedio idgrp; run; Proc print data=sumstat1 noobs; title1 'Notas '; run;
EJEMPLO 3 Proc MEANS fw=6 data=Notas Noprint; Class Status Anio; Var Nota2; Output out=sumstat2 mean=NotaPromedio idgrp (max(Nota2) obs out (Nombre)=MejorNota); run; P Proc print i t data=sumstat2 d t t t2 noobs; b title1 'Notas '; run; 3_1-ProcMeansNotas.sas
ANALISIS DE UN CASO Estructura del Data Set pacientes Variable PACN SEXO VISITA HR SBP DBP DX AE
Descripción Paciente Num Género Vi it Fecha Visita F h Heart Rate Presión Sistólica Presión es ó Diastólica stó c Código Diagnóstico Evento Adverso
Tipo Valores Válidos Caracter Numerales Caracter ‘M‘ , 'F' MMDDYY10 MMDDYY10. F h válida Fecha álid Numérica 40 - 100 Numérica 80 - 200 Numérica u é c 60 - 120 0 Caracter 1 a 3 dígitos Caracter '0‘ , '1'
INPUT libname clinica 'c:\DataSAS'; Data clinica.pacientes; Infile 'c:\DataSAS\pacientes.txt' lrecl=30 truncover; Input @1 PacNo $3. $3 @15 HR 3. PacN Sexo Visita HR SBP DBP Dx AE
@4 Sexo $1 $1.
@5 Visita
mmddyy10 mmddyy10.
@18 SBP 3. @21 DBP 3. @24 Dx $3. @27 AE $1.; = "Paciente Num" = "Genero" Genero = "Fecha Visita" = "Corazón Presión" = "Presión Presión Sistólica Sistólica" = "Presión Diastólica" = "Diagnóstico Código" = "Evento Adverso?“ ;
Format visit mmddyy10.; Proc Print data=clinica.pacientes; run; 3_2-Clinica0.sas
Archivo Datos pacientes txt pacientes.txt
'c:\DataSAS\pacientes.txt' lrecl=30 truncover;
3_3-Clinica1.sas
001M11/11/1998 88140 80 002F11/13/1998 84120 78 003X10/21/1998 68190100 004F01/01/1999101200120 XX5M05/07/1998 68120 80 006 06/15/1999 72102 68 007M08/32/1998 88148102 M11/11/1998 90190100 008F08/08/1998210 / / 009M09/25/1999 86240180 010f10/19/1999 40120 011M13/13/1998 68300 20 012M10/12/98 60122 74 013208/23/1999 74108 64 014M02/02/1999 22130 90 002F11/13/1998 84120 78 003M11/12/1999 58112 74 015F 82148 88 017F04/05/1999208 84 019M06/07/1999 58118 70 123M15/12/1999 60 321F 900400200 020F99/99/9999 10 20 8 022M10/10/1999 48114 82 023f12/31/1998 22 34 78 024F11/09/199876 120 80 025M01/01/1999 74102 68 02 FNOTAVAIL NA 166106 027FNOTAVAIL 028F03/28/1998 66150 90 029M05/15/1998 006F07/07/1999 82148 84
10 X0 31 5A 10 61 0 0 70 41 10 41 0 1 1 X0 0 31 20 0 10 51 0 21 0 10 51 70 0 30 41 10
PROC FREQ Detección de Valores Inválidos The FREQ Procedure
PROC FREQ DATA=PACIENTES; DATA PACIENTES; TITLE "Frequencia"; TABLES SEXO/NOCUM NOPERCENT; NOPERCENT RUN;
SEXO 2 F M X f
Frequency 1 12 14 1 2
Frequency Missing = 1
PROC FREQ
PROC FREQ DATA=LIBRERÍA.ARCHIVO OPCIONES; •BY VARIABLES; •EXACT ESTADÍSTICOS/OPCIONES; •OUTPUT OUTPUT ESTADÍSTICOS OUT=SAS-DATA OUT SAS DATA SET ; •TABLES /OPCIONES; •TEST ESTADÍSTICOS; •WEIGHT VARIABLE; •RUN; RUN;
Proc FREQ y Proc FORMAT. Detectar Valores Inválidos PROC FORMAT;; VALUE $Sexo 'F','M' = 'Valido' ' ' = 'Missing' OTHER = 'Miscoded'; VALUE $DX '001' ‐ '999'= 'Valido' ' ' = 'Missing' OTHER = 'Miscoded'; VALUE $AE '0','1' = 'Valido' $ ' '' ' ' ld ' ' ' = 'Missing' OTHER = 'Miscoded'; run; PROC FREQ DATA=Clinica.Pacientes; TITLE "Uso de FORMATS" TITLE "Uso de FORMATS"; FORMAT Sexo $Sexo. DX $DX. AE AE $AE.; $AE ; TABLES Sexo DX AE / NOCUM NOPERCENT; run;
Género Sexo Frequency ƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒ Miscoded 4 Valid 25 Frequency Missing = 1 Diagnóstico Código Dx Frequency ƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒ Miscoded 2 Valid 21 Frequency Missing = 8 Evento Adverso E Ad AE Frequency ƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒ Miscoded 1 Valid 29 Frequency Missing = 1
PROC PRINT con WHERE PROC PRINT DATA=clinica.pacientes; DATA li i i t WHERE Sexo not in ('F','M') or VERIFY(DX,' 0123456789') ne 0 or AE not in ( ('0' 0 ,'1'); 1 ); TITLE "Lista de datos Inválidos"; ID PacN; VAR Sexo DX AE; run; Lista PacN 002 003 004 006 010 013 002 023
Datos Invalidos GENERO F X M
f 2 F f
DX
X 3 1 6 1 1 X
AE
0 1 A 1 0 0 0
Proc PRINT y WHERE Lista de valores fuera de rango PROC PRINT DATA=clinica.Pacientes; WHERE HR NOT BETWEEN 40 AND 100 AND
HR IS NOT MISSING
OR
SBP NOT BETWEEN 80 AND 200 AND SBP IS NOT MISSING
OR
DBP NOT BETWEEN 60 AND 120 AND DBP IS NOT MISSING;
TITLE "Valores fuera de rango"; ID PAcN; ; VAR HR SBP DBP; run;
Valores Fuera de Rango PACN 004 008 009 010 011 014 017 321 020 023
HR
101 210 86 . 68 22 208 900 10 22
SBP
200 . 240 40 300 130 . 400 20 34
DBP
120 . 180 120 20 90 84 200 8 78
DATA _NULL_ Data Step . Valores fuera de rango DATA _NULL_; NULL ; Infile 'C:\DataSAS\dat\pacientes.txt’; FILE PRINT; ***Salida a Ventana Output; Input @1 PacN $3. @4 Sexo $1. @15 HR 3. @18 SBP 3. @21 DBP 3. ; IF (HR LT 40 AND HR NE .) OR HR GT 100 THEN PUT PAcN= HR=; IF (SBP LT 80 AND SBP NE .) OR SBP GT 200 THEN PUT PAcN= SBP=; IF (DBP LT 60 AND DBP NE .) ) OR DBP GT 120 THEN PUT PAcN PAcN= DBP DBP=; ; Lista Valores Fuera Rango PAcN PAcN PAcN PAcN PAcN PAcN PAcN PAcN PAcN PAcN PAcN PAcN PA N PAcN PAcN PAcN PAcN PAcN
=004 =008 =009 =009 =010 =011 =011 =014 =017 =321 =321 =321 =020 020 =020 =020 =023 =023
HR= HR= SBP= DBP= SBP= SBP= DBP= HR= HR= HR= SBP= DBP= HR HR= SBP= DBP= HR= SBP=
101 210 240 180 40 300 20 22 208 900 400 200 10 20 8 22 34
PROC MEANS Verificación Outliers PROC MEANS DATA= Pacientes N NMISS MIN MAX MAXDEC=1; TITLE ‘Verificar Verificar Variables Numéricas Numéricas’; ; VAR HR SBP DBP; RUN;
Detectar Outliers mediante Desviación Estandar Proc MEANS data=Clinica.Pacientes noprint; var hr; output out=means(drop=_type_ _freq_) p ( p _ yp _ _ q_) mean=m_hr std=s_hr ; run; proc print data=means; run; %let n_sd n sd = 2; 2; data _null_; set Clinica.Pacientes; file print; print; if _n_ if n = 1 then set means; 1 then set means; st = &n_sd*s_hr; if hr lt (m_hr ‐ st) and hr ne . or hr gt (m_hr or hr gt (m hr + st) then put pacn + st) then put pacn = hr = ; = hr = ; run;
Data Set MEANS m_hr s_hr 104.871 153.026 Outlier: PacN=321 HR=900
PROC MEANS LIMPIANDO DATOS Y ELIMINANDO VARIABLES
Data Nuevo;
Set clinica.pacientes (keep=PacN Sexo HR SBP DBP); IF sexo='M' ' ' or sexo ='F' ' ' or sexo ='m' ' ' or sexo ='f’; 'f IF sexo ='F' or sexo ='f' THEN sexo='F' ; Proc print data = nuevo; run;
Data clinica.pacientes; Infile 'c:\DataSAS\dat\pacientes.txt' lrecl=30 truncover; Input @1 PacN $3. $3 @4 Sexo $1. $1 @5 Visita mmddyy10. mmddyy10 @15 HR 3. @18 SBP 3. @21 DBP 3. @24 Dx $3. @27 AE $1.; Data Nuevo; Set clinica.pacientes (keep=PacN Sexo HR SBP DBP AE); If sexo='M' or sexo ='F' or sexo ='m' or sexo ='f' ; If sexo ='F' or sexo ='f' then sexo='F' ; Data Nuevo2; set nuevo; if AE ne '0' and AE ne '1' then delete ; if HR='.' and SBP='.' and DBP='.' then delete; Proc SORT DATA=Nuevo2; BY Sexo; run; Proc MEANS DATA=nuevo2 fw=6; ; By Sexo; Class AE; VAR HR SBP DBP; OUTPUT OUT=SalClinica1 MEAN=M HR M MEAN=M_HR M_SBP SBP M M_DBP; DBP; run; Proc Print data = salclinica1;
run;
PROC MEANS
ESTADISTICAS BASICAS PROC MEANS PROC SUMMARY PROC MEANS DATA= nuevo fw=6; * NOPRINT; /*Equivalente a PROC SUMMARY DATA= nuevo; */ ; CLASS Sexo; VAR HR SBP DBP; OUTPUT OUT=SalClin1 MEAN=M_HR M_SBP M_DBP; run; proc print data = salclin1; run;
Proc Means con BY en lugar de CLASS PROC MEANS DATA=nuevo NOPRINT; BY sexo; VAR HR SBP DBP; OUTPUT OUT=SalidaClin MEAN=M_HR M_SBP M_DBP; ; run; proc print data = salidaClin; run;
Proc MEANS: DS Segmentado por Sexo y AE PROC MEANS DATA DATA= nuevo fw fw=6; 6; * NOPRINT; CLASS Sexo AE; VAR HR SBP DBP; OUTPUT OUT=SalClin2 MEAN M HR M MEAN=M_HR M_SBP SBP M M_DBP; DBP run; proc print data = salclin2; run;
La Variable _TYPE_ CLASS Sexo AE;
Class Variables
Representación
Sexo
AE
Binario
Decimal
0
0
00
0
0
1
01
1
1
0
10
2
1
1
11
3
Proc Means: Opción NWAY PROC MEANS DATA= nuevo fw=6 NWAY; CLASS Sexo AE; VAR HR SBP DBP; OUTPUT OUT=SalClin2 MEAN M HR M MEAN=M_HR M_SBP SBP M M_DBP; DBP run; proc print data = salclin2; run;
Sexo F F M M
AE 0 1 0 1
_TYPE_ 3 3 3 3
_FREQ_ 11 2 8 5
M_HR 93 56 93.56 491.00 71.25 59.60
M_SBP M_DBP 102 00 102.00 80.60 80 60 274.00 144.00 135.71 82.86 177.20 88.00
Proc Means: Estadísticas Seleccionadas PROC MEANS DATA=nuevo2 fw=6; CLASS Sexo; VAR HR SBP DBP; ; OUTPUT OUT=SalClin4 MEAN =M_HR M_SBP M_DBP MAX =MAX_HR MAX_SBP MAX_DBP MEDIAN =MED_HR MED_SBP MED_DBP; RUN; Proc Print data = salclin4;
run;
Estadísticas Disponibles
Proc MEANS: WEIGHT •Ejemplo de uso de WEIGHT con Proc MEANS. Un grupo de 20 personas estiman el tamaño de un objeto que mide 30 cm cm. Cada persona se coloca a distancias difentes del objeto. A medida que la distancia aumenta, las estimaciones se hacen menos precisas. •Medida de Precisión: recíproco p de la distancia ((1/Distancia): ) asigna g mayor y p peso a estimaciones hechas a distancias más cercanas del objeto. •El DS Tamaño contiene estimación, distancia, precision para cada persona
•Data TamaDist; •Input Distan Tama @@; Prec=1/Distan; •Datalines; •1.5 30 1.5 20 1.5 30 1.5 25 3 43 3 33 3 25 3 30 4.5 25 4.5 36 4.5 48 4.5 33 6 43 6 36 6 23 6 48 7.5 30 7.5 25 7.5 50 7.5 38 ; •PROC MEANS calcula la estimación promedio del tamaño del objeto ignorando la ponderación correspondiente (por defecto asigna un peso de 1 para cada observación). •Proc MEANS data=TamaDist maxdec=3 n mean var stddev; var tama; Title1 ‘ Análisis del DS TamaDist sin Ponderar'; run;
Opción
WEIGHT
Los siguientes dos programas PROC MEANS usan la medida de precisión con la opción WEIGHT. Al ponderar por precision, la estimación del tamaño del objeto está más cerca del tamaño real:
1-Uso de VARDEF=DF Proc Means Data=TamaDist maxdec=3 n mean var std; weight prec; var tama; output t t out=wtstats t t t t var=Est_SigmaSq E t Si S std=Est_Sigma; td E t Si title1 'Análisis del DS TamaDist con Peso usando Default f l VARDEF=DF'; ' run;
2-Uso de VARDEF=WEIGHT Proc Means Data=TamaDist maxdec=3 n mean var std vardef=weight; weight prec; var tama; title1 'Análisis del DS TamaDist con Peso usando VARDEF=WEIGHT'; ; run;
3_4-ProcMeansWeight.sas g
Proc MEANS: FREQ •Datos Datos relativos a velocidad (millas náuticas/hora) y gasto en combustible, registrados cada hora. •La variable Horas representa el número de horas que el barco mantiene el mismo g gasto y velocidad. Los dos PROC MEANS muestran el efecto de usar Horas como variable frecuencia.
1 PROC MEANS sin 1-PROC i variable i bl frecuencia f i Proc Means data=FrecVelo maxdec=2 n mean; Var course veloc; title 'Velocidad Promedio sin Frecuencia'; run; •Sin Variable Frecuencia, cada observación tiene una frecuencia de 1. •El número total de observaciones es 8.
Proc MEANS: FREQ 2-El 2 El segundo PROC MEANS variable frecuencia:
usa
Horas
como
Proc Means data=FrecVelo maxdec=2 n mean; Var course speed; Freq horas; title 'Velocidad Promedio con Frecuencia'; run; Al usar Horas como Variable Frecuencia, la frecuencia de cada observación es el valor de Horas. 3 5-ProcMeansFreq.sas 3_5 oc ea s eq sas
PROC MEANS con CLASSDATA PROC MEANS statement options; CLASSDATA nombre CLASSDATA= b EXCLUSIVE PRINTALLTYPES; PRINTALLTYPES CLASS nomvar; Archivo de Prueba
Data Tortatipo; Input sabor $ 1-3 capas ; da a es; datalines; Van 1 Van 2 Van 3 Cho 1 Cho 2 Cho 4; Proc Means data=Torta range median min max fw=7 maxdec=0 classdata=tortatipo exclusive printalltypes; Var Score2; Class sabor capas; Title ‘Score para Sabor y Capas Tipos Tortas';
PROC MEANS con CLASSDATA Calcula las estadísticas solicitadas para las variables declaradas en Var Programa Ensayo , y para todas las combinaciones de las variables especificadas en Class. Programa Maestro
DATA Torta; DATA Torta; INPUT Nombre $ 1‐12 Edad 13‐14 Score1 16‐17 Score2 19‐20 Sabor $ 23‐25 Capas 30;
Programa P Ensayo
Data Tortatipo; D T i Input Sabor $ 1‐3 Capas ; datalines; Van 1 Van 2 Van 3 Cho 1 Cho 2 Cho 4 ;
Se calculan las estadísticas de las variables en Var (score2), para las combinaciones posibles con los valores de las variables leídas en el programa ensayo (sabor, capas).
Proc Means data=Torta classdata=Tortatipo exclusive printalltypes; Var Score2; Class sabor capas; 3_6‐ProcMeansClassData.sas
PROC MEANS con PROC FORMAT DATA Torta; INPUT Nombre $ 1-12 1 12 Edad 13-14 13 14 Score1 16-17 16 17 Score2 19-20 Sabor $ 23-25 Capas 30;
Proc Format; value $sbrfmt $ 'Chocolate'='Cho’ 'Vainilla'='Van‘ 'Ron','Esp'='OtrosSabr';
value edadfmt (multilabel) 15 ‐ 29=' 50 a‘ 56 ‐ high='>= 56 ' 15 ‐ 19='15 ‐ 19‘ 20 ‐ 25='20 ‐ 25‘ 25 ‐ 39='25 ‐ 39‘ 40 ‐ 55='40 ‐ 55'; run;
Proc Means data=Torta fw=6 n min max data Torta fw 6 n min max mean median nonobs; mean median nonobs; class sabor/order=freq; class edad /mlf order=fmt; t types sabor sabor*edad; b b * d d var Score2; format Edad edadfmt. Sabor $sbrfmt.;
3_7‐ProcMeansFormat.sas
PROC MEANS con IC Media DATA Torta; INPUT N b $ 1 12 Ed d 13 14 S INPUT Nombre $ 1‐12 Edad 13‐14 Score1 16‐17 1 16 17 Score2 19‐20 Sabor $ 23‐25 Capas 30; Proc Format; value $sbrfmt 'Chocolate'='Cho‘ 'Vainilla'='Van‘ 'Ron','Esp'='OtrosSabr'; value edadfmt (multilabel) 15 ‐ 29 15 29='= > 56 56 ' 15 ‐ 19='15 ‐ 19‘ 20 ‐ 25='20 ‐ 25‘ 25 ‐ 39='25 ‐ 39‘ 40 ‐ 55='40 – 55; run; proc means data=Torta fw=6 n alpha=0.1 clm mean nonobs; class sabor/order =freq; class edad /mlf order =fmt; types sabor; var Score2; format edad edadfmt. sabor $sbrfmt.; titl 'IC Media Muestral'; title 'IC M di M t l' 3_8‐ProcMeansIC.sas run;
PROC UNIVARIATE
PROC UNIVARIATE DATA=LIBRERÍA.ARCHIVO DATA=LIBRERÍA ARCHIVO OPCIONES: •BY VARIABLES; •CLASS VARIABLES/OPCIONES; •FREQ VARIABLE; •ID VARIABLES; •HISTOGRAM HISTOGRAM VARIABLE/ OPCIONES; •ID VARIABLES; •INSET ESTADÍSTICOS •OUTPUT O O OUT=ARCHIVO=NOMBRE C O O VARIABLES; S •PROBPLOT VARIABLES/OPCIONES; •QQPLOT VARIABLES/OPCIONES; ; •VAR VARIABLES ;
PROC UNIVARIATE con ODS ODS SELECT EXTREMEOBS; PROC UNIVARIATE data=clinica.pacientes; VAR HR SBP DBP; DBP ID PAcN; RUN; Procedimiento UNIVARIATE Variable: DBP (Presión Diastólica)
Extreme Observations --------Lowest-------Value PAcN Obs 8 020 23 20 011 12 64 013 14 68 025 27 68 006 6
--------Highest------Value PAcN Obs 106 027 28 120 004 4 120 010 11 180 009 10 200 321 22
NEXTROBS Option PROC UNIVARIATE ODS SELECT EXTREMEOBS; PROC UNIVARIATE data=clinica.pacientes NEXTROBS=3; VAR HR SBP DBP; ; ID PAcN; RUN; Procedimiento UNIVARIATE Variable: DBP (Presión Diastólica) Extreme Observations --------Lowest-------Value PATNO Obs 8 020 23 20 011 12 64 013 14
--------Highest------Value PATNO Obs 120 010 11 180 009 10 200 321 22
PROC UNIVARIATE con ODS ods html file = 'C:\DataSAS\html\3_UnivariateOds1.html'; Data Velocidad;; label Velocidad = 'Velocidad(millas/hora)'; DO VelocEx = 66 to 85; Input Numero @@; Input Numero @@; Output; End; Datalines; 2 3 2 1 3 6 8 9 10 13 12 14 6 2 0 0 1 1 0 1 ;
proc print data = Velocidad; run; title 'Analisis de DS Velocidad'; ODS select Moments; ODS select Proc Univariate data=Velocidad; Freq Numero; Var VelocEx; VelocEx; run; ods html close;
PROC UNIVARIATE con ODS ods html file = ‘3_Univariate.html'; Data Aire (keep = Sitio Ozono); label Sitio = 'N. Sitio' Ozono = 'Nivel Ozono'; d i do i = 1 to 3; input Sitio @@; do j = 1 to 15; input Ozono @@; input Ozono @@; output; end; end; datalines; 102 4 6 3 4 7 8 2 3 4 1 3 8 9 5 6 134 5 3 6 2 1 2 4 3 2 4 6 4 6 3 1 137 8 9 7 8 6 7 6 7 9 8 9 8 7 8 5 ; ODS Select Moments SSPlots; proc univariate data=Aire plot; by Sitio; var Ozono; run; ods html close;
Uso de la estructura DO …. END en lectura de datos
Lihat lebih banyak...
Comentários