3-SAS Metodos Estadisticos

July 22, 2017 | Autor: Giampaolo Orlandoni | Categoria: Statistics
Share Embed


Descrição do Produto

SAS BASICO Giampaolo Orlandoni M. Josefa Ramoni P.

Instituto de Estadística Aplicada Universidad de Los Andes Venezuela

ESTADISTICA DESCRIPTIVA PROCEDIMIENTOS SAS

• ESTADISTICA DESCRIPTIVA • PROCEDIMIENTOS SAS: 1. PROC MEANS 2 PROC FREQ 2. 3. PROC UNIVARIATE

METODOLOGIA ESTADISTICA 1‐METODOLOGIA ESTADISTICA 2‐DATOS ESTADISTICOS 1.1‐CONCEPTO Y NATURALEZA. 1.2‐CLASIFICACION:  TEMPORALES,  ATEMPORALES  1.3‐ESCALAS DE MEDIDA: NOMINAL, ORDINAL, INTERVALOS 3‐VARIABLES ESTADISTICAS 2.1‐VARIABLES CATEGORICAS O CUALITATIVAS 2.2‐VARIABLES CUANTITATIVAS: DISCRETAS, CONTINUAS 4‐ANALISIS DECRIPTIVO DE LOS DATOS ESTADISTICOS 3.1‐GRAFICOS: HISTOGRAMAS, CAJAS, TENDENCIA, DISPERSION 3 1‐DISTRIBUCION 3.1 DISTRIBUCION DE FRECUENCIAS. ABSOLUTA. RELATIVA. DE FRECUENCIAS ABSOLUTA RELATIVA 3.2‐MEDIDAS DESCRIPTIVAS:  1‐TENDENCIA CENTRAL  2‐POSICION 3‐DISPERSION 4‐FORMA 5‐ASOCIACION

METODOLOGIA    ESTADISTICA IDENTIFICACION DEL PROBLEMA D E S C R I P T I V A

OBTENCION DE DATOS PROCESAMIENTO Y SINTESIS DE DATOS PROCESAMIENTO Y SINTESIS DE DATOS

DATOS de la  POBLACION

DATOS de la  MUESTRA

Conjunto total de mediciones                         Subconjunto representativo de la de la característica del proceso                       población (grupo de mediciones) CARACTERISTICAS  POBLACIONALES (PARAMETROS) • Valores desconocidos de la Población • Se estiman con base en muestras

CARACTERISTICAS MUESTRALES (ESTIMADORES) • Función de la muestra • Se infieren a la población

LA ESTADÍSTICA:  •Estudia Fenómenos Aleatorios: Fenómenos parcialmente predecibles debido a su variabilidad inherente. •Identifica y Analiza la Variabilidad Inherente de los Fenómenos  Aleatorios. •Proporciona métodos para recolectar, organizar, resumir y analizar información  con fines descriptivos e inferenciales.

PROBLEMAS, INFORMACION Y DATOS ESTADISTICOS REALIDAD UNIDADES EXPERIMENTALES MEDIDAS RELEVANTES DATOS ESTADISTICOS

INDISPENSABLE:

•Planificar la recolección de datos dentro del marco de las preguntas que deben contestarse. •Datos correctos y exactos, recopilados mediante elaborados diseños muestrales, son inútiles si no p permiten resolver las p preguntas g de interés.

INFORMACION UTIL

PROCESO GENERADOR DE INFORMACION UTIL PARA LA TOMA DE DECISIONES Y LA SOLUCION DE PROBLEMAS: 1. FORMULACION DEL PROBLEMA O PREGUNTAS QUE DEBEN RESOLVERSE 2. RECOPILAR DATOS RELATIVOS A LAS CUESTIONES PLANTEADAS 3. ORGANIZAR Y ANALIZAR LOS DATOS EN FORMA ADECUADA 1. ANALISIS GRAFICO 2. ANALISIS NUMERICO

DATOS ESTADISTICOS •RESULTADO SU O NUMERICO U CO DE MEDIDAS S SOBRE SO UNIDADES U S EXPERIMENTALES S •OBSERVACIONES DISPONIBLES PARA EL ANALISIS ESTADISTICO •INFORMACION: ESTA BASADA EN DATOS. PERMITE RESOLVER PROBLEMAS CLASIFICACION DE LOS DATOS: 1-DATOS TEMPORALES: SERIES CRONOLOGICAS DATOS DE UN MISMO ELEMENTO EN DISTINTOS PERIODOS DE TIEMPO EJEMPLO: PIB anual, Consumo 2-DATOS ATEMPORALES: MATRICES DE DATOS DATOS DE DIFERENTES ELEMENTOS EN UN MISMO PERIODO DE TIEMPO EJEMPLO: Carros X1 X2 ... Xj ......... Xp

ESCALAS DE MEDIDA 1. NOMINAL 2 ORDINAL 2. 3. INTERVALO 4. RELACION

MATRIZ  de DATOS

Xij

ESCALAS DE MEDIDA ESCALA

CARACTERISTICAS 1.IDENTIFICACION Y CLASIFICACION DE UNIDADES

NOMINAL

EJEMPLOS

MEDIDAS ESTADISTICAS

1.CLASIFICACION POR SEXO

2.CLASIFICACION  POZOS  2.LOS NUMEROS INDICAN LA CLASE O CATEGORIA.   NO INDICAN CANTIDAD DE LA CARACTERISTICA DE  PETROLEROS  LAS UNIDADES (PRODUCTIVO SECO) (PRODUCTIVO,

1.PORCENTAJES 2.MODA

1.ORDENAMIENTO Y POSICION RELATIVA DE LAS  UNIDADES

ORDINAL

2.INDICA SI UNA UNIDAD TIENE MAS O MENOS  CANTIDAD DE LA CARACTERISITICA QUE OTRA CANTIDAD DE LA CARACTERISITICA QUE OTRA  UNIDAD 3.NO INDICA LA MAGNITUD DE LAS DIFERENCIAS  ENTRE LAS UNIDADES

1.FRACTILES S ECONOMICA O O SO SOCIAL 1.CLASE

2.MEDIANA

2.CALIDAD DEL CRUDO: (PESADO, LIVIANO)

4.PERMITE MEDIR OPINIONES, ACTITUDES,  PREFERENCIAS 1.MEDIA 1.LAS DIFERENCIAS ENTRE UNIDADES PUEDEN  COMPARARSE.  INTERVALOS

2.LAS DISTANCIAS IGUALES EN LA ESCALA  REPRESENTAN VALORES IGUALES EN LA  CARACTERISTICA QUE SE MIDE

2.RANGO 1.TEMPERATURA 1 TEMPERATURA (F, (F C) 2.OPINIONES 3.INDICES

3 EL PUNTO CERO ES ARBITRARIO 3.EL PUNTO CERO ES ARBITRARIO

3 VARIANZA 3.VARIANZA 4.DESVIACION ESTANDAR 5.COEFICIENTE CORRELACION 6.COEFICIENTE VARIACION

1.EL PUNTO CERO ES FIJO RELACION

1.EDAD 2.LA RELACION ENTRE LOS VALORES DE LA ESCALA  2.INGRESO 3.COSTOS SE PUEDE CALCULAR

1.MEDIA GEOMETRICA 2.COEFICIENTE  VARIACION

VARIABLE ESTADISTICA •VA: VA: REPRESENTA CARACTERISTICAS DE LOS ELEMENTOS QUE CONFORMAN LA POBLACION O MUESTRA •CLASIFICACION: CUALITATIVAS, CUANTITATIVAS

Variable CUALITATIVA CATEGÓRICA

CUANTITATIVA DISCRETA

CUANTITATIVA CONTINUA

Ejemplos •Bueno – Malo  (Calidad Aparato, Servicio) •Pasa Pasa ‐ No pasa No pasa •Defecto‐ No Defecto •Color •N. Pozos Perforados Nú D f A id F ll •Número Defectos, Accidentes, Fallas •Nivel Educativo •Categoría Profesional •Temperatura p •Presión •Tiempo,Edad •Volumen de Crudo Extraído •Dureza •Presión Arterial •Precios

Características

Gráficos •BARRAS

•Atributos 

•SECTORES

•Cualidades

•MOSAICOS

•Valores Enteros

•BARRAS

•Número Casos

•MOSAICOS •ASOCIACION •HISTOGRAMA HISTOGRAMA •POLIGONO 

Valores  Reales

•CAJAS TENDENCIA •TENDENCIA •ASOCIACION 8

VARIABLES DISCRETAS DIAGRAMA de  BARRAS.     GRAFICOS DE SECTORES         (Carros.dat)

Frecuencia

Frec. Acumulada

Cl Class

CIL

Ab l t Absoluta R l ti Relativa Ab l t Relativa Absoluta R l ti

1

4

104

0.689

104

0.689

2

6

30

0.199

134

0.887

3

8

17

0.113

151

1.000

PROCEDIMIENTO SAS ANALYZE

VARIABLES CONTINUAS HISTOGRAMA de FRECUENCIAS. DIAGRAMA de CAJA. DISTRIBUCION de FRECUENCIAS (Carros.dat) 22 19

El Histograma indica la mezcla de tres poblaciones (origen) El análisis debe hacerse por grupo de origen El análisis debe hacerse por grupo de origen

20

PROCEDIMIENTO SAS ANALYZE   VARIABLE DATA  ONE VARIABLE ANALYSIS ONE VARIABLE ANALYSIS

DISTRIBUCION DE FRECUENCIAS Limite Clase 1 2 3 4 5 6 7 8 9 10 11 12 13 14 Total

Limite

Inferior Superior 13.0 15.6 15.6 18.1 18.1 20.7 20.7 23.3 23.3 25.9 25 9 25.9 28 4 28.4 28.4 31.0 31.0 33.6 33.6 36.1 36.1 38.7 38 7 38.7 41 3 41.3 41.3 43.9 43.9 46.4 46.4

49.0

Punto Medio 14.3 16.9 19.4 22.0 24.6 27 1 27.1 29.7 32.3 34.9 37.4 40 0 40.0 42.6 45.1 47.7

Frecuencia Absoluta 1 11 19 10 12 20 14 18 22 11 5 3 3 1 150

Frecuencia Acumulada

Relativa 0.0067 0.0733 0.1267 0.0667 0.0800 0 1333 0.1333 0.0933 0.1200 0.1467 0.0733 0 0333 0.0333 0.0200 0.0200 0.0067

Absoluta 1 12 31 41 53 73 87 105 127 138 143 146 149

Relativa 0.0067 0.0800 0.2067 0.2733 0.3533 0 4867 0.4867 0.5800 0.7000 0.8467 0.9200 0 9533 0.9533 0.9733 0.9933

150

1.0000

DIAGRAMA DE CAJA (BOX Plot) • • • •

Síntesis gráfica de los datos. Indica: ubicación, dispersión, asimetría Los lados de la caja representan el primer y tercer quartil Q1, Q3. La línea media de la Los lados de la caja representan el primer y tercer quartil Q1, Q3. La línea media de la  caja representa la mediana o segundo quartil Q2. Los valores máximo y el mínimo no outliers se grafican como puntos al final de las líneas Rango Intercuartil RI=(Q3 ‐ g ( Q1): medida de la dispersión del 50% central de los datos ) p Min Valor No Outlier = Max[X(1), Q1-1.5(Q3-Q1)] 1.5(Q3-Q1)

Q1 = 25%          

Q1           

X Q2              

RI = (Q3 ‐ Q1)

Q2 = 50%             

Q3 = 75%

Q3

1.5(Q3 - Q1)

Max Valor No Outlier = Min[X(n), Q3+1.5(Q3-Q1)] VALORES EXTREMOS (0, *)

11

GRAFICOS DE TENDENCIA • Análisis de patrones y tendencias • Visualiza el comportamiento de los datos en el tiempo Visualiza el comportamiento de los datos en el tiempo

Tendencia creciente

Valores anormales

Tendencia decreciente

Ciclo s

Corrida de proceso

Variabilidad creciente 12

SINTESIS DESCRIPTIVA DE LOS DATOS ESTADISTICOS

1-TENDENCIA CENTRAL 2-POSICION 3-DISPERSION 4-FORMA 5 ASOCIACION 5-ASOCIACION GIAMPAOLO ORLANDONI MERLI.

2011

A‐GRAFICOS Y TABLAS GRAFICOS 

•UNIVARIANTES.  MULTIVARIANTES

TABLAS

•TABLAS DE FRECUENCIAS •TABLAS CRUZADAS

B‐MEDIDAS DESCRIPTIVAS ARITMETICA •MEDIA ARITMETICA •MEDIA 1. TENDENCIA CENTRAL

•MEDIANA •MODA •MAXIMO

2. POSICION  (ORDEN)

•MINIMO ( , ) •CUANTILES (CUARTILES, PERCENTILES) •RANGO, RANGO INTERCUARTILICO

3. DISPERSION (VARIABILIDAD)

•VARIANZA, DESVIACION ESTÁNDAR •COEFICIENTE DE VARIACION

4. FORMA

5. ASOCIACION

•ASIMETRIA (SESGO) •CURTOSIS (ACHATAMIENTO) •COVARIANZA •CORRELACION

14

1-MEDIDAS DE TENDENCIA CENTRAL

Media Acotada  Media Acotada (Media  Recortada) 

Conjunto Total Datos Conjunto Total Datos –

Media  Media Geométrica  (G)

G= ((X1 G X1*X2*…*Xn X2 … Xn)1/n

– (%Menor + %Mayor)

Se elimina un porcentaje (5‐10%) de los  Se elimina un porcentaje (5‐10%) de los valores más altos y bajos del conjunto de  datos (datos outliers) Escala de Medida No Lineal.

Log(G) =(log(Xi))/n 15

2-MEDIDAS DE POSICION (MEDIDAS DE ORDEN)

3-MEDIDAS DE DISPERSION (VARIABILIDAD)

DESVIACION ESTANDAR (S) •Raíz Raíz cuadrada positiva de la Varianza. Medida de dispersión más común cuadrada positiva de la Varianza. Medida de dispersión más común •Se expresa en las mismas unidades que la Variable Estadística. •Estandariza los valores de la VE (VE  con media cero y desviación estándar  unitaria) unitaria)  Z (X μ) /σ ~  (0;1) Z = (X –μ) /σ ~ (0;1) •Permite calcular la proporción de datos contenido en cierto intervalo alrededor  de la media:  El Intervalo (μ ± Kσ) contiene al menos (1‐1/K2),  K>1

COEFICIENTE DE VARIACIÓN: Medida de Dispersión Relativa UNIDAD

Media

Desv Est

CV (%)

1‐Comparación de muestras con distintas unidades de medida y diferentes promedios Tiempo Espera Salario

Minutos

78.7

12.14

12.05

Bs F

1000.0

215.35

21.53

2‐Comparación de muestras con las mismas unidades de medida, y diferentes promedios Temperatura A

°C

1100

225

20.45

Temperatura B

°C

800

200

18 25.00

4-MEDIDAS DE FORMA

19

HISTOGRAMAS y FORMAS

NORMAL

ASIMETRIA POSITIVA

UNIFORME

BIMODAL

INTERVALO VACIO

ASIMETRIA NEGATIVA

DATOS OUTLIERS

AREAS BAJO LA CURVA NORMAL

µ-3

µ-2

µ-

µ

µ+

µ+2

µ+3

68 26% 68.26% 95.44% 99.73%

21

FORMA GENERAL DE LOS PROCEDIMENTOS SAS PROC (NOMBRE)

(PROC)

DATA=LIBRERÍA.ARCHIVO Í OPCIONES;

•BY =PARTICIÓN DEL CONJUNTO DE DATOS EN POR LAS VARIABLES LISTADAS EN BY. BY

GRUPOS,

DEFINIDOS

•CLASS =VARIABLES DE CLASIFICACIÓN EN EL ANÁLISIS. •FREQ

=VARIABLE QUE INDICA LA FRECUENCIA DE OCURRENCIA

•ID

=VARIABLES

INDICADORAS EN LA SALIDA DEL PROCEDIMIENTO.

•OUTPUT=SALIDA DE DATOS. •VAR

=VARIABLES EMPLEADAS POR EL PROCEDIMIENTO

•WEIGHT=VARIABLE

PONDERACIÓN.

•FORMAT=ESPECIFICA EL FORMATO. •LABEL =ETIQUETAS DESCRIPTIVAS CON NOMBRES DE VARIABLES. •TITLE =‘TITULO’

PROC MEANS PROC MEANS DATA=LIBRERÍA.ARCHIVO OPCIONES; •BY

VARIABLES;

•CLASS

VARIABLES/OPCIONES;

•FREQ FREQ

VARIABLE;

•ID

VARIABLES;

•WEIGHT

VARIABLE; ;

•VAR

VARIABLES

•WEIGHT

VARIABLE;

•TYPES

REQUEST;

•WAYS

LIST;

•OUTPUT=OUT= ARCHIVO/OPCIONES;

PROC MEANS EJEMPLO 1

Data Notas;

3_1-Proc Means Notas.sas

Input Nombre $ Sexo $ Status $ An $ Seccion $ Nota1 Nota2; Datalines; Alarcon F 2 97 A 90 87 Bravo M 1 98 A 92 97 Camacho M 2 98 B 81 71 Duran M 1 97 A 85 72 Espinoza F 1 98 B 89 80 Franco M 1 97 B 78 73 Garces F 2 97 A 82 91 Hernandez F 1 98 B 84 80 Montilla M 2 97 A 88 86 Navas M 1 97 B 91 93

; Proc sort data=Notas; By Anio Status; run; Proc print; run;

Proc oc MEANS S fw=6 6 d data=Notas; t ot s; Class Anio; Var Nota2; run;

PROC MEANS EJEMPLO 2 Proc MEANS fw=6 data=Notas; Class Status Anio; Var a Nota2; ota ; Output out=sumstat1 mean=NotaPromedio idgrp; run; Proc print data=sumstat1 noobs; title1 'Notas '; run;

EJEMPLO 3 Proc MEANS fw=6 data=Notas Noprint; Class Status Anio; Var Nota2; Output out=sumstat2 mean=NotaPromedio idgrp (max(Nota2) obs out (Nombre)=MejorNota); run; P Proc print i t data=sumstat2 d t t t2 noobs; b title1 'Notas '; run; 3_1-ProcMeansNotas.sas

ANALISIS DE UN CASO Estructura del Data Set  pacientes Variable PACN SEXO VISITA HR SBP DBP DX AE

Descripción Paciente Num Género Vi it Fecha Visita F h Heart Rate Presión Sistólica Presión es ó Diastólica stó c Código Diagnóstico Evento Adverso

Tipo Valores Válidos Caracter Numerales Caracter ‘M‘ , 'F' MMDDYY10 MMDDYY10. F h válida Fecha álid Numérica 40 - 100 Numérica 80 - 200 Numérica u é c 60 - 120 0 Caracter 1 a 3 dígitos Caracter '0‘ , '1'

INPUT libname clinica 'c:\DataSAS'; Data clinica.pacientes; Infile 'c:\DataSAS\pacientes.txt' lrecl=30 truncover; Input @1 PacNo $3. $3 @15 HR 3. PacN Sexo Visita HR SBP DBP Dx AE

@4 Sexo $1 $1.

@5 Visita

mmddyy10 mmddyy10.

@18 SBP 3. @21 DBP 3. @24 Dx $3. @27 AE $1.; = "Paciente Num" = "Genero" Genero = "Fecha Visita" = "Corazón Presión" = "Presión Presión Sistólica Sistólica" = "Presión Diastólica" = "Diagnóstico Código" = "Evento Adverso?“ ;

Format visit mmddyy10.; Proc Print data=clinica.pacientes; run; 3_2-Clinica0.sas

Archivo Datos pacientes txt pacientes.txt

'c:\DataSAS\pacientes.txt' lrecl=30 truncover;

3_3-Clinica1.sas

001M11/11/1998 88140 80 002F11/13/1998 84120 78 003X10/21/1998 68190100 004F01/01/1999101200120 XX5M05/07/1998 68120 80 006 06/15/1999 72102 68 007M08/32/1998 88148102 M11/11/1998 90190100 008F08/08/1998210 / / 009M09/25/1999 86240180 010f10/19/1999 40120 011M13/13/1998 68300 20 012M10/12/98 60122 74 013208/23/1999 74108 64 014M02/02/1999 22130 90 002F11/13/1998 84120 78 003M11/12/1999 58112 74 015F 82148 88 017F04/05/1999208 84 019M06/07/1999 58118 70 123M15/12/1999 60 321F 900400200 020F99/99/9999 10 20 8 022M10/10/1999 48114 82 023f12/31/1998 22 34 78 024F11/09/199876 120 80 025M01/01/1999 74102 68 02 FNOTAVAIL NA 166106 027FNOTAVAIL 028F03/28/1998 66150 90 029M05/15/1998 006F07/07/1999 82148 84

10 X0 31 5A 10 61 0 0 70 41 10 41 0 1 1 X0 0 31 20 0 10 51 0 21 0 10 51 70 0 30 41 10

PROC FREQ Detección de Valores Inválidos The FREQ Procedure

PROC FREQ DATA=PACIENTES; DATA PACIENTES; TITLE "Frequencia"; TABLES SEXO/NOCUM NOPERCENT; NOPERCENT RUN;

SEXO 2 F M X f

Frequency 1 12 14 1 2

Frequency Missing = 1

PROC FREQ

PROC FREQ DATA=LIBRERÍA.ARCHIVO OPCIONES; •BY VARIABLES; •EXACT ESTADÍSTICOS/OPCIONES; •OUTPUT OUTPUT ESTADÍSTICOS OUT=SAS-DATA OUT SAS DATA SET ; •TABLES /OPCIONES; •TEST ESTADÍSTICOS; •WEIGHT VARIABLE; •RUN; RUN;

Proc FREQ y Proc FORMAT. Detectar Valores Inválidos PROC FORMAT;; VALUE $Sexo    'F','M' = 'Valido' ' '     = 'Missing' OTHER   = 'Miscoded'; VALUE $DX    '001' ‐ '999'= 'Valido' ' '          = 'Missing' OTHER        = 'Miscoded'; VALUE $AE       '0','1' = 'Valido' $ ' '' ' ' ld ' ' '     = 'Missing' OTHER  = 'Miscoded'; run; PROC FREQ DATA=Clinica.Pacientes; TITLE "Uso de FORMATS" TITLE "Uso de FORMATS"; FORMAT Sexo  $Sexo. DX      $DX. AE AE       $AE.; $AE ; TABLES Sexo DX AE / NOCUM NOPERCENT;  run;

Género Sexo Frequency ƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒ Miscoded 4 Valid 25 Frequency Missing = 1 Diagnóstico Código Dx Frequency ƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒ Miscoded 2 Valid 21 Frequency Missing = 8 Evento Adverso E Ad AE Frequency ƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒ Miscoded 1 Valid 29 Frequency Missing = 1

PROC PRINT con WHERE  PROC PRINT DATA=clinica.pacientes; DATA li i i t WHERE Sexo not in ('F','M') or VERIFY(DX,' 0123456789') ne 0 or AE not in ( ('0' 0 ,'1'); 1 ); TITLE "Lista de datos Inválidos"; ID PacN; VAR Sexo DX AE; run; Lista PacN 002 003 004 006 010 013 002 023

Datos Invalidos GENERO F X M

f 2 F f

DX

X 3 1 6 1 1 X

AE

0 1 A 1 0 0 0

Proc PRINT y WHERE Lista de valores fuera de rango PROC PRINT DATA=clinica.Pacientes; WHERE HR NOT BETWEEN 40 AND 100 AND

HR IS NOT MISSING

OR

SBP NOT BETWEEN 80 AND 200 AND SBP IS NOT MISSING

OR

DBP NOT BETWEEN 60 AND 120 AND DBP IS NOT MISSING;

TITLE "Valores fuera de rango"; ID PAcN; ; VAR HR SBP DBP; run;

Valores Fuera de Rango PACN 004 008 009 010 011 014 017 321 020 023

HR

101 210 86 . 68 22 208 900 10 22

SBP

200 . 240 40 300 130 . 400 20 34

DBP

120 . 180 120 20 90 84 200 8 78

DATA _NULL_ Data Step .  Valores fuera de rango DATA _NULL_; NULL ; Infile 'C:\DataSAS\dat\pacientes.txt’; FILE PRINT; ***Salida a Ventana Output; Input @1 PacN $3. @4 Sexo $1. @15 HR 3. @18 SBP 3. @21 DBP 3. ; IF (HR LT 40 AND HR NE .) OR HR GT 100 THEN PUT PAcN= HR=; IF (SBP LT 80 AND SBP NE .) OR SBP GT 200 THEN PUT PAcN= SBP=; IF (DBP LT 60 AND DBP NE .) ) OR DBP GT 120 THEN PUT PAcN PAcN= DBP DBP=; ; Lista Valores Fuera Rango PAcN PAcN PAcN PAcN PAcN PAcN PAcN PAcN PAcN PAcN PAcN PAcN PA N PAcN PAcN PAcN PAcN PAcN

=004 =008 =009 =009 =010 =011 =011 =014 =017 =321 =321 =321 =020 020 =020 =020 =023 =023

HR= HR= SBP= DBP= SBP= SBP= DBP= HR= HR= HR= SBP= DBP= HR HR= SBP= DBP= HR= SBP=

101 210 240 180 40 300 20 22 208 900 400 200 10 20 8 22 34

PROC MEANS Verificación Outliers PROC MEANS DATA= Pacientes N NMISS MIN MAX MAXDEC=1; TITLE ‘Verificar Verificar Variables Numéricas Numéricas’; ; VAR HR SBP DBP; RUN;

Detectar Outliers mediante Desviación Estandar Proc MEANS data=Clinica.Pacientes noprint; var hr; output out=means(drop=_type_ _freq_) p ( p _ yp _ _ q_) mean=m_hr std=s_hr ; run; proc print data=means; run; %let n_sd n sd = 2; 2; data _null_;  set Clinica.Pacientes; file print;  print; if _n_  if n = 1 then set means; 1 then set means; st = &n_sd*s_hr; if hr lt (m_hr ‐ st) and hr ne .  or hr gt (m_hr or hr gt (m hr + st) then put pacn + st) then put pacn = hr = ; = hr = ; run;

Data Set MEANS m_hr s_hr 104.871 153.026 Outlier: PacN=321 HR=900

PROC MEANS LIMPIANDO DATOS Y ELIMINANDO VARIABLES

Data Nuevo;

Set clinica.pacientes (keep=PacN Sexo HR SBP DBP); IF sexo='M' ' ' or sexo ='F' ' ' or sexo ='m' ' ' or sexo ='f’; 'f IF sexo ='F' or sexo ='f' THEN sexo='F' ; Proc print data = nuevo; run;

Data clinica.pacientes; Infile 'c:\DataSAS\dat\pacientes.txt' lrecl=30 truncover; Input @1 PacN $3. $3 @4 Sexo $1. $1 @5 Visita mmddyy10. mmddyy10 @15 HR 3. @18 SBP 3. @21 DBP 3. @24 Dx $3. @27 AE $1.; Data Nuevo; Set clinica.pacientes (keep=PacN Sexo HR SBP DBP AE); If sexo='M' or sexo ='F' or sexo ='m' or sexo ='f' ; If sexo ='F' or sexo ='f' then sexo='F' ; Data Nuevo2; set nuevo; if AE ne '0' and AE ne '1' then delete ; if HR='.' and SBP='.' and DBP='.' then delete; Proc SORT DATA=Nuevo2; BY Sexo; run; Proc MEANS DATA=nuevo2 fw=6; ; By Sexo; Class AE; VAR HR SBP DBP; OUTPUT OUT=SalClinica1 MEAN=M HR M MEAN=M_HR M_SBP SBP M M_DBP; DBP; run; Proc Print data = salclinica1;

run;

PROC MEANS

ESTADISTICAS BASICAS PROC MEANS PROC SUMMARY PROC MEANS DATA= nuevo fw=6; * NOPRINT; /*Equivalente a PROC SUMMARY DATA= nuevo; */ ; CLASS Sexo; VAR HR SBP DBP; OUTPUT OUT=SalClin1 MEAN=M_HR M_SBP M_DBP; run; proc print data = salclin1; run;

Proc Means con BY en lugar de CLASS PROC MEANS DATA=nuevo NOPRINT; BY sexo; VAR HR SBP DBP; OUTPUT OUT=SalidaClin MEAN=M_HR M_SBP M_DBP; ; run; proc print data = salidaClin; run;

Proc MEANS: DS Segmentado por Sexo y AE PROC MEANS DATA DATA= nuevo fw fw=6; 6; * NOPRINT; CLASS Sexo AE; VAR HR SBP DBP; OUTPUT OUT=SalClin2 MEAN M HR M MEAN=M_HR M_SBP SBP M M_DBP; DBP run; proc print data = salclin2; run;

La Variable _TYPE_ CLASS Sexo AE;

Class Variables

Representación

Sexo

AE

Binario

Decimal

0

0

00

0

0

1

01

1

1

0

10

2

1

1

11

3

Proc Means: Opción NWAY PROC MEANS DATA= nuevo fw=6 NWAY; CLASS Sexo AE; VAR HR SBP DBP; OUTPUT OUT=SalClin2 MEAN M HR M MEAN=M_HR M_SBP SBP M M_DBP; DBP run; proc print data = salclin2; run;

Sexo F F M M

AE 0 1 0 1

_TYPE_ 3 3 3 3

_FREQ_ 11 2 8 5

M_HR 93 56 93.56 491.00 71.25 59.60

M_SBP M_DBP 102 00 102.00 80.60 80 60 274.00 144.00 135.71 82.86 177.20 88.00

Proc Means: Estadísticas Seleccionadas PROC MEANS DATA=nuevo2 fw=6; CLASS Sexo; VAR HR SBP DBP; ; OUTPUT OUT=SalClin4 MEAN =M_HR M_SBP M_DBP MAX =MAX_HR MAX_SBP MAX_DBP MEDIAN =MED_HR MED_SBP MED_DBP; RUN; Proc Print data = salclin4;

run;

Estadísticas Disponibles

Proc MEANS: WEIGHT •Ejemplo de uso de WEIGHT con Proc MEANS. Un grupo de 20 personas estiman el tamaño de un objeto que mide 30 cm cm. Cada persona se coloca a distancias difentes del objeto. A medida que la distancia aumenta, las estimaciones se hacen menos precisas. •Medida de Precisión: recíproco p de la distancia ((1/Distancia): ) asigna g mayor y p peso a estimaciones hechas a distancias más cercanas del objeto. •El DS Tamaño contiene estimación, distancia, precision para cada persona

•Data TamaDist; •Input Distan Tama @@; Prec=1/Distan; •Datalines; •1.5 30 1.5 20 1.5 30 1.5 25 3 43 3 33 3 25 3 30 4.5 25 4.5 36 4.5 48 4.5 33 6 43 6 36 6 23 6 48 7.5 30 7.5 25 7.5 50 7.5 38 ; •PROC MEANS calcula la estimación promedio del tamaño del objeto ignorando la ponderación correspondiente (por defecto asigna un peso de 1 para cada observación). •Proc MEANS data=TamaDist maxdec=3 n mean var stddev; var tama; Title1 ‘ Análisis del DS TamaDist sin Ponderar'; run;

Opción

WEIGHT

Los siguientes dos programas PROC MEANS usan la medida de precisión con la opción WEIGHT. Al ponderar por precision, la estimación del tamaño del objeto está más cerca del tamaño real:

1-Uso de VARDEF=DF Proc Means Data=TamaDist maxdec=3 n mean var std; weight prec; var tama; output t t out=wtstats t t t t var=Est_SigmaSq E t Si S std=Est_Sigma; td E t Si title1 'Análisis del DS TamaDist con Peso usando Default f l VARDEF=DF'; ' run;

2-Uso de VARDEF=WEIGHT Proc Means Data=TamaDist maxdec=3 n mean var std vardef=weight; weight prec; var tama; title1 'Análisis del DS TamaDist con Peso usando VARDEF=WEIGHT'; ; run;

3_4-ProcMeansWeight.sas g

Proc MEANS: FREQ •Datos Datos relativos a velocidad (millas náuticas/hora) y gasto en combustible, registrados cada hora. •La variable Horas representa el número de horas que el barco mantiene el mismo g gasto y velocidad. Los dos PROC MEANS muestran el efecto de usar Horas como variable frecuencia.

1 PROC MEANS sin 1-PROC i variable i bl frecuencia f i Proc Means data=FrecVelo maxdec=2 n mean; Var course veloc; title 'Velocidad Promedio sin Frecuencia'; run; •Sin Variable Frecuencia, cada observación tiene una frecuencia de 1. •El número total de observaciones es 8.

Proc MEANS: FREQ 2-El 2 El segundo PROC MEANS variable frecuencia:

usa

Horas

como

Proc Means data=FrecVelo maxdec=2 n mean; Var course speed; Freq horas; title 'Velocidad Promedio con Frecuencia'; run; Al usar Horas como Variable Frecuencia, la frecuencia de cada observación es el valor de Horas. 3 5-ProcMeansFreq.sas 3_5 oc ea s eq sas

PROC MEANS con CLASSDATA PROC MEANS statement options; CLASSDATA nombre CLASSDATA= b EXCLUSIVE PRINTALLTYPES; PRINTALLTYPES CLASS nomvar; Archivo de Prueba

Data Tortatipo; Input sabor $ 1-3 capas ; da a es; datalines; Van 1 Van 2 Van 3 Cho 1 Cho 2 Cho 4; Proc Means data=Torta range median min max fw=7 maxdec=0 classdata=tortatipo exclusive printalltypes; Var Score2; Class sabor capas; Title ‘Score para Sabor y Capas Tipos Tortas';

PROC MEANS con CLASSDATA Calcula las estadísticas solicitadas para las variables declaradas en Var Programa Ensayo , y para todas las combinaciones de las variables especificadas en Class. Programa Maestro

DATA Torta; DATA Torta; INPUT Nombre $ 1‐12 Edad 13‐14 Score1 16‐17  Score2 19‐20   Sabor $ 23‐25 Capas 30;

Programa P Ensayo

Data Tortatipo; D T i Input  Sabor $ 1‐3  Capas ; datalines; Van 1 Van 2 Van 3 Cho 1 Cho 2 Cho 4 ;

Se calculan las estadísticas de las variables en Var (score2), para las combinaciones posibles con los valores de las variables leídas en el programa ensayo (sabor, capas).

Proc Means data=Torta  classdata=Tortatipo exclusive   printalltypes; Var Score2; Class sabor capas;       3_6‐ProcMeansClassData.sas

PROC MEANS con PROC FORMAT DATA Torta; INPUT Nombre $ 1-12 1 12 Edad 13-14 13 14 Score1 16-17 16 17 Score2 19-20 Sabor $ 23-25 Capas 30;

Proc Format; value $sbrfmt $ 'Chocolate'='Cho’    'Vainilla'='Van‘    'Ron','Esp'='OtrosSabr';

value edadfmt (multilabel) 15 ‐ 29=' 50 a‘     56 ‐ high='>= 56 ' 15 ‐ 19='15 ‐ 19‘   20 ‐ 25='20 ‐ 25‘    25 ‐ 39='25 ‐ 39‘   40 ‐ 55='40 ‐ 55';  run;   

Proc Means data=Torta   fw=6   n min max data Torta fw 6 n min max mean median  nonobs; mean median nonobs; class sabor/order=freq; class edad /mlf order=fmt; t types sabor sabor*edad; b b * d d var Score2;  format Edad  edadfmt.  Sabor  $sbrfmt.;         

3_7‐ProcMeansFormat.sas

PROC MEANS con IC Media DATA Torta; INPUT N b $ 1 12 Ed d 13 14 S INPUT Nombre $ 1‐12 Edad 13‐14 Score1 16‐17  1 16 17 Score2 19‐20   Sabor $ 23‐25 Capas 30; Proc Format; value $sbrfmt 'Chocolate'='Cho‘    'Vainilla'='Van‘   'Ron','Esp'='OtrosSabr'; value edadfmt (multilabel) 15 ‐ 29 15  29='= >  56  56 ' 15 ‐ 19='15 ‐ 19‘   20 ‐ 25='20 ‐ 25‘    25 ‐ 39='25 ‐ 39‘   40 ‐ 55='40 – 55; run;    proc means data=Torta fw=6 n alpha=0.1 clm mean  nonobs; class sabor/order =freq; class edad /mlf order =fmt; types sabor; var Score2; format edad edadfmt. sabor $sbrfmt.; titl 'IC Media Muestral'; title 'IC M di M t l' 3_8‐ProcMeansIC.sas    run; 

PROC UNIVARIATE

PROC UNIVARIATE DATA=LIBRERÍA.ARCHIVO DATA=LIBRERÍA ARCHIVO OPCIONES: •BY VARIABLES; •CLASS VARIABLES/OPCIONES; •FREQ VARIABLE; •ID VARIABLES; •HISTOGRAM HISTOGRAM VARIABLE/ OPCIONES; •ID VARIABLES; •INSET ESTADÍSTICOS •OUTPUT O O OUT=ARCHIVO=NOMBRE C O O VARIABLES; S •PROBPLOT VARIABLES/OPCIONES; •QQPLOT VARIABLES/OPCIONES; ; •VAR VARIABLES ;

PROC UNIVARIATE con ODS ODS SELECT EXTREMEOBS; PROC UNIVARIATE data=clinica.pacientes; VAR HR SBP DBP; DBP ID PAcN; RUN; Procedimiento UNIVARIATE Variable: DBP (Presión Diastólica)

Extreme Observations --------Lowest-------Value PAcN Obs 8 020 23 20 011 12 64 013 14 68 025 27 68 006 6

--------Highest------Value PAcN Obs 106 027 28 120 004 4 120 010 11 180 009 10 200 321 22

NEXTROBS Option PROC UNIVARIATE ODS SELECT EXTREMEOBS; PROC UNIVARIATE data=clinica.pacientes NEXTROBS=3; VAR HR SBP DBP; ; ID PAcN; RUN; Procedimiento UNIVARIATE Variable: DBP (Presión Diastólica) Extreme Observations --------Lowest-------Value PATNO Obs 8 020 23 20 011 12 64 013 14

--------Highest------Value PATNO Obs 120 010 11 180 009 10 200 321 22

PROC UNIVARIATE con ODS ods html file = 'C:\DataSAS\html\3_UnivariateOds1.html'; Data Velocidad;; label Velocidad = 'Velocidad(millas/hora)'; DO VelocEx = 66 to 85; Input Numero @@; Input  Numero @@; Output; End; Datalines; 2  3  2  1  3  6  8  9 10 13  12 14  6  2  0  0  1  1  0  1 ;

proc print data = Velocidad; run; title 'Analisis de DS Velocidad'; ODS select Moments; ODS select Proc Univariate data=Velocidad; Freq Numero; Var VelocEx;  VelocEx; run; ods html close;

PROC UNIVARIATE con ODS ods html file = ‘3_Univariate.html'; Data Aire (keep = Sitio Ozono); label Sitio  = 'N. Sitio' Ozono = 'Nivel Ozono'; d i do i = 1 to 3; input Sitio @@; do j = 1 to 15; input Ozono @@; input Ozono @@; output; end; end; datalines; 102 4 6 3 4 7 8 2 3 4 1 3 8 9 5 6 134 5 3 6 2 1 2 4 3 2 4 6 4 6 3 1 137 8 9 7 8 6 7 6 7 9 8 9 8 7 8 5    ; ODS  Select Moments SSPlots; proc univariate data=Aire plot; by Sitio; var Ozono;    run; ods html close;

Uso de la estructura DO …. END en lectura de datos

Lihat lebih banyak...

Comentários

Copyright © 2017 DADOSPDF Inc.