ANÁLISIS DE DATOS MULTIVARIADOS DE PACIENTES DIABÉTICOS INTERNADOS CON REDES NEURONALES AUTOORGANIZADAS

May 31, 2017 | Autor: Gustavo Meschino | Categoria: Diabetes, Self-Organizing Maps (SOMs)
Share Embed


Descrição do Produto

ANÁLISIS DE DATOS MULTIVARIADOS DE PACIENTES DIABÉTICOS INTERNADOS CON REDES NEURONALES AUTOORGANIZADAS GUSTAVO J. MESCHINO, LUCÍA I. PASSONI, ADRIANA G. SCANDURRA [email protected] Departamento de Ingeniería Electrónica - Laboratorio de Bioingeniería Facultad de Ingeniería – Universidad Nacional de Mar del Plata

RESUMEN Con el fin de facilitar la interpretación de Información multivariada con cierto grado de incompletitud, se presenta una interfaz gráfica, diseñada con Redes Neuronales Artificiales (mapas autoorganizados de Kohonen) para el análisis de datos de pacientes diabéticos internados en el Hospital Interzonal General de Agudos de la ciudad de Mar del Plata. Se obtienen conclusiones interesantes que pueden contribuir a la predicción y disminución de costos de internación, además de aportar una adecuada caracterización de los pacientes. PALABRAS CLAVE Diabetes – Análisis de Datos Multivariados – Redes Neuronales – Kohonen

1. INTRODUCCIÓN 1.1. Motivación En este milenio se vive en nuestro medio una realidad sanitaria que, al menos en el área de ciertas enfermedades crónicas transmisibles, se suponía debía estar ampliamente superada en estos días. Sin embargo, según un boletín de la OMS de junio del 2000, cada año mueren 13 millones de personas por enfermedades de este tipo, el 90 por ciento de ellas en países del Tercer Mundo. La mayoría de las enfermedades de este tipo (a excepción del SIDA), son pasibles de inmunización o de tratamientos eficaces y poco costosos. Sin embargo, es la epidemia de las enfermedades crónicas no transmisibles la que se avecina, creando un nuevo perfil epidemiológico y haciendo ineludible el estudio de esta problemática. La diabetes es una enfermedad crónica no transmisible, altamente prevalente en la población general. Se observa en los servicios de internación

de clínica médica un preocupante aumento del número de internaciones por complicaciones de la diabetes, con pacientes que llegan con un significativo (y prevenible) deterioro general, y que permanecen internados por períodos prolongados. Sin embargo, hasta el presente, en nuestro medio no se ha investigado fehacientemente esta tendencia, ni las causas de esta problemática. Paradójicamente, en un momento histórico de increíbles avances en conocimientos científicos y tecnológicos, en el cual existen medidas simples de prevención de complicaciones, reducción del daño e incremento de la calidad de vida, éstas no se apliquen, o se apliquen en forma insuficiente. Resulta éticamente inaceptable que lo indeseado que es prevenible, suceda. Además se observa que al costo social se le suma el costo económico de la atención de aquello que no debería haber ocurrido. A partir de la necesidad de estudiar este tipo de enfermedades con un enfoque epidemiológico la unidad de Internación del Hospital Interzonal General de Agudos de la ciudad de Mar del Plata realizó una encuesta en pacientes diabéticos internados. En este trabajo se propone el diseño de una interfaz gráfica, basada en Redes Neuronales Artificiales para el análisis de los datos recolectados. Los resultados permiten relacionar características diversas tales como el nivel social, educativo, económico, con variables médicas, que permitan determinar los motivos de internación más frecuentes, sus comorbilidades, e incluso estimar costos de internación. El uso de este método permite observar correlaciones entre gran cantidad de variables en forma visual, lo que lo hace posible la extracción de conclusiones que no son fáciles de obtener con otros procedimientos. Se han realizado trabajos que abordan esta temática con diversas herramientas [BRANCATI et al., 1996] [ZORMAN et al., 2002] [EVANS et al., 2000] [TSANN et al., 2004] [WÄNDELL et al., 2004], pero el enfoque de este estudio, en cuanto al análisis de características sociales de los pacientes y la capacidad de asistir en el presupuesto del hospital mediante el uso de Redes Neuronales, lo hace particularmente interesante.

1.2. Descubrimiento del Conocimiento Los procesos actuales, en su mayoría implican el almacenamiento de grandes cantidades de datos con un número importante de variables y registros, que hacen complejo su análisis y aprovechamiento. También las nuevas tecnologías aportan cada vez mayores volúmenes de datos, evolucionando más rápidamente de lo que se los puede analizar. La minería de datos es la respuesta a esta necesidad, y bajo ese nombre tan general se

encuentran una variada cantidad de métodos y algoritmos que intentan extraer conocimiento de tales conjuntos de datos [Fayyad et al., 1996]. Existe un amplio conjunto de técnicas utilizadas en el proceso de Descubrimiento del Conocimiento, entre ellas las redes neuronales autoorganizadas de Kohonen (SOM, Self Organizing Map) se han utilizado exitosamente en disciplinas muy variadas, como el monitoreo de procesos, economía, procesamiento de imágenes, apoyo a las decisiones [Kohonen, 1990], [Kohonen et al., 2000], [Vesanto, 1999].

2. MATERIALES Y METODOS 2.1. Mapas Auto-organizados Un SOM consiste de un arreglo de neuronas, comúnmente denominadas las celdas del mapa, arregladas generalmente en una o dos dimensiones. Cada celda “contiene” un vector prototipo de la misma dimensión que los datos a analizar. Durante el entrenamiento, estos vectores se modifican con el objeto de que representen al conjunto de datos. La celda cuyo vector prototipo es el más cercano (considerando alguna medida de similitud) a un determinado patrón de entrada es denominada la celda ganadora, o BMU (por Best Matching Unit) para ese patrón. Generalmente se utiliza como medida la distancia Euclidiana, pero podrían elegirse otros criterios de distancia para hallar la BMU. Los valores de los vectores prototipo deben inicializarse, esto puede hacerse según diferentes criterios: con valores aleatorios, con valores extraídos de los propios datos, o linealmente (calculando los autovalores y autovectores de los datos de entrenamiento). Durante el proceso de entrenamiento la BMU y las celdas vecinas son modificadas en cada iteración, según la expresión:

[

wi (n + 1) ← w j (n) + η (n) h ji (n) x(n) − w j (n)

]

donde n es el número de iteración, j es el índice de la neurona considerada en la iteración, wj es el peso sináptico de la neurona j, η (n) la constante de

h ji (n) una función que define la vecindad centrada en la celda ganadora (BMU) y x( n) es el patrón de entrenamiento. Tanto la constante de

aprendizaje,

aprendizaje como la vecindad son funciones decrecientes con las iteraciones [Haykin 1999].

Una vez finalizado el entrenamiento las celdas del mapa son llamadas vectores prototipo. La etapa posterior consiste en diseñar una visualización de los valores de estos vectores prototipo que permitan obtener conclusiones acerca del conjunto de datos. Se han desarrollado una gran cantidad de posibilidades [Vesanto, 1999] y la elección de una determinada visualización dependerá del tipo de conclusiones a obtener información buscada. En este caso se optó en primer término por la matriz de distancias unificadas (U-matrix) para visualizar agrupamientos de los casos presentados al mapa. Esta representación muestra las distancias entre los vectores prototipo de cada celda con los de sus vecinas, representándolas con intensidades de gris. Así una región de distancias altas definirá el borde de un agrupamiento de los datos (cluster). Conociendo la clasificación de algunos de los patrones de entrada, o todos ellos, es posible ubicar en la visualización, la posición de las BMU de cada uno, con una etiqueta que lo identifica. Los planos de componentes permiten analizar el comportamiento de las variables en los grupos identificados. En estas representaciones se muestra un mapa para cada variable, con celdas coloreadas según el valor que toma esa componente en el vector prototipo. De esta manera es posible analizar correlaciones entre las componentes de los patrones de entrada, y obtener conclusiones del agrupamiento obtenido.

2.2. Datos procesados Los datos fueron recolectados en el Hospital Interzonal General de Agudos (HIGA) de la ciudad de Mar del Plata, e incluyen a todos los pacientes diabéticos internados en el Servicio de Clínica Médica, en el período comprendido entre el 01-09-2000 y el 30-06-2001 (10 meses). Se completó un cuestionario por paciente con datos filiatorios, condiciones sociales, educativas, laborales y económicas, diagnóstico clínico, factores de riesgo, motivos de internación, duración de la internación y el costo institucional de la misma (Tabla I). Los datos recolectados fueron ingresados a una base de datos (EpiInfo 6), obteniéndose medidas de tendencia central. Luego fueron exportados y convertidos a un formato adecuado. Como etapa previa al procesamiento, se realizó la codificación numérica de las variables, generándose tres tipos: dicotómicas (ej: existe o no un Factor de Riesgo), intervalares y ordinales. En el caso de ausencia de

respuesta en un ítem no se realiza codificación alguna, pues el procesamiento (SOM) presenta un comportamiento robusto en estos casos. Datos Filiatorios Edad Condición Social Ocupación Ingreso Económico Estado Civil Convivencia En relación a su Diabetes Tipo de DBT Años de DBT Diagnóstico Toma Medicación Hace Dieta Factores de Riesgo FR:HTA (Hipertensión Arterial) FR:Insuf.Renal Crónica FR:Insuf.Card. Congestiva FR:Cardiopatía Isquémica FR:Enfermedad Vascular P. (Enfermedad Vascular Periférica) FR:Acc.Cerebro Vascular Secuela (Accidente Cerebro Vascular) FR:Retinopatía Diabética Motivos de Internación MI:Pie Diabético MI:CI Aguda (Cardiopatía Isquémica Aguda) MI:Neuropatía MI:Infección Urinaria MI:ICC Descompensada (Insuficiencia Cardíada Congestiva Descompensada) Característica de la Internación Días de Internación

Sexo Grado de Instrucción Actividad Física en Tiempo Libre Vida Activa No realiza Actividad Física Automonitoreo Nº Visitas Insulina H.Orales Sin tratamiento FR:Consumo Alcohol FR:Tabaquismo FR:Hiper-colesterolemia FR:Peso FR:Talla FR:BMI (Body Mass Index – Índice de Masa Corporal)

MI:CAD (Cetoacidosis diabética) MI:ACV en curso (Accidente Cerebro Vascular en curso) MI:Infección Piel MI:Otro

Costo Institucional

Tabla I: Variables obtenidas de la encuesta. Las que comienzan con la sigla “FR” corresponden a diferentes Factores de Riesgo, y las que comienzan con “MI” indican los Motivos de Internación

2.3. Interfaz gráfica para operar con el SOM Para el procesamiento en MatLab®, se utilizó una librería específica de uso libre para el trabajo con mapas autoorganizados, desarrollada en la Universidad de Helsinki [Vesanto et al., 1999]. Para facilitar las diferentes pruebas se desarrolló en MatLab® una interfaz interactiva que permite realizar diferentes combinaciones de variables, representaciones gráficas y etiquetas. En la Figura 1 puede verse el aspecto de la misma.

Existen dos tipos de selección sobre las variables disponibles en el archivo: en primer lugar se seleccionan de la lista de la izquierda las variables con las que se genera el vector de entrada (pasan a la lista de la derecha), en segundo lugar de la lista de la derecha se eligen las que participan activamente en el cálculo de las BMU. Sin embargo es posible visualizar los mapas de todas las variables, aún el de aquellas que no intervienen en el entrenamiento. Pueden elegirse algunos de los parámetros topográficos del SOM, como la cantidad y tipo (hexagonales o cuadradas) de celdas que lo componen. Finalizado el entrenamiento es posible obtener gráficos de Umatrix, de mapas de componentes y etiquetar las BMU con los nombres que se almacenan en un archivo de texto.

Figura 1: Aspecto de la interfaz gráfica para el SOM

3. RESULTADOS Entrenándose el SOM con las variables que corresponden a los motivos de internación, se logran buenos agrupamientos de casos en diferentes zonas del mapa. En la Figura 2 se observa la U-matrix donde pueden identificarse las regiones que corresponden a los distintos motivos de internación. Las zonas claras corresponden a distancias altas, y por lo tanto dividen los grupos o clusters obtenidos.

Figura 2: Matriz de distancias que muestra el agrupamiento de los casos según los motivos de internación. Una manera de explicar este agrupamiento consiste en obtener conclusiones mediante el uso de los mapas de componentes, en cada uno de ellos se observan los valores que toma cada variable de la celda prototipo. Los mapas están relacionados entre sí por la posición de sus celdas. Es decir, un paciente cuya BMU se ubica en un determinado lugar del mapa repetirá su ubicación para todas las componentes.

Figura 3: Análisis de la variable “Costo Institucional” conjuntamente con los motivos de internación. En la Figura 3 puede verse el mapa correspondiente a la variable: “Costo institucional” y además las etiquetas correspondientes a los diferentes motivos de internación, que coinciden en posición con las mostradas en la

Figura 2. El análisis de esta Figura permite la siguiente interpretación: Los casos de “Costos de internación” más altos fueron internados por “Pie Diabético”, mientras que los costos medios son atribuibles a casos que se internan por “Infección de Piel”. También puede enunciarse que “Los pacientes que se internan por CIA (Cardiopatía Isquémica Aguda) o por IU (Infección Urinaria) manifiestan los costos de internación más bajos”. Para hacer un análisis más profundo se entrenó el mapa nuevamente, con el conjunto total de variables, y la matriz de distancias obtenida se muestra en la Figura 4. La representación de las distancias se ha realizado interpolando las intensidades de modo de obtener una variación suave. En esta visualización no se pueden apreciar los bordes de las celdas, pero se distinguen mucho más fácilmente las zonas en las que los vectores prototipos presentan grandes distancias entre sí (intensidades de gris claras). Esto permite identificar rápidamente los grupos que corresponden a los diferentes motivos de internación.

Figura 4: Matriz de distancias con interpolación de intensidades de niveles de gris. En la Figura 5 se aprecian los mapas de componentes, correspondientes a las comorbilidades y los factores de riesgo (ambos identificados por las letras FR en el nombre de la variable). Los nueve primeros han sido visualmente configurados de modo que muestre las posibles respuestas: ‘Sí’, ‘No’. En la última fila se ubican los valores de Talla y BMI (Body Mass Index, Índice de masa corporal) de los pacientes, y finalmente el Costo Institucional. Un análisis sumamente importante consiste en determinar qué características de comorbilidades y factores de riesgo poseen los pacientes cuya internación demandó un Costo Institucional alto. Estos casos corresponden a la zona clara del mapa situado en la parte inferior derecha de

la Figura 5, correspondiente precisamente al Costo. Observando el resto de las variables, puede concluirse que estos casos presentan los factores de riesgo ‘Enfermedad Vascular Periférica’ (segunda fila, segunda columna) y ‘Tabaquismo’ (tercera fila, segunda columna) y algunos de ellos también presentan ‘Retinopatía Diabética’ (segunda fila, tercera columna). Comparando los mapas es posible determinar, por ejemplo, que un gran porcentaje de los pacientes con ‘Insuficiencia Renal Crónica’ presentan también ‘Cardiopatía Isquémica’.

Figura 5: Mapas de las correspondientes a los factores de riesgo o comorbilidades y “Costo Institucional” Combinando alguna de las variables de interés con la agrupación que se mostró mediante la matriz de distancias (Figura 4) pueden relacionarse distintas características de los pacientes con los motivos de internación. Para determinar si existen relaciones entre los pacientes que realizan actividad física con el motivo de internación, puede utilizarse el mapa etiquetado de la Figura 6.

Puede concluirse que los enfermos internados por los motivos ‘ACV’ o ‘CIA’ realizan actividad física. Adicionalmente observando las ubicaciones de los diferentes motivos de internación pueden examinarse los mapas de las variables correspondientes a las características sociales de los pacientes.

Figura 6: Mapa de la variable ‘Realiza actividad Física’ con las etiquetas de los grupos obtenidos por ‘Motivos de Internación’ Con las variables de la Figura 7 pueden determinarse las características de los pacientes internados por los diferentes motivos. Las escalas se muestran como datos continuos, si bien las respuestas de algunas preguntas son elegidas entre un número finito de opciones cuya codificación sigue un orden lógico y puede observarse en la Tabla II. Ocupación 1 = Empleado 2 = Comerciante 3 = Estudiante 4 = Ama de casa Convivencia 1 = Vive solo 2 = Vive con amigos Grado de Instrucción 1 = Analfabeto 2 = Primaria incompleta 3 = Primaria completa Toma medicación Hace dieta 1 = Regularmente 2 = Discontinuadamente Automonitoreo 1 = Si, lo cumple

5 = Cuentapropista 6 = Desocupado 7 = Jubilado;

3 = Vive con su familia 4 = Vive en la calle 4 = Secundaria 5 = Terciaria 6 = Universitaria

3 = Nunca

2 = No, no lo realiza

Tabla II: Variables con respuestas codificadas

Las variables que no intervienen en la descripción no presentan comportamientos relevantes. Algunas de las conclusiones obtenidas, a modo de ejemplo, pueden ser: •



Los pacientes internados por ‘CAD’ (zona inferior derecha de los mapas) son de edades bajas (según la variable ‘Edad’), tienen bajos ingresos económicos (variable ‘Ingreso Económico’), no toman su medicación (variable ‘Toma Medicación’), y están enfermos hace 15 a 21 años (variable ‘Años de DBT’). Los pacientes internados por ‘Pie Diabético’ en su mayoría viven con su familia (variable ‘Convivencia’), y toman su medicación siempre o casi siempre (variable ‘Toma Medicación’).

Figura 7: Mapas de las variables “Edad”, “Ocupación”, “Ingreso Económico”, “Convivencia”, “Grado de instrucción”, “Años de Diabetes”, “Toma Medicación”, “Hace Dieta” y “Automonitoreo” •



Los pacientes internados presentando ‘ACV’ tienen edades cercanas a los 60 años, viven con su familia, hace unos 8 años que les fue diagnosticada la enfermedad, no suelen tomar la medicación, no cumplen con la dieta ni se automonitorean. Los pacientes internados por ‘Neumonía’ tienen edades cercanas a los 60 años, hace aproximadamente 12 años que les fue diagnosticada la enfermedad y no se automonitorean.



Los pacientes internados presentando ‘CIA’ tienen edades cercanas a los 60 años, no viven solos, tienen un grado de instrucción hasta primaria, la mayoría sin completar y hace 2 años o menos que les fue diagnosticada la diabetes.

4. CONCLUSIONES El sistema provee una rica visualización de resultados que facilita la interpretación de modelos complejos con datos multivariados. En una aplicación de este tipo (medicina o administración de salud) el operador es un experto de campo, quien no necesita conocer la metodología propia de la herramienta. Los resultados obtenidos se complementan con el análisis estadístico de las encuestas, que fue realizado previamente por especialistas. La utilización de los SOM es indiscutiblemente valiosa a la hora de encontrar relaciones entre las variables involucradas en esta investigación, a pesar de ser una cantidad importante.

5. AGRADECIMIENTOS Al Dr. Francisco Vázquez Vismara, en conjunto con los médicos residentes del Hospital Interzonal General de Agudos de la ciudad de Mar del Plata, y a los doctores Roberto Fidel y Daniel Rubens, por compartir los resultados de la encuesta realizada a pacientes diabéticos internados en dicho establecimiento y por su interesante discusión de los resultados.

6. REFERENCIAS • BRANCATI F.L.; WHELTON P.K.; KULLER L.H.; KLAG M.J. (1996): "DIABETES MELLITUS, RACE, AND SOCIOECONOMIC STATUS. A POPULATION-BASED STUDY". Annals of Epidemiology – Vol. 6 – pgs. 67, 73. • EVANS J.M.; NEWTON R.W.; RUTA D.A.; MACDONALD T.M.; MORRIS A.D. (2000): "SOCIO-ECONOMIC STATUS, OBESITY AND PREVALENCE OF TYPES 1 AND 2 DIABETES MELLITUS". Diabetes Medicine – Vol. 17 – pgs. 478, 480. • FAYYAD U.; PIATETSKY-SHAPHIRO G.; SMYTH P; UTHURUSAMY R. “ADVANCES IN KNOWLEDGE DISCOVERY AND DATA MINING”. MIT Press. Cambridge, MA 1996. • HAYKIN SIMON (1999): “NEURAL NETWORKS: A COMPREHENSIVE FOUNDATION”. Editorial Prentice-Hall – pgs. 453, 454.

• KOHONEN T. (1990): “THE SELF ORGANIZING MAP”. IEEE Proceedings – Vol. 78 – No. 9 – pgs. 1464, 1480. • KOHONEN T.; KASKI S. LAGUS K.; SALOJARVI J.; HONKELA J.; PAATERO V.; SAARELA A. (2000): “SELF ORGANIZATION OF A MASSIVE DOCUMENT COLLECTION“. IEEE Trans. On Neural Networks – Vol. 11 – No. 3 – pgs. 574, 585. • PASSONI LUCÍA I. (2002): “GESTIÓN UNIVERSITARIA: PROPUESTA DE APOYO A LAS DECISIONES CON REDES NEURONALES AUTOORGANIZADAS”. Revista de la EPIO – No. 22, Mayo 2002 – pgs. 85, 98. • TSANN LIN; PESUS CHOU; SHIH-TZER TSAI; YU-CHUN LEE; TONGYUAN TAI. (2004): "PREDICTING FACTORS ASSOCIATED WITH COSTS OF DIABETIC PATIENTS IN TAIWAN". Diabetes Research and Clinical Practice – Vol. 63 – No. 2 – pgs. 119, 125. • VESANTO J.; HIMBERG J.; ALHONIEMI E.; PARHANKANGAS J. (1999): “SELF-ORGANIZING MAP IN MATLAB: THE SOM TOOLBOX”. Proceedings of the Matlab DSP Conference 1999 – Noviembre 1999 – pgs. 35, 40. • VESANTO JUHA (1999): “SOM-BASED DATA VISUALIZATION METHODS”. Intelligent Data Analysis – Vol. 3 – No. 2 – pgs. 111-126. • WÄNDELL E.; GAFVELS C. (2004): "PATIENTS WITH TYPE 2 DIABETES AGED 35–64 YEARS AT FOUR PRIMARY HEALTH CARE CENTRES IN STOCKHOLM COUNTY, SWEDEN: PREVALENCE AND COMPLICATIONS IN RELATION TO GENDER AND SOCIO-ECONOMIC STATUS". Diabetes Research and Clinical Practice – Vol. 63 – No. 3 – pgs. 195, 203. • ZORMAN M.; MASUDA G.; KOKOL P.; YAMAMOTO R.; STIGLIC B. (2002): "MINING DIABETES DATABASE WITH DECISION TREES AND ASSOCIATION RULES". Proceedings of the 15th IEEE Symposium on Computer-Based Medical Systems – pgs. 134, 139.

Lihat lebih banyak...

Comentários

Copyright © 2017 DADOSPDF Inc.