Descoberta de padrões de comportamento das Hepatites Virais aplicando Datamining

Share Embed


Descrição do Produto

Descoberta de padrões de comportamento das Hepatites Virais aplicando Datamining C. M. Trindade1,2,D. Domanski S. 1,C. M. C. Moro1,M. G. Aldenucci 2,J. C. Nievola1,S. J. Moysés1 1

PPGTS – Mestrado em Tecnologia em Saúde – PUCPR, Curitiba, Brasil 2 Secretaria de Estado da Saúde do Paraná (SESAPR), Curitiba, Brasil

Resumo – No Brasil, os dados coletados pelos Sistemas de Informação relacionados a Saúde Pública são subutilizados, devido principalmente ao seu grande volume e sua complexidade. Neste trabalho foi aplicada a técnica de Descoberta de Conhecimento em Base de Dados (Knowledge Discovery in Databases) na base do Sistema de Informações de Agravos de Notificação (SINAN), com o objetivo de traçar o perfil epidemiológico das hepatites virais. Foram utilizados os dados referentes ao município de Curitiba no ano de 2003, a partir dos quais foi possível comparar as informações obtidas com o conhecimento disponível na literatura especializada. Obteve-se a representação do perfil epidemiológico das hepatites virais de forma clara, simples e objetiva através de uma árvore de decisão e regras de classificação. Descritores: Hepatite Viral; Descoberta de Conhecimento em Base de Dados; Mineração de Dados,C4.5 Abstract –In Brazil, data collected by the Information Systems for Public Health are underused due to its bulk and complexity. In this work the Knowledge Discovery in Databases (KDD) technique has been used onto the National Information System of Diseases of Notification (SINAN), with the objective of drawing the epidemiological profile of the viral hepatitis. The data were used regarding the city of Curitiba, through the year 2003, allowing to compare the information obtained with the knowledge available in the specialized literature. The epidemiological profile obtained was represented by a decision tree and classifications rules. Key-words: Viral Hepatitis, Knowledge Discovery in Databases; Data Mining Introdução O Ministério da Saúde do Brasil (MS) adota e recomenda o uso de diversos sistemas informatizados para auxiliar a Vigilância Epidemiológica (VE) na construção do perfil da morbimortalidade do país. A partir dos dados coletados, são realizadas análises para definição das ações epidemiológicas que devem ser executadas [1]. Estas ações são, normalmente, definidas por formuladores de políticas e tomadores de decisão, muitas vezes apoiados por epidemiologistas e especialistas em saúde pública que estudam o processo saúde-doença, analisando a sua freqüência e seus fatores determinantes com o objetivo de promover a saúde e reduzir ou controlar a ocorrência de doenças [2]. Em 1975, a lei nº 6259 instituiu o Sistema Nacional de Vigilância Epidemiológica, o qual estabeleceu normas relativas a obrigatoriedade da notificação compulsória de algumas doenças e agravos. Para a coleta e transferência destes dados, desde 1994, o Sistema Nacional de Informações e Agravos de Notificação (SINAN) vem sendo utilizado oficialmente nas três esferas de governo - federal, estadual e municipal.[3]. Segundo a Organização Mundial de Saúde (OMS), atualmente uma das doenças mais

importantes do mundo é a Hepatite C [4], que se enquadra na classificação das hepatites virais, as quais são de notificação obrigatória e acompanhadas por meio do SINAN. Contudo, o aumento no volume de dados em sistemas como o SINAN causa grandes dificuldades na extração de informação útil para suporte à decisão. Ainda mais grave, muitas vezes tais sistemas apresentam inconsistências que tornam análises e decisões posteriores fortemente sujeitas a vieses interpretativos. A análise de dados tradicional (manual) tornou-se inadequada, e métodos para análise através de computador são indispensáveis. Para satisfazer esta necessidade, a informática em saúde pode usar tecnologias robustas, desenvolvidas no campo interdisciplinar de KDD, englobando ferramentas de reconhecimento de padrões, aprendizado de máquina, e visualização para suporte às análises de dados e de descoberta de regularidades que estão codificadas dentro dos dados [5]. Este trabalho tem como objetivo identificar, a partir de um grande número de variáveis constantes do SINAN, algumas que sejam operacionalmente manejáveis e que sirvam potencialmente como “atributos marcadores” para

a classificação e compreensão da estrutura etiológica das hepatites virais. Neste sentido, busca-se evidenciar, paralelamente, a qualidade e consistência dos dados registrados na base de dados. Busca, também, traçar o perfil epidemiológico do agravo, ou seja, estabelecer o comportamento das hepatites virais, segundo pessoa, tempo e lugar, oferecendo suporte às decisões relativas ao enfrentamento das mesmas, no que se refere ao planejamento de medidas de prevenção, controle e assistência nos vários níveis do Sistema Único de Saúde (SUS), bem como, possibilitar a avaliação da efetividade e eficiência das estratégias adotadas. Tratando-se de um exercício exploratório, elegeu-se para este trabalho a população de Curitiba, utilizando-se dados do ano de 2003, e com base nos atributos de idade, vacinação contra hepatite B, forma clínica, evolução e diagnóstico da doença. O trabalho seguirá o processo de KDD, tendo em vista que a utilização de técnicas estatísticas e consultas SQL (Structured Query Language) não são suficientes para a identificação de novos padrões nestas doenças. O processo de KDD é dividido em 6 etapas: (i) estudo do problema; (ii) seleção dos dados a serem utilizados; (iii) pré-processamento dos dados escolhidos; (iv) transformação dos dados; (v) mineração de dados; e (vi) interpretação/avaliação dos resultados. Na etapa de estudo do problema busca-se compreender o domínio de aplicação da ferramenta e estabelecem-se os objetivos do trabalho[6]. Na seleção dos dados são determinados quais dados serão usados e é feito um estudo para determinar a confiabilidade dos mesmos. No pré-processamento dos dados é realizada a limpeza da base, bem como uma seleção dos atributos a serem utilizados [8],[9]. Esta é a etapa que normalmente toma maior parte do tempo no processo como um todo (de 60% a 80% do total) [7]. Na etapa de transformação dos dados, estes sofrem transformações a fim de adequá-los ao seu uso pelas técnicas de mineração de dados. Na etapa de mineração de dados aplicam-se os algoritmos de descoberta de padrões, cujas tarefas podem ser de classificação, associação ou agrupamento. A tarefa de classificação consiste na descoberta do relacionamento subjacente entre os atributos de entrada e o atributo meta. A tarefa de associação busca determinar quais atributos estão interligados e na tarefa de agrupamento os dados são particionados em subconjuntos, onde dados atribuídos ao mesmo conjunto têm características similares. Na fase de interpretação/avaliação dos resultados analisa-se o resultado obtido na etapa anterior a fim de torná-lo útil [10],[11] [12] [13].

Uma das técnicas mais usadas para a tarefa de classificação consiste na construção de uma árvore de decisão. Para a construção da mesma seleciona-se inicialmente um atributo como nó raiz. Em seguida cria-se um ramo para cada valor possível que o atributo pode assumir e repete-se este processo iterativamente.[10]. Para a mineração de dados foi utilizado o algoritmo C4.5, o qual foi proposto por Quinlan. Este algoritmo gera uma árvore de decisão e / ou regras de decisão, através da escolha dos atributos que compõe os nós da árvore, baseada em entropia [11]. Neste trabalho foram realizadas as seis etapas do processo de KDD, descritos a seguir. Metodologia Definição de metas: inicialmente, foram levantadas algumas necessidades da Secretaria de Estado da Saúde do Paraná, junto à coordenação do Plano Estadual de Prevenção e Controle das Hepatites Virais. Uma das solicitações desta coordenação foi analisar as relações entre a classificação etiológica das hepatites virais com: idade, vacinação contra hepatite B, forma clínica, evolução e diagnóstico da doença. Seleção dos dados: Para a extração dos dados do SINAN, foi efetuada a exportação da base de dados para o formato DBF(Data Base File), utilizando o módulo “utilitários” do próprio SINAN. Após a geração deste arquivo, foi criado um banco de dados no MS Access, onde foi feita a importação do arquivo DBF, resultando em uma tabela que possuía 126 campos (atributos), com aproximadamente 20000 casos armazenados, concatenando os dados dos 399 municípios do Estado, desde de 1996 até 2004. Visando facilitar a análise dos resultados obtidos foram selecionados os dados relevantes, através de consultas SQL, permanecendo na tabela apenas os dados referentes ao município de Curitiba no ano de 2003 (442 registros e 6 atributos). Pré-processamento: seguindo as recomendações da especialista em hepatites virais, foram selecionados apenas os seis atributos que mais influenciariam, segundo sua experiência profissional, na geração das informações solicitadas para este momento, sendo que os outros 120 atributos foram retirados da tabela. Visando o conhecimento de todo o banco de dados foi efetuada uma estatística na tabela para identificação do padrão de preenchimento dos campos. Transformação: neste processo foram substituídos os códigos por suas descrições textuais. Os valores nulos foram completados com a descrição “não informado”.

Mineração de dados: o programa utilizado para mineração de dados foi o C4.5 Decision Tree Generator, o qual trabalha com dois arquivos: “.data” onde encontram-se os registros que serão utilizados na geração das regras e árvore de decisão; o “.names” onde são definidos os nomes e os valores possíveis para todos os atributos inclusive para o atributo meta. Para a geração do arquivo “.data”, foi exportada para formato texto a tabela gerada no MS Access, separando os dados por ponto e virgula, lembrando apenas que o último atributo posicionado na tabela é o “atributo meta” (neste caso a classificação etiológica, pois o objetivo é saber o comportamento dos outros atributos no banco em relação a este). Neste arquivo texto os “;” foram substituídos por “,” e foram retirados os nomes dos campos que estavam na primeira linha, pois é este o formato utilizado pelo software. Na figura 1 um trecho deste arquivo pode ser observado. Hepatite Crônica, Hepatite Crônica, Confirmação Clinico Labo Portador Assintomático, Portador Crônico, Confirmação Clinic Portador Assintomático, Portador Crônico, Confirmação Clínic Hepatite Aguda, Cura, Confirmação Clinico Laboratorial, Viru tite Aguda, Cura, Confirmação Clinico Laboratorial, Vírus A, tite Crônica, Portador Crônico, Confirmação Clinico Laborato te Aguda, Cura, Confirmação Clinico Laboratorial, Virus A, te Aguda, Cura, Confirmação Clinico Laboratorial, Virus A, Portador Assintomático, cura, Confirmação Laboratorial, Viru tite Aguda, Cura, Confirmação Clinico Laboratorial, Virus A Portador Assintomático, cura, Confirmação Clinico Laboratori tite Aguda, Cura, Confirmação Clinico Laboratorial, Virus A tite Crônica, Cura, Confirmação Laboratorial, Virus B, tite Aguda, Cura, Confirmação Clinico Laboratorial, Virus A Hepatite Crônica, Hepatite Crônica, Confirmação Laboratorial

Figura 1 - Trecho do arquivo ihepatit.data Ignorado, Não Informado, Outras Hepatites Virais, Virus A, NU_IDADE: continuous HEPATITB: Completa, Ignorado, Incompleta, Não Informado, Não FORMA: Hepatite Aguda, Hepatite Crônica, Hepatite Fulminate EVOLUCAO: Cura, Hepatite Crônica, Ignorado, Não Informado, Ó DIAGNOST: Confirmação Clinico Epidemiologico, Confirmação

Figura 2 – Trecho do arquivo hepatit.names Na geração do arquivo “.names” foi criado um arquivo texto e na primeira linha foram informados os valores possíveis para o “atributo meta”, isto é, os valores possíveis para a classificação etiológica separando-os por virgula. A seguir foram informados os nomes dos outros atributos da tabela, na seqüência em que os mesmos encontravam-se no arquivo “.data”, listando após dois pontos os seus valores possíveis conforme mostrado na Figura 2. Após a criação deste dois arquivos foi executado o C4.5.

Resultados Os resultados obtidos foram a árvore de decisão e as regras de classificação. Na árvore de decisão o atributo mais relevante para definir a Classificação Etiológica foi a Forma Clinica, ficando como nó principal da árvore. A forma clinica dividiu-se em Hepatite Crônica, Hepatite Aguda, Hepatite Fulminante, Infecção Assintomática, Não Informado, Hepatite Aguda e ignorado. A forma hepatite crônica mostrou-se como tendência à classificação etiológica vírus C, a hepatite fulminante como vírus A, a forma como infecção assintomática tende para classificação como “ignorado”, forma “não informado” para classificação também “não informado”. A forma hepatite aguda dividiu-se conforme a idade dos pacientes, maiores de 23 anos tendem para o vírus B, pacientes com idade menor ou igual a 23 anos, para a definição da classificação foi observado também a evolução da doença: no caso de cura, “não informado”, óbito e portador crônico a tendência é o vírus A, quando evolui para a hepatite crônica ou foi informado como “ignorado” a tendência é o vírus B. Quando a forma de hepatite foi indicada como “ignorado” observou-se que normalmente não foi definida a classificação etiológica e o atributo mais relevante para estes casos seria a evolução. No caso de portador assintomático observou-se que o atributo mais relevante foi à imunização contra hepatite B, de forma que nos casos com vacinação completa a tendência foi o vírus B. Nos casos onde a vacinação foi preenchida como ignorado, incompleta ou não informado a tendência foi o vírus C. Para os pacientes não vacinados contra a hepatite B foi observado o diagnóstico para: Confirmação Clinica Epidemiológica, Confirmação Clinica Laboratorial, Descartado, Inconclusivo ou não informado a tendência foi o Virus B. Apenas para o diagnóstico Confirmação Laboratorial e paciente na faixa etária de 28 a 36 anos a tendência foi o Vírus C, nos outros casos novamente o Vírus B, conforme ilustrado na Figura 3. As regras de classificação foram divididas em 17 regras, conforme a Tabela 1. A Regra1 verifica se a evolução é cura e a forma clinica é a hepatite aguda para sugerir como classificação etiológica o vírus A, na Regra2 é observado se a evolução é a hepatite crônica e a forma clinica é a hepatite aguda e a idade do paciente é igual ou menor que 23 anos para sugerir a classificação como vírus B, as demais regras podem ser interpretadas da mesma maneira como foi descrito para as regras 1 e 2.

Figura 3 – Árvore de decisão. Tabela 1 - Regras de classificação. Regra 1: SE EVOLUCAO = Cura E FORMA = Hepatite Aguda ENTAO Classe = Vírus A Regra 4: SE NU_IDADE > 23 E FORMA = Hepatite Aguda ENTAO Classe = Vírus B Regra 7: SE NU_IDADE 27 E NU_IDADE
Lihat lebih banyak...

Comentários

Copyright © 2017 DADOSPDF Inc.