Análise do Prontuário médico para a utilização com KDD

June 8, 2017 | Autor: K. Collazos Linares | Categoria: Congresso Brasileiro de Automática
Share Embed


Descrição do Produto

Análise do Prontuário médico para a utilização com KDD 1

2

3

Kathya Collazos L. , Jorge Muniz Barreto , Gisele F. Pellegrini Grupo de Pesquisas em Engenharia Biomédica (GPEB), Departamento de Engenharia Elétrica, Universidade Federal de Santa Catarina (UFSC), Brasil 2 Departamento de Informática e de Estatística Universidade Federal de Santa Catarina (UFSC), Brasil [email protected]

1,3

Resumo: O presente artigo mostra uma análise de diversos tipos de prontuários utilizados em medicina, visando o descobrimento de conhecimento em bases de dados clínicos que é chamado de Knowledge Discovery in Database (KDD). Para isto é necessário contar com uma quantidade suficiente de atributos que possam identificar com o maior detalhe possível o objeto em estudo, que neste caso é o paciente. KDD é uma técnica da Inteligência Artificial (IA) que se mostra como uma ferramenta semi-automática que possibilita a análise de grandes conjuntos de dados, propõe-se como o descobridor de informação útil a partir de grandes bases de dados. A informação descoberta pode ser representada por regras, descrevendo propriedades dos dados, padrões que ocorrem freqüentemente, agrupamento de objetos na base de dados, etc. Ilustra-se a técnica do KDD com alguns exemplos. Palavras-chave: KDD, Inteligência Artificial, Análise de dados, Engenharia Biomédica. Introdução No final da década de 1970 e início da de 1980, a Inteligência Artificial em medicina (IAM) esteve fortemente ligada ao desenvolvimento dos Sistemas Especialistas (SE), dirigidos ao apoio ao diagnóstico e à tomada de decisão em domínios clínicos específicos. O MYCIN (1) de Shortliffe foi o SE pioneiro, tendo sido seguido por numerosos trabalhos nessa área. As metodologias de IAM para a tomada de decisão clínica desenvolveram-se extraordinariamente desde os iniciais métodos estatísticos e padrões de reconhecimento, chegando a sistemas baseados no conhecimento, em uma escala contínua e crescente de evolução. As aplicações iniciais exploravam várias abordagens para a manipulação do conhecimento com domínios específicos de interesse, utilizando redes causais, ou raciocínio modular baseado em regras, ou a representação do conhecimento descrevendo o domínio clínico com estruturas e modelos. Essas abordagens variadas apontaram as dificuldades enfrentadas na aquisição do conhecimento necessário para cada aplicação. A aquisição do conhecimento foi considerada a tarefa mais difícil no desenvolvimento de um SE, sendo, por isso, chamada de "gargalo da garrafa" na construção da base de conhecimento. Essa dificuldade gerou pesquisas em estratégias de aquisição, as quais envolveram desde a revisão de literatura, avaliação de estudos de casos e detalhes a entrevistas com especialistas (2). Descobriu-se, então, que aparentemente, apenas a aquisição do conhecimento do especialista não era suficiente para a solução do problema e que, quando se desenvolvia um sistema de apoio à decisão, a análise dos dados obtidos na prática diária dos especialistas e armazenados sistematicamente em bases de dados poderia ter um papel importante no apoio à tomada de decisão. Isso levou ao desenvolvimento de uma nova linha de pesquisa em IAM o Aprendizado pela Máquina (AM), na qual se fizeram algoritmos dirigidos à extração automática de regras ou árvores de decisão a partir de dados.

As abordagens de AM não advogam a substituição do especialista; ao contrário, eles estão ativamente envolvidos no processo, contudo num sentido diferente, mais construtivo do que nos SE iniciais. Os exemplos de casos são fornecidos pelos especialistas e as regras resultantes são validadas por eles próprios para sua compreensão e adequação às qualidades desejadas. Abordagens de AM asseguram que as regras derivadas sejam consistentes, estejam organizadas hierarquicamente (por exemplo, em termos de um árvore de decisão) e, supondo-se que a coleção de exemplos de casos usados forneça uma cobertura apropriada do domínio particular, o conjunto de regras resultantes atenderá de forma adequada e com suficiente precisão (por exemplo, sem diferença significativa de conhecimento) aos requisitos da construção do SE. Além disso, o especialista fornece uma base de conhecimento importante quando enfoca e guia o aprendizado das regras (3). Independentemente das regras serem aprendidas ou serem adquiridas diretamente do especialista, seu formato deve ser simples, intuitivo e adequadamente expressivo para o propósito da aplicação particular.

Figura 1 - Sistema Especialista incluindo KDD.

A Figura 1 mostra um possível esquema de um sistema de apoio à decisão, no qual se faz necessário tratar com grandes volumes de dados, assim como com dados coletados e analisados via internet e intranet (3). Knowledge discovery in database Historicamente, a noção de descobrir padrões úteis (ou parte de informação valiosa do conhecimento) em dados não processados recebeu diversos nomes, entre os quais descoberta de conhecimento em bases de dados, mineração de dados, extração de conhecimento, descoberta de informação, coleta de informação, arqueologia de dados, processamento de padrões de dados. O termo KDD, foi criado em 1989 para se referir ao amplo processo de descoberta de informação em dados e para enfatizar a aplicação de “alto nível” do método particular “Mineração de Dados” (MD). O termo MD era usado, em geral, pelos estatísticos, analistas de dados e a comunidade de gerenciamento de sistemas de informação, ao passo que KDD era mais usado pelos pesquisadores em IA e AM. O KDD mostra-se como uma ferramenta semi-automática que possibilita a análise de grandes conjuntos de dados, propõe-se como o descobridor de informação útil a partir de grandes bases de dados. A informação descoberta pode ser representada por regras, descrevendo

propriedades dos dados, padrões que ocorrem freqüentemente, agrupamento de objetos na base de dados, etc. (4). O objetivo da descoberta de informação é obter conhecimento útil a partir de grandes coleções de dados. Tais tarefas são inerentemente interativas e iterativas, de tal forma que não se pode esperar obter informação útil pelo simples fato de introduzir uma grande quantidade de dados em uma caixa preta. Por tanto, os sistemas KDD devem ser vistos como uma ferramenta interativa, não como um sistema de análise automático.

Figura 2 - O processo KDD.

A Figura 2 mostra o processo KDD (5), esse processo caracteriza-se pelos seguintes passos: 1.Compreensão do domínio; 2.Preparação do conjunto de dados; 3.Descoberta dos padrões; 4.Pós-processo dos padrões descobertos; 5.Disponibilização dos resultados. A Compreensão do domínio dos dados é, naturalmente, um pré-requisito para se extrair qualquer conhecimento útil, ou seja, o usuário de um sistema KDD deve ter uma certa compreensão sobre a área de aplicação antes que qualquer informação de valor possa ser obtida. De outro lado, se o especialista humano é muito qualificado, pode ser árduo para a ferramenta semi-automática obter qualquer informação nova. É o caso, por exemplo, de domínios mediamente estáveis, nos quais o especialista humano teve uma boa trajetória, com o que desenvolveu a habilidade de perceber detalhes dos dados. Já, a preparação do conjunto de dados envolve a seleção da fonte de dados, a integração dos dados heterogêneos, a limpeza dos erros nos dados, a avaliação do ruído, o tratamento dos valores perdidos, etc. Este passo pode tomar mais do 80% do tempo despendido em todo o processo. Quanto à descoberta do padrão em KDD, é o passo em que os padrões freqüentes e de interesse são levantados a partir dos dados. MD refere-se à descoberta do padrão como uma parte da descoberta do conhecimento, sendo, com freqüência usada como sinônimo de KDD. A fase de MD pode usar várias técnicas como estatística e aprendizado pela máquina, tais como regras de aprendizado, indução de árvores de decisão, agrupamento, programação lógica indutiva, etc. A ênfase em pesquisa em MD se deve justamente por possibilitar a descoberta eficiente de padrões medianamente simples. O processo KDD não pára quando os padrões são descobertos, ou seja, o usuário tem de ser capaz de compreender o que foi descoberto, visualizando os dados e padrões de modo simultâneo, contrastando os padrões descobertos com o conhecimento de base, etc. Nesse

passo a complexidade não está no número de objetos na base de dados, mas, sim, no número de atributos, visto que o número de possíveis padrões típicos crescerá ao menos exponencialmente com o número de atributos, o que constitui a fonte real de dificuldade. O pós-processo da informação descoberta envolve passos, tais como seleções adicionais ou ordenamento de padrões, visualização, etc. Algumas abordagens de metodologias de KDD põem um forte ênfase no pós-processamento.O processo KDD é necessariamente iterativo, isto é, o resultado de um passo de MD pode mostrar que alguma mudança deve ser feita no passo da formação do conjunto de dados. Assim, o pós-processamento de padrões pode possibilitar ao usuário a visão de uma leve modificação nos tipos de padrões, etc. O suporte para tais iterações é um importante tópico no desenvolvimento de KDD. Aplicações proeminentes de KDD incluem dados para o cuidado da saúde, aplicações financeiras e dados científicos (4). Os objetivos do KDD aplicado à Base de Dados em medicina são: 1. Interpretar os dados do paciente de maneira contexto-sensitiva e apresentar tais interpretações de forma visual ou simbólica; a dimensão temporal na representação e a interpretação inteligente dos dados do paciente são de importância primária. 2. Extrair (descoberta) informação médica para diagnóstico, prognóstico, monitoramento, suporte à terapia ou tarefas gerais de gerenciamento de pacientes. Trabalhos de pesquisas de KDD em medicina estão ainda em um estágio inicial, mas são promissoras, já que se espera tratar a lacuna entre a geração de dados e a compreensão dos dados, fato esse intrínseco a todos os campos da atividade humana. Em medicina, superar essa lacuna é crucial visto que a tomada de decisão precisa estar alicerçada em argumentos baseados em conhecimentos médicos básicos, assim como na informação regularidade e tendência extraídos dos dados. Os dados clínicos constituem-se em uma valiosa fonte para as pesquisas médicas, de forma que seu uso adequado, afeta diretamente o objetivo essencial do cuidado à saúde que é o paciente, gerará novas informações para a prevenção de doenças (3). Metodologia Em medicina, dependendo da especialidade na que o paciente se encontra, preenchem-se prontuários clínicos, chamados também de fichas ou formulários, os quais contém dados que identificam o paciente. Espera-se que esses prontuários forneçam os dados suficientes para que o clínico possa chegar a uma avaliação do paciente. Ficha do malformado e Controle: Inicialmente criou-se uma base de dados a partir das fichas de recém-nascidos malformados, estas fichas contém 42 itens que identificam o paciente, mas, muitos deles não são relevantes, por exemplo, peso, sexo, apresentação, nível de escolaridade e ocupação dos paes (6). Fichas para estudo de criança com problemas de linguagem: Estas fichas são de anamnese, história clínica e antecedentes pessoais. Sendo que, cada ficha contem itens subdivididos por sua vez cada um deles em 8 ou até 16 sub-itens. Tendo que para dois itens de maior interesse tem-se ate 14 sub-itens com alguns deles subdivididos ainda em uns 5 sub-sub-itens (7). Formulários para pacientes com diabetes: Estes formulários são de anamnese, exame físico e evolução. Cada uma delas divide-se em 7, 5 e 4 itens respetivamente. Cada item é subdividido em 3 ou até 19 sub-itens. Estas fichas permitem identificar e acompanhar o paciente diabético (8).

Ficha de coleta casos clínicos para pesquisa sobre dor torácica aguda de origem não traumática: No total são seis fichas, características da dor I e II, outros sintomas, sinais observados, história pregressa, resultados de exames. Cada uma delas divide-se em 6,3,1,5,4 e 6 itens respetivamente. Cada item é subdividido em 2 ou até 15 itens. Estas fichas permitem identificar o tipo de diagnóstico em 3 grupos , sendo que, cada grupo tem 3,7 e 2 doenças específicas respetivamente (9). Resultados e Discussão Cada prontuário tem dados que dependem da finalidade e/ou especialidade, isto é depende do tipo de doença que se quer estudar. Pode-se observar que no caso particular das fichas do malformado, não têm suficientes dados devido a que: • As malformações são casos quase que isolados se considerada cada uma delas por sua etiologia • As malformações são raras, de modo que chegar a um consenso sobre dados que ajudem a fornecer informação a respeito delas não é uma tarefa simples. • O fato particular, por exemplo, de se a mãe e/ou o pai são fumantes e/ou consomem drogas, no caso desta ficha não se encontram como um atributo específico, eles às vezes são colocados dentro do item doença ou medicamento No caso das outras fichas, para estudo de criança com problemas de linguagem; para pacientes com diabetes; coleta casos clínicos para pesquisa sobre dor torácica aguda de origem não traumática, são mais específicas e detalham bastante a doença de modo que são mais elegíveis para trabalhar com KDD. Referências (1) Shortliffe, E. H., MYCIN: Computer-based medical consultations, New York: Elsevier Scientific Press, 1976. (2) Kulikowski, C. A., “History and development of artificial intelligence methods for medical decision making”, The Biomedical Engineering Handbook, IEEE Press, c. 183, pp. 26812695, 1995. (3) Lavrac, N. & Keravnou, E. & Zupan, B. “Intelligent data analysis in medicine”, In: ftp://garovix.ijs.si/pub/papers/idamap97, 1999. (4) Mannila, H. “Data Mining: machine learning, statistics, and databases”. Eight International Conference on Scientific and Statistical Database Management , Stockholm-Sweden. pp 1-8. 1996. (5) Silver, D. L., “Knowledge Discovery and Data Mining”. Technical Report MBA6522, CogNova Technologies London Health Science Center.1996. (6) Collazos, K., Barreto, J. M., KDD para o estudo epidemiológico das malformações. I Congreso Peruano de Ingeniería Biomédica, TUMI’99, PUCP Editores. pp 113-115, 1999 (7) INRM. Instituto Brasilero de Reeducação Motora. Associação Beneficiente do INRM Departamento de Fonología. Anadaraí - Rio de Janeiro, 1983. (8) Montellanos, M. V. "Sistema especialista para predição de complicações cardiovasculares integrado a um sistema de controle de pacientes portadores de diabetis mellitus. Dissertação de mestrado. Universidade Federal de Santa Catarina, Florianópolis, Brasil, 1999. (9) Lopes, H. S. “Analogia e aprendizado evolucionário: aplicação em diagnóstico clínico". Tese de Doutorado. Universidade Federal de Santa Catarina. Florianópolis, Brasil, 1996.

Lihat lebih banyak...

Comentários

Copyright © 2017 DADOSPDF Inc.