Categorização e Análise de Informações Médicas

June 3, 2017 | Autor: Alexandre Martinez | Categoria: Latent Semantic Analysis, Text Categorization, Semantic Space, Medical Informatic
Share Embed


Descrição do Produto

Categorização e Análise de Informações Médicas Rebeca Alves Veríssimo da Silva, Alexandre Souto Martinez, Evandro Eduardo Seron Ruiz Departamento de Física e Matemática Faculdade de Filosofia, Ciências e Letras de Ribeirão Preto - FFCLRP, Universidade de São Paulo - USP, Brasil

Resumo - O método de Análise Semântica Latente (LSA) pode ser utilizado para a construção de um espaço semântico onde os significados de palavras e textos são representados por vetores, e, a proximidade entre estes significados é proporcional ao ângulo entre estes vetores. Algumas aplicações potenciais da LSA na área médica têm sido recentemente estudadas. Neste artigo, descrevemos um teste deste método na tarefa de categorização de textos, em que utilizamos como conjunto de treinamento e de testes, uma coleção de artigos do “The New York Times online”, classificada em seções temáticas. Resultados de medidas da proximidade semântica entre as diferentes seções também são apresentados. Palavras-chave: Análise de Semântica Latente, Categorização de Textos, Informática Médica.

Abstract – The Latent Semantic Analysis method (LSA) can be used to construct a semantic space, in which the meanings of words and texts are represented by vectors, and, the proximity between these meanings is proportional to the angle between these vectors. Some LSA potential applications in medical area have recentely been studied. In this paper, we describe a test of this method to the text categorization task, where we used as training and testing set, a collection of articles from “The New York Times online” classified in thematic sections. Semantic proximity measure results between the diferent sections are present too. Key-words: Latent Semantic Analysis, Text Categorization, Medical Informatics.

Introdução A Análise Semântica Latente (LSA) [1] é um método estatístico utilizado para a construção de um espaço semântico, onde não só palavras, mas, sentenças, parágrafos, textos ou qualquer outro conjunto de palavras, podem ser representados por vetores. O modelo vetorial de semântica adotado pela LSA é baseado na co-ocorrência de palavras. A suposição é que palavras que tendem a ocorrer juntas dentro de um mesmo documento (parágrafos, frases, textos, etc) são consideradas como tendo alguma relação de similaridade semântica [2]. A LSA foi desenvolvida primeiramente no contexto de recuperação de informações [3], mas recentemente, tem sido vista como uma poderosa ferramenta com um grande número de aplicações. Algumas destas aplicações discutidas por Kintsch [4] são: - Avaliação automática de textos. A LSA pode ser utilizada para graduar textos escritos por estudantes, comparando-os com um conjunto de textos já graduados e escritos por especialistas. Na Referência [5] verifica-se que este método pode graduar textos tão bem quanto pessoas treinadas para isto.

Seleção de textos instrucionais apropriados conforme o grau de conhecimento do aluno. Observando que materiais de instrução muito avançados ao conhecimento de um aluno seriam ineficientes para seu aprendizado e que da mesma forma materiais muito fáceis seriam de pouco valor, Wolfe [6] demonstrou que a LSA poderia ser utilizada para selecionar materiais apropriados, proporcionando-lhe um melhor aprendizado. - Graduação automática de resumos de casos clínicos. Tim Koschmann e colaboradores propõem a utilização da LSA para a avaliação de resumos de casos clínicos produzidos por estudantes de medicina, a partir de encontros com pacientes padrões [7], utilizados justamente para o ensino e avaliação em escolas de medicina. Os resumos de casos preparados pelos estudantes seriam comparados com resumos já graduados por especialistas. A partir de uma coleção de documentos originalmente particionada em seções temáticas, neste trabalho, utilizamos a LSA para medir a proximidade semântica entre as diferentes seções. Também analisamos sua utilização para a categorização de novos documentos, ou seja, a associação destes documentos à categorias prédeterminadas.

Metodologia Construção do espaço semântico Para construirmos o espaço semântico, utilizamos uma coleção (que chamaremos de coleção 1) de artigos do “The New York Times Online”, composta por 125 artigos de cada uma das seguintes seções temáticas: business, technology, science, world, health, fashion, arts e sports. Cada um destes artigos, passou primeiramente por um pré-processamento, onde transformamos todas as letras maiúsculas em minúsculas e eliminamos todos os caracteres que não eram letras, como números e pontuações. Feito isto, selecionamos nesta coleção todas as palavras que apareciam ao menos em dois documentos (artigos) e que não pertenciam a uma lista de 429 palavras chamadas stopwords [8]. As stopwords são palavras de uso muito freqüente, como artigos, preposições e conjunções, que semanticamente não contribuem de forma relevante para um documento. A utilização destas implica apenas em um maior custo computacional para a construção do espaço semântico. Em seguida, construimos uma matriz de representação da coleção acima, com as linhas correspondendo às palavras selecionadas e as colunas correspondendo aos documentos da coleção. Inicialmente, à cada entrada desta matriz foi atribuido o valor da frequência de cada palavra em cada documento. Obtivemos, assim, uma matriz de 22548 linhas por 1000 colunas. A frequência de cada palavra, em cada uma de suas entradas na matriz foi, então, transformada em seu logaritmo. Isto foi feito baseando-se no fato de que um documento com, por exemplo, três ocorrências de uma mesma palavra, tende a ser mais importante do que um documento com apenas uma ocorrência, porém não três vezes mais importante [9]. Em seguida, cada um dos novos valores de entrada foi dividido pelo somatório do produto destes valores pelo logarítimo dos mesmos, para salientar a sua importância. Através da Decomposição de Valor Singular(SVD) [10], obtivemos a matriz original (M) como um produto de três matrizes: M = TSD,

onde:

T = matriz de vetores singulares à esquerda; S = matriz diagonal de valores singulares em ordem decrescente; D = matriz de vetores singulares à direita. Reduzimos, então, a dimensão destas matrizes, eliminando as linhas e colunas correspondentes aos menores valores singulares da matriz S assim como as colunas da matriz T e linhas da matriz D correspondentes. A Decomposição de Valor Singular é normalmente utilizada para localizar a informação

semântica essencial em uma matriz de coocorrência de palavras. Com isto, partir desta decomposição, é possível, com a redução de dimensão das matrizes T, S e D (mantendo somente os maiores valores singulares), discartar as informações acidentais que geralmente estão presentes. Sendo assim, nosso objetivo com o produto destas três novas matrizes reduzidas, foi obter um um espaço semântico condensado que revelasse as melhores relações entre as palavras e documentos. Porém, o número de dimensões a ser reduzida de forma a otimizar o resultado é bastante questionado, e, segundo Enfrom [11], parece estar bastante relacionado ao corpus (coleção de documentos) utilizado para a construção do espaço. Desta forma, variamos a quantidade de dimensões reduzidas das matrizes T, S e D, obtendo os espaços semânticos correspondentes a cada redução e analisando os resultados obtidos com a utilização destes para a categorização de textos descrita mais adiante. Em um espaço semântico, a proximidade entre duas palavras é obtida calculando-se o cosseno do ângulo entre seus vetores (linhas da matriz) correspondentes. Quanto maior o cosseno do ângulo entre os vetores de duas palavras, maior a proximidade entre elas. O vetor de representação de um dado conjunto de palavras, como parágrafos ou textos, no espaço, pode ser obtido através do centróide (média) de todos os vetores das palavras deste conjunto. Permitindo, assim a obtenção da proximidade entre uma palavra e um texto, e até mesmo entre dois textos. Verificação da proximidade entre seções temáticas A mesma coleção de artigos utilizada para a construção do espaço semântico (coleção 1), foi utilizada para verificar a proximidade entre suas respectivas seções temáticas. Para isto, calculamos o vetor de representação no espaço de cada uma das seções da coleção através do centróide dos vetores de representação de seus artigos constituintes. Para a obtenção destes vetores, utilizamos o espaço semântico construído sem nenhuma redução das dimensões das matrizes T, S e D. Em seguida, para cada seção, calculamos o cosseno entre seu vetor de representação e o das demais seções. Categorização de novos documentos A partir de espaços semânticos construídos mantendo-se diferentes quantidades dos maiores valores singulares de S (com diferentes reduções das dimensões de T, S e D) e dos respectivos vetores de representação das seções temáticas, pudemos testar a utilização de cada espaço para a categorização de novos artigos. Como coleção de testes [12], selecionamos mais 25 artigos de cada seção

temática. Porém, um critério utilizado para a seleção destes novos artigos foi que nenhum deles deveria pertencer à coleção utilizada para a construção do espaço semântico, pois, caso contrário os resultados obtidos poderiam parecer irrealisticamente bons [13]. Para cada artigo da coleção de testes, calculamos o cosseno entre seu vetor de representação no espaço e o de cada seção temática. Observamos qual foi o maior valor destas medidas de cossenos e a seção com a qual este foi obtido. Assim, associamos o artigo a esta seção. Como conhecemos a seção original de onde o artigo foi selecionado para formar a coleção de testes, consideramos que este método utilizado categorizou corretamente um artigo, quando a seção atribuida a este, coincidiu com sua seção original. Nesta mesma tarefa de categorização de textos, utilizamos também uma coleção de resumos de artigos médicos selecionados através do PubMed [14], para a construção de um novo espaço semântico. Para esta nova coleção, que chamaremos de coleção 2, os resumos de artigos foram selecionados a partir dos seguintes termos MeSH [14]: bacterial infections and mycoses, cardiovascular diseases, mental disorders and nervous system diseases, de forma que cada artigo possuísse uma destas classificações mas não possuísse as demais. Assim, foram selecionados 200 resumos de artigos de cada classificação e obtivemos, a partir destes, uma matriz com dimensões 5795 x 800.

Para a coleção de testes, selecionamos mais 100 resumos de cada uma destas mesmas classificações.

Resultados - Resultados da comparação entre as seções temáticas. Abaixo, apresentamos o resultado da verificação da proximidade entre as seções temáticas. Lembramos que este resultado foi obtido com a utilização de uma coleção composta por 125 artigos das seguintes seções temáticas: business, technology, science, world, health, fashion, arts e sports para a construção do espaço semântico. Na Tabela 1 encontram-se os valores dos cossenos dos ângulos entre os vetores representantes das seções. Bus

Tec

Sci

Wor

Hea

Fas

Bus

1

0,852

0,752

0,801

0,734

0,714

0,681 0,603

Art

Spo

Tec

0,852

1

0,749

0,735

0,732

0,685

0,654 0,577

Sci

0,752

0,749

1

0,755

0,783

0,658

0,660 0,566

Wor

0,801

0,735

0,755

1

0,742

0,637

0,616 0,557

Hea

0,734

0,732

0,783

0,742

1

0,667

0,628 0,554

Fas

0,714

0,685

0,658

0,637

0,667

1

0,692 0,551

Art

0,681

0,654

0,660

0,616

0,682

0,692

1

0,543

Spo

0,603

0,577

0,566

0,557

0,554

0,551

0,543

1

Tabela 1 - Valores dos cossenos dos ângulos entre os vetores representantes das seções temáticas.

Figura 1 – Imagem correspondente à Tabela 1. (Comparação entre as seções temáticas). Legenda de cores para sua construção:

Na Figura 1, mostramos uma imagem obtida a partir da Tabela 1, onde o resultado da comparação entre as seções pode ser melhor visualizado. O valor de cada entrada da Tabela 1 foi transformado em uma cor na Figura 1, de acordo com a tonalidade correspondente na escala de cores. - Resultados da categorização de novos documentos utilizando a coleção 1. A seguir, apresentamos os resultados da categorização de novos documentos utilizando a coleção 1, composta por 125 artigos de cada uma das seguintes seções: business, technology, Science, World, Health, Fashion, Arts e Sports para a construção do espaço semântico e a coleção de testes, composta por 25 artigos de cada uma destas mesmas seções. Na Tabela 2, encontra-se o resultado desta categorização a partir de um espaço semântico construído sem nenhuma redução das dimensões originais das matrizes T , S e D, com S possuindo os 1000 valores singulares originais. As entradas nesta tabela, assim como nas Tabelas 3 e 5, correspondem ao número de artigos associados às diferentes seções temáticas (colunas), de acordo com suas respectivas seções originais (linhas). Na Tabela 3, apresentamos o resultado da categorização usando um espaço obtido com uma redução nas dimensões de T, S e D de forma que S contivesse somente os 300 maiores valores singulares (30% do número original). Na Tabela 4, encontram-se as quantidades dos maiores valores singulares mantidos em S para a obtenção dos respectivos espaços semânticos e as quantidades de acertos do método utilizando estes espaços. Consideramos um acerto, quando a seção à qual um artigo foi associado coincidiu com a seção original deste. Bus Tec

Sci

Wor Hea Fas

Art

Spo

Bus

18

4

0

0

1

0

1

1

Tec

3

15

4

1

1

0

1

0

Sci

1

1

22

0

1

0

0

0

Wor

1

0

0

23

1

0

0

0

Hea

2

0

2

0

21

0

0

0

Fas

2

0

0

0

1

21

1

0

Art

4

0

0

0

0

0

21

0

Spo

0

0

0

0

0

0

0

25

Total

31

20

28

24

26

21

24

26

Tabela 2 - Quantidade de artigos de cada seção original (linhas) associados às diferentes seções temáticas (colunas). Resultado da Categorização dos artigos utilizando um espaço semântico construído sem redução das dimensões de T, S, e D.

Bus Tec

Sci

Wor Hea Fas

Art

Spo

Bus

16

4

0

0

1

3

0

1

Tec

5

14

2

1

1

2

0

0

Sci

0

1

21

0

1

2

0

0

Wor

1

0

0

23

0

1

0

0

Hea

2

0

2

0

21

0

0

0

Fas

0

0

1

0

2

22

0

0

Art

1

0

0

0

0

7

17

0

Spo

0

0

0

0

0

1

0

24

Total

25

19

26

24

26

38

17

25

Tabela 3 - Resultado da Categorização dos artigos a partir de um espaço semântico construído utilizando somente os 300 maiores valores singulares de S. Número de valores singulares

Quantidade de acertos do método

1000

166

700

166

600

164

500

162

400

160

300

158

200

154

100

154

Tabela 4 – Quantidade de acertos do método de acordo com o número de valores singulares mantidos em S. Máxima quantidade de acertos possível: 200. - Resultados da categorização de novos documentos utilizando a coleção 2. O resultado da categorização de documentos utilizando a coleção 2, composta por 200 resumos de artigos de cada uma das classificações MeSH: bacterial infections and mycoses, cardiovascular diseases, mental disorders and nervous system diseases, para a construção do espaço semântico e com a coleção de testes contendo 100 artigos de cada uma destas mesmas classificações, é apresentado na Tabela 5. Este resultado foi obtido a partir de um espaço semântico construído sem nenhuma redução das dimensões das matrizes T , S e D. Bac

Card

Ment

Nerv

Bact

82

7

4

7

Card

5

80

10

5

Ment

5

11

77

7

Nerv

3

5

11

81

Total

95

103

102

100

Tabela 5 - Resultado da Categorização dos resumos utilizando a coleção-2.

Discussão e Conclusões Pela Figura 1, podemos perceber que a maioria dos resultados obtidos na comparação entre as seções foi coerente com o esperado intuitivamente. Três grandes blocos destacam-se nesta figura. O primeiro, composto pelas seções business, technology, science, world e health, juntamente com outro bloco formado pela seção sports, cercam um bloco central formado pelas seções fashion e arts. Salientamos que esta divisão observada numa escala diária de um periódico de mídia impresso, relete-se até à estrutura organizacional de conglomerados de mídia em geral. Tomando-se como exemplo os canais de TV a cabo, vemos uma clara distinção entre o grupo de canais esportivos, o grupo de canais de notícias e atualizações, e demais grupos como shows e música, entre outros. Uma observação interessante na figura 1, foi a grande proximidade entre a seção de negócios (business) e as demais seções. Acreditamos que este tipo de comparação entre as diferentes categorias de uma coleção de documentos pode ajudar a obter maiores informações sobre esta coleção, possibilitando a vizualização de relações que teriam menos chances de serem imaginadas. Na Tabela 2, temos um total de 83% dos artigos classificados da mesma forma que a categorização feita pela edição do jornal. Na Tabela 5, também temos que 80% dos resumos foram categorizados de acordo o MeSH que classificava seus artigos correspondentes. Acreditamos que uma possível explicação para os artigos que não foram classificados corretamente, possa ser o fenômeno da inconsistência do interindexador [15], segundo o qual mesmo quando dois humanos decidem sobre a classificação de um documento sob uma dada categoria, estes podem discordar, e este fato ocorre com relativamente alta frequência. Assim, podemos concluir que este método realmente pode ajudar na tarefa de categorização de documentos. Esperávamos, entretanto, que para um determinado número de dimensões reduzidas na construção do espaço semântico, a quantidade de acertos do método aumentasse. Percebemos pela Tabela 4, que isto não ocorreu para as quantidades de dimensões selecionadas. Talvez a melhor dimensão para a construção deste espaço apenas ainda não tenha sido encontrada até agora, e novos testes ainda devam ser feitos. Porém, algumas outras questões surgiram como, por exemplo, se a quantidade de notícias utilizadas foi suficiente para a construção do espaço vetorial. Outra possibilidade a ser investigada é o fato de que com uma maior compactação do espaço, a relação de alguns artigos com outras seções onde possivelmente poderiam estar inseridos aumentou, superando a proximidade

com sua seção original. Como trabalhos futuros, pretendemos investigar melhor estas questões, talvez analisando em termos de grafos[16] e aplicar os conhecimentos adquiridos na análise de coleções de textos e informações médicas, objetivando uma melhor organização, compreensão, busca de relações entre estas informações e possível aquisição de novos conhecimentos.

Agradecimentos Agradecemos à CAPES, pelo apoio financeiro. À Adriano de Jesus Holanda e Renato Tinós pelas frutíferas discussões e Ivan Torres Pisa pela compilação do conjunto de dados utilizado.

Referências [1]Landauer, T.K., Foltz, P.W., Laham, D. (1998), “Introduction to Latent Semantic Analysis”, Discourse Processes, v. 25, 259-284. [2]Huang, Y., “Support Vector Machines for Text Categorization Based on Latent Semantic Indexing”, Artigo obtido do site http://bach.ece.jhu.edu/gert/courses/774/2001/ lsa.pdf, última visita em 01/07/2004. [3]Deerwester, S., Dumais, S.T., Furnas, G.W., Landauer, T.K., Harshman, R. (1990), “Indexing by Latent Semantic Analysis.”, Journal of the American Society for Information Science, v. 41, p. 391-407. [4]Kintsch, W. (2002), “The Potential of Latent Semantic Analysis for Machine Grading of Clinical Case Summaries”, Journal of Biomedical Informatics, v. 35, p. 3-7. [5]Landauer, T.K. , Laham, D., Foltz, P.W., “The Intelligent Essay Assessor”, IEEE Intel Syst 2000, sep/oct, p. 27-31. [6]Wolfe, M.B., Schreiner, M.E., Rehder, R., Laham, D., Foltz, P.W., Landauer, T.K., Kintsch, W. (1998), “Learning from text: Macthing Reader and Text by Lantent Semantic Analysis”. Discourse Processes, v. 25, p. 309-336. [7]Barrows, H.S. (1993), “An Overview of the Uses of Standardized Patients for Teaching and Evaluation Clinical Skills”. Acad Med, v. 68, p. 443-451. [8]Frakes, W.B., Baeza-Yates, R. (1992), Information Retrieval: Data Structures and Algorithms, New Jersey: Prentice-Hall.

[9]Manning, C.D., Schütze, H. (1999), Foundations of Statistical Natural Language Processing, Massachussets: Mit Press. [10]Forsythe, G.E., Malcom, M.A., Moler, C.B. (1977), Computer Methods for Mathematical Computations, New Jersey: Prentice Hall. [11]Efrom, M. (2003), “Eigenvalue-based Estimator for Optimal Dimensionality Reduction in Information Retrieval”, Tese de Doutorado, School of Information and Library Science, University of North Carolina at Chapel Hill, p. 192. [12]Sebastiani, F. (2002), “Machine Learning in Automated Text Categorization”, ACM Computing Surveys, v. 34, p. 1-47. [13]Mitchell, T.M. (1996), Machine Learning, New York: Mc. Graw Hill. [14]http://www.ncbi.nlm.nih.gov/entrez/query.fcgi ?db=mesh

[15]Cleverdon, C. (1984), “Optimizing convenient online access to bibliographic databases”, Information Service and Use Archives, v.4, n.1, p. 37-47. [16]Holanda, A.J., Pisa, I.T., Kinouchi, O., Martinez, A.S., Ruiz, E.E.S. , A ser publicado (2004), “Thesaurus as a complex network”, Physyca A.

Contato Rebeca Alves Veríssimo da Silva Departamento de Física e Matemática Faculdade de Filosofia Ciencias e Letras Universidade de São Paulo Av. Bandeirantes, 3900 14040-901 Ribeirão Preto, SP, Brasil. [email protected]

Lihat lebih banyak...

Comentários

Copyright © 2017 DADOSPDF Inc.