Visualização de Clusters em Dados Georreferenciados: uma abordagem com recurso ao Self-Organizing Map 3D

June 29, 2017 | Autor: Victor Lobo | Categoria: Self Organized Map
Share Embed


Descrição do Produto

Visualização de Clusters em Dados Georreferenciados: uma abordagem com recurso ao Self-Organizing Map 3D Jorge Gorricha1, Victor Lobo2 1 [email protected] 2 Escola Naval, [email protected]

Sumário: A utilização de Self-Organizing Maps (SOM’s) com mais do que duas dimensões é particularmente condicionada pelas dificuldades que este tipo de rede impõe na respectiva visualização. Porém, no caso dos dados georreferenciados, é possível equacionar o uso do SOM 3D para tarefas de Clustering via visualização, nomeadamente através da representação cartográfica dos dados com cores definidas em função de uma dada codificação RGB atribuída às unidades da rede que modelam esses dados. Neste trabalho é apresentada uma abordagem de Clustering em dados georreferenciados com recurso ao SOM 3D.

Palavras-chave: Self-Organizing Map 3D, Análise de Clusters, Dados Georreferenciados.

1. Introdução Existe um vasto conjunto de fenómenos cuja análise requer uma perspectiva geo-espacial. Neste contexto enquadram-se alguns estudos ambientais e socioeconómicos onde o elemento geográfico é preponderante e por vezes, mesmo incontornável, como sejam por exemplo: análises demográficas baseadas em censos, aplicações de modelação ecológica e estudos relacionados com a saúde (mortalidade, incidência de determinadas doenças, etc.) (Openshaw, 1995). Em análises desta natureza, isto é, baseadas em dados georreferenciados, o interesse reside frequentemente na pesquisa de padrões e de eventuais relações espaciais existentes, sem hipóteses definidas a priori (Miller and Han, 2001), o que sugere a aplicação de ferramentas de clustering geoespacial orientadas aos dados (data-driven). Nesta perspectiva, a visualização, entendida como o uso de representações visuais dos dados, obtidas a partir da utilização interactiva de sistemas computacionais, de forma a amplificar a cognição (Card et al., 1999), é uma técnica potencialmente útil quando o objectivo é a procura de padrões nos dados, podendo contribuir efectivamente para a descoberta de conhecimento através da análise exploratória desses mesmos dados (Fayyad and Stolorz, 1997). Quando aplicada a dados georreferenciados, esta técnica pode permitir a compreensão de fenómenos e estruturas complexas existentes, numa perspectiva espacial (Koua, 2003). As redes neuronais de treino não supervisionado, tais como o SOM (Kohonen, 2001, Kohonen, 1998, Kohonen, 1990), têm sido propostas como ferramentas de visualização de dados georreferenciados (Koua, 2003). O SOM é uma rede neuronal artificial que opera interactivamente um processo de

quantização e projecção vectorial. Por este motivo, esta rede é um método particularmente eficaz como ferramenta de análise de clusters, em especial, para Clustering via visualização (Flexer, 2001). Um dos métodos de visualização do SOM para dados georreferenciados consiste na atribuição, segundo um determinado critério, de cores diferenciadas às unidades da rede definida em duas dimensões (SOM 2D), de modo a que cada elemento georreferenciado possa ser representado cartograficamente com a cor atribuída à unidade da rede que corresponde a esse mesmo elemento no SOM. Esta abordagem, suportada por uma projecção não linear dos dados para uma superfície bidimensional, opera uma redução de dimensionalidade, existindo por este motivo forte probabilidade de alguns dos clusters ficarem indiferenciados e por isso, indetectáveis (Flexer, 2001). Apesar da utilização do SOM com mais do que duas dimensões implicar, para a generalidade dos dados, grandes dificuldades ou mesmo a impossibilidade da respectiva visualização (Bação et al., 2005, Vesanto, 1999), os dados georreferenciados apresentam características especiais, nomeadamente, a possibilidade de representação natural num espaço bidimensional (representação cartográfica), que permite equacionar a visualização do SOM 3D através de um processo semelhante ao que é adoptado para o Clustering em dados georreferenciados com o SOM 2D. O presente trabalho encontra-se organizado por capítulos, da seguinte forma: O Capítulo 2 é especialmente dedicado ao enquadramento teórico referente à análise de Clusters em dados georreferenciados utilizando o SOM 2D; O capítulo 3 está centrado na apresentação do SOM 3D para Clustering e o capítulo 4 na discussão e análise de resultados da aplicação do SOM 3D a um quadro de dados artificiais georreferenciados face ao SOM 2D.

2. O SOM 2D Como Ferramenta de Clustering em Dados Georreferenciados O SOM, ou Mapa Auto-Organizado, é uma rede neuronal de aprendizagem não supervisionada. O seu treino consiste, resumidamente, num conjunto de iterações que aproximam os nós da rede das observações (ou padrões de treino), mantendo a topologia regular da rede. No fim, cada observação é representada, ou mapeada para um dos nós da rede. Na rede é possível observar as semelhanças e dissemelhanças entre os dados representados por cada um dos nós da rede, através das distâncias entre esses mesmos nós (Kohonen, 1998). Na sua forma usual, o SOM é constituído por uma rede com duas dimensões, podendo desta forma ser considerado simultaneamente como um método de redução de dimensionalidade especialmente adaptado à visualização (representação em duas dimensões) e também como um método de quantização vectorial, reunindo deste modo as condições para uma aplicação particularmente eficaz em tarefas de Clustering via visualização. Todavia, a utilização directa e isolada deste algoritmo não é, na generalidade, adequada para tarefas de clustering, uma vez que, embora o espaço de output do SOM preserve a topologia do espaço de input, este não permite visualizar correctamente os clusters existentes (Ultsch and Siemon, 1990a) pois a projecção implementada directamente pelo SOM está muito dependente do facto dos dados serem representados exclusivamente pela Best Match Unit (BMU), sendo difícil compreender a forma dos

dados só pela análise do espaço de output.

Para a generalidade dos dados, a utilização do SOM em tarefas de visualização e “clustering via visualização” é efectuada com base em projecções bidimensionais operadas a partir da utilização combinada do SOM 2-D com a U-Matrix (Ultsch and Siemon, 1990a). Porém, esta abordagem não é particularmente adaptada para detectar e identificar as relações espaciais existentes entre os elementos georreferenciados. Uma das formas de utilizar o SOM como ferramenta de Clustering de dados georreferenciados é estabelecendo uma ligação entre o espaço de output da rede com outras visualizações (Skupin and Agarwal, 2008), como seja por exemplo, a representação cartográfica. Para o efeito, uma das alternativas consiste em atribuir cores diferenciadas às diversas unidades da rede segundo um determinado critério (no caso, a semelhança), colorindo de seguida o mapa geográfico em conformidade com o espaço de output da rede. Na figura 1 apresenta-se um exemplo de Clustering de dados georreferenciados baseado na aplicação deste método. Foi atribuída uma cor a cada unidade da rede no espaço de output de um SOM 2D definido com nove unidades (3x3) e treinado sobre um quadro de dados referente às principais causas de morte em vários países Europeus. Como se pode verificar, a cor serve simultaneamente de legenda para identificar a BMU de cada elemento georreferenciado e também como uma forma de identificação das zonas semelhantes, numa perspectiva geo-espacial.

(Fonte dos dados: EUROSTAT)

Figura 1 – Clustering de dados georreferenciados com base no SOM 2D

3. Clustering com recurso ao SOM 3D Pese embora o espaço de output possa ter tantas ou mais dimensões que o espaço de input, raramente este espaço tem mais de duas dimensões, essencialmente porque razões de difícil visualização (Bação et al., 2008). A abordagem que se propõe neste trabalho é uma tentativa de obviar esta dificuldade para o caso particular de dados georreferenciados e consiste na projecção das unidades da rede, isto é, do espaço de output do SOM 3D, num espaço tridimensional definido por três eixos ortogonais onde se associam as três cores primárias RGB. Desta forma, cada uma das três dimensões do SOM 3D será expressa pela variação de tonalidade numa determinada cor primária, ou seja, todo o espaço de output da rede será definido em função de uma codificação RGB que permitirá posteriormente colorir cada elemento geográfico com a cor atribuída à unidade da rede que o representa (BMU).

Figura 2 – Projecção de SOM 3D no espaço RGB e posterior representação cartográfica

A matriz de cores do espaço de output é, neste trabalho, obtida a partir das coordenadas originais do SOM 3D com dimensão (m x n x p). A cor atribuída a cada unidade da rede é resultante da normalização do tipo min-max das coordenadas da rede para valores dentro do intervalo do espectro considerado, que se situa tipicamente entre 0 e 255. A figura 2 representa sinteticamente o processo de projecção da rede de um SOM com 27 unidades (3x3x3) no espaço RGB seguido da representação geográfica dos elementos georreferenciados coloridos com as cores das respectivas BMU’s.

O processo de visualização do SOM 3D em dados georreferenciados pode ser formalmente descrito da seguinte forma: 1. Efectuar a normalização min-max das coordenadas originais do espaço de output do SOM para valores compreendidos entre 0 e 255 (RGB); 2. Colorir a área geográfica correspondente a cada elemento georreferenciado com a cor da

sua BMU.

4. Aplicação prática do SOM 3D a. Quadro de dados Para ilustrar a utilização do SOM 3D em tarefas de clustering em dados georreferenciados recorreu-se a um quadro de dados artificiais especialmente desenhado para o efeito e que se enquadra num dos campos de aplicação deste tipo de ferramentas, a modelação ecológica. No caso, o quadro de dados em apreço refere-se a uma zona de pesca intensiva onde foi considerado existir especial interesse na análise da distribuição espacial de cinco das espécies com grande importância na actividade comercial. Para efeitos do estudo, que visa essencialmente caracterizar as diversas áreas marítimas sobre a perspectiva da biodiversidade, foram recolhidas amostras em 225 zonas (seguindo procedimento idêntico em todas) ao longo da costa (por arrasto efectuado em navio cientifico), admitindo-se que cada amostra é representativa de uma área aproximada de 50 milhas quadradas.

Figura 3 – Zonas semelhantes do quadro de dados artificiais

O quadro de dados apresenta além dos valores pescados de cada espécie (em dezenas de quilos), as coordenadas do local onde foram obtidas as amostras, de acordo com o mapa da zona costeira indicado na figura 3. De notar que além das oito zonas desenhadas, existem ainda pequenas zonas de distorção espacial deliberadamente incluídas, como por exemplo a zona de coordenadas (4,12).

b. Resultados

A análise que se descreve seguidamente compara duas metodologias de Clustering de dados georreferenciados via visualização utilizando o SOM, nomeadamente o SOM 3D face ao SOM 2D. Para realizar esta análise foi utilizado o SOMTOOLBOX, uma implementação do SOM que está estreitamente ligada com o SOM_PAK (Vesanto et al., 2000). O facto de correr em ambiente MATLAB, usufruindo das vantagens de visualização e adaptação do código disponibilizadas neste ambiente, permite que se constitua como uma das ferramentas mais utilizadas (Skupin and Agarwal, 2008).

i. Parametrização O SOM pode produzir resultados muito diferentes em função da sua parametrização inicial. Pelo que, no que concerne à definição do tamanho da rede do SOM para tarefas de Clustering, podem ser seguidas três grandes linhas de acção (Bação et al., 2008): – SOM com uma rede composta por um número de unidades muito grande, maior que o número de padrões de input (Ultsch, 2003, Ultsch and Siemon, 1990b). – Definição de uma rede com um número menor de unidades que os padrões de input, mas que ainda assim possa permitir que cada cluster seja representado por várias unidades (Bação et al., 2008). – SOM com apenas uma unidade por cada cluster esperado (Bação et al., 2004) . As estratégias enunciadas anteriormente estão em estreita ligação com as próprias características do SOM, nomeadamente, como algoritmo de quantização vectorial e como ferramenta de projecção de dados. Todavia, as duas primeiras abordagens indicadas, baseadas em redes extensas, são de facto, mais apropriadas ao clustering via visualização, uma vez que, a sua representação com ferramentas apropriadas, como é o caso da U-Matrix, permite explorar a estrutura dos dados (Ultsch, 2003). Além de que se objectivo é testar o SOM 3D, não fará muito sentido baixar das 27 unidades, o que corresponde a um SOM 3D (3 x 3 x3).

Para o efeito foram considerados SOM’s com 64 unidades, com topologia rectangular, definidos da seguinte forma: – SOM 3D (4 x 4 x 4) – SOM 2D: (8 x 8) Em ambos os mapas foi seguida inicialização aleatória do algoritmo, duração do treino definida como longa e função de vizinhança “Bubble”. Salienta-se que foram ainda testadas outras combinações com resultados menos positivos sob o ponto de vista de visualização.

ii. Escolha dos modelos O algoritmo do SOM está dependente de vários factores que influenciam a qualidade do ajustamento do modelo aos dados. Entre os factores que mais determinam o resultado final, salientam-se a forma como o algoritmo é inicializado e a topologia da rede. A análise conjunta do erro de quantização1 e do erro topológico fornecem, em princípio, um bom indicador da qualidade de ajustamento do SOM aos

1

  O valor médio das distâncias entre as unidades da rede e os padrões de input correspondentes. 

dados. O erro topológico2 é um bom indicador do grau de continuidade do SOM, sendo que o erro de quantização permite avaliar a resolução do mapa (Kiviluoto, 1996). Para poder comparar os dois métodos, foram avaliados 100 modelos de cada um dos SOM’s, tendo a opção de escolha recaído sobre os dois modelos com menor erro de quantização.

iii. Discussão dos resultados Na figura 4 podemos observar a representação cartográfica colorida com base nas cores atribuídas às BMU de cada um dos elementos georreferenciados. Como se pode constatar, a análise do mapa apenas permite identificar, com rigor, um máximo de seis zonas homogéneas, de um total de oito zonas existentes e, três das quatro zonas de distorção incluídas no quadro de dados. De notar que a zona (4,12) não está evidenciada apesar de apresentar características substancialmente diferentes das zonas mais próximas.

Figura 4 – Representação cartográfica com cores definidas a partir do SOM 2D

Salienta-se contudo que, como se pode ver na figura 5, existem visualizações do SOM 2D que permitem identificar os oito clusters existentes nos dados. Como é caso da U-matrix, um dos métodos mais utilizado para visualizar padrões através do SOM (Skupin and Agarwal, 2008). Não será no entanto, porventura, uma abordagem ideal sob uma perspectiva geo-espacial.

2

  Definido como a proporção de vectores definidos no espaço de input (quadro de dados) cujas primeira e 

segunda BMU não são unidades adjacentes no espaço de output. 

Figura 5 – U-Matrix de um SOM 2D com elevada definição (15 x 15)

A visualização do SOM 3D proposta neste trabalho e cujo exemplo se pode observar na figura 6, permite identificar todas as zonas homogéneas assim como todas as zonas de distorção introduzidas deliberadamente no quadro de dados. Todavia, salienta-se que ainda assim existem zonas do espaço cartográfico onde a diferença de cor não é manifestamente decisiva para a delimitação de alguns clusters.

Figura 6 - Representação cartográfica com cores definidas a partir do SOM 3D

5. Conclusões Mostrou-se neste trabalho que o espaço de output do SOM 3D pode servir de base para a visualização de agrupamentos naturais existentes nos dados numa perspectiva geo-espacial. Ficou ainda evidente que a inclusão de uma nova dimensão na análise permite explorar zonas do espaço que com apenas duas dimensões ficam ocultas. Como trabalho futuro espera-se introduzir elementos na visualização capazes de discriminar as zonas que apresentam um elevado grau de indeterminação, mesmo com a utilização do SOM 3D.

Referências: BAÇÃO, F., LOBO, V. & PAINHO, M. (2004) Clustering census data: comparing the performance of Self-Organising Maps and K-means algorithms. KDNet Symposium: Knowledge - Based Services for the Public Sector. Bonn, German. BAÇÃO, F., LOBO, V. & PAINHO, M. (2005) The self-organizing map, the Geo-SOM, and relevant variants for geosciences. Computers & Geosciences, 31, 155-163. BAÇÃO, F., LOBO, V. & PAINHO, M. (2008) Applications of Different Self-Organizing Map Variants to Geographical Information Science Problems. IN SKUPIN, A. & AGARWAL, P. (Eds.) Self-Organising Maps: applications in geographic information science. Chichester, England, John Wiley & Sons. CARD, S. K., MACKINLAY, J. D. & SHNEIDERMAN, B. (Eds.) (1999) Readings in Information Visualization: Using Vision to Think, San Francisco, Morgan Kaufmann Publishers. FAYYAD, U. & STOLORZ, P. (1997) Data mining and KDD: Promise and challenges. Future Generation Computer Systems, 13, 99-115. FLEXER, A. (2001) On the use of self-organizing maps for clustering and visualization. Intelligent Data Analysis, 5, 373-384. KIVILUOTO, K. (1996) Topology preservation in self-organizing maps. Proceedings of IEEE International Conference on Neural Networks. KOHONEN, T. (1990) The self-organizing map. Proceedings of the IEEE 78, 1464 -1480. KOHONEN, T. (1998) The self-organizing map. Neurocomputing, 21 1-6. KOHONEN, T. (2001) Self-organizing Maps, New York, Springer. KOUA, E. L. (2003) Using self-organizing maps for information visualization and knowledge discovery in complex geospatial datasets. 21st International Cartographic Renaissance (ICC). Durban, International Cartographic Association. MILLER, H. J. & HAN, J. (2001) Overview of geographic data mining and knowledge discovery. IN MILLER, H. J. & HAN, J. (Eds.) Geographic Data Mining and Knowledge Discovery. London, Taylor & Francis. OPENSHAW, S. (1995) Developing Automated and Smart Spatial Pattern Exploration Tools for Geographical Information Systems Applications. The Statistician, 44, 3-16. SKUPIN, A. & AGARWAL, P. (2008) What is a Self-organizing Map? IN AGARWAL, P. & SKUPIN, A. (Eds.) Self-Organising Maps: applications in geographic information science. Chichester, England, John Wiley & Sons. ULTSCH, A. (2003) Maps for the Visualization of high-dimensional Data Spaces. Proceedings Workshop on Self-Organizing Maps. Kyushu, Japan. ULTSCH, A. & SIEMON, H. P. (1990a) Kohonen's self organizing feature maps for exploratory data analysis. Proceedings of International Neural Network Conference (INNC'90). Paris, Kluwer. ULTSCH, A. & SIEMON, H. P. (1990b) Kohonen's self organizing feature maps for exploratory data analysis. Proceedings of International Neural Network Conference. Paris, Kluwer Academic

Press. VESANTO, J. (1999) SOM−Based Data Visualization Methods. Intelligent Data Analysis, 3, 111-126. VESANTO, J., HIMBERG, J., ALHONIEMI, E. & PARHANKANGAS, J. (2000) SOM Toolbox for Matlab 5. Espoo, Finland, Helsinki Universitu of Techology.

Lihat lebih banyak...

Comentários

Copyright © 2017 DADOSPDF Inc.