SMARTINFO: Integração ECM/GIS via tecnologias semânticas.

Share Embed


Descrição do Produto

XXI Seminário Nacional de Distribuição de Energia Elétrica SENDI 2014 - 08 a 13 de novembro Santos - SP - Brasil

Ubirajara de Oliveira Costa Junior

Rodrigo Castro Martins

Fundação CPQD - Centro de Pesquisa e Desenvolvimento em Telecomunicação

Companhia Estadual de Energia Elétrica

[email protected]

[email protected]

SMARTINFO: Um exemplo prático de integração entre ECM e GIS para estender as possibilidades de recuperação documental utilizando-se de Ontologias e tecnologias semânticas.

Palavras-chave

ECM GIS Gestão Documental Metadados Ontologia PRODIST

Resumo

O projeto SMARTINFO foi desenvolvido pelo CPqD em parceria com a CEEE durante o biênio 2012-14, Trata-se de um sistema avançado de consulta (localização e recuperação) de documentos (contratos, atas, resoluções, plantas e diagramas técnicos produzidos em uma empresa do setor elétrico) através da aplicação seletiva de algumas das recentes e mais bem sucedidas tecnologias de busca utilizadas na web 2.0. Sua finalidade é permitir que as áreas usuárias possam localizar e recuperar, a partir de parâmetros espaciais (dados de localização), temporais (datas ou intervalos de tempo) e contextuais, informações técnicas e documentos associados a ativos georreferenciados da empresa, tendo como ponto de partida uma base de dados geográfica e o sistema de gestão documental corporativo. Duas importantes características o distinguem de outras ferramentas semelhantes: 1. Uma interface web única, de uso simples e que combina três formas diferentes de elaborar e refinar as pesquisas: "termo de busca" (texto livre digitado em uma caixa de diálogo “à la Google”), pesquisa avançada (filtro baseado no preenchimento de formulário pré configurado) e consulta à mapa temático interativo.

1/9

2. O uso de Ontologias e tecnologias semânticas, que inferem relações "ocultas" entre itens de informação (mineração de dados), aumentando significativamente as suas possibilidades de localização.

1. Introdução

Uma das características de maior destaque da revolução informacional pela qual estamos passando nas últimas duas décadas é o crescimento explosivo no volume de informações geradas e a dificuldade associada à sua correta utilização. As empresas do setor de energia elétrica não estão imunes a esta tendência mundial. Ao contrário, a cada ano, no dia-a-dia operacional, suas áreas de negócios e equipes técnicas geram milhares de documentos, nos mais diversos formatos e mídias de suporte, cuja preservação, obrigatória por razões técnicas, regulatórias ou jurídicas, constitui desafio de complexidade e custo não triviais. O baixo suporte computacional normalmente disponibilizado na gestão destes documentos e a recorrente heterogeneidade observada nas soluções adotadas, acabam causando um consumo excessivamente alto de recursos (na maior parte dos casos, evitável) traduzidos em muitas horas gastas com buscas e em elevada quantidade de espaço físico requerido para armazenamento. Em se mantendo esta tendência, a consultoria especializada Gartner prevê que os dados gerados nas empresas dobrarão a cada 18 meses, inviabilizando a manutenção da situação atual, com impactos nos custos de operação das mesmas. Dentro deste contexto, a CEEE deu início a uma série de ações com o objetivo de adotar um mix de metodologias, tecnologias e soluções de software corporativo que norteiem e catalisem a digitalização, organização e armazenamento do seu acervo documental para agilizar a recuperação e a rastreabilidade da informação. Um acervo técnico bem gerenciado é fundamental para: Uma boa operação e manutenção do sistema elétrico; Subsidiar uma correta aferição da base de ativos da companhia; Minimizar perdas indevidas com ações judiciais; Subsidiar a transição para Rede Inteligente e para fomentar uma gestão ambiental mais eficiente. É neste contexto que se insere o projeto SMARTINFO, considerado um dos componentes fundamentais da solução de gerenciamento corporativo dos ativos documentais que está sendo implantada, em conformidade com as diretivas decorrentes do planejamento estratégico da empresa. Embora a solução SMARTINFO tenha sido originalmente concebida para atender aos macroprocessos finalísticos (Expansão, Manutenção, Operação e Comercialização) nas áreas de Geração, Transmissão e Distribuição da companhia, seu potencial de uso é, em princípio, ilimitado, permitindo que outras áreas possam igualmente se beneficiar das contribuições deste projeto: Meio Ambiente (avaliação de intervenções passadas com impactos ambientais possibilitando uma gestão ambiental mais eficiente); Jurídica (informações com caráter comprobatório podem reduzir despesas com desembolsos indevidos); Regulatória (auxiliar o intercâmbio de dados para o PRODIST melhorando a transparência das ações da CEEE no atendimento da regulamentação e na correta remuneração de investimentos.

2/9

2. Desenvolvimento ARQUITETURA DA APLICAÇÃO Uma das premissas básicas adotadas no desenvolvimento do projeto SMARTINFO foi a de procurar desenvolver uma solução que permitisse escalabilidade e facilitasse futuras integrações com outras fontes de dados (ERP corporativo, Sistema Jurídico, etc.). Sempre que possível, optou-se por soluções de código aberto e procurou-se aproveitar tecnologias e ambientes de desenvolvimento conhecidas pelas equipes de trabalho envolvidas em razão dos ganhos de escala e sinergia decorrentes. Tendo estas necessidades em mente, o conjunto de tecnologias utilizadas foi o seguinte: 1. CDK (CPqD Development Kit), o framework de desenvolvimento do CPqD, baseado em componentes Java, que permite um ganho considerável no processo de desenvolvimento em função das inúmeras funcionalidades customizáveis disponibilizadas (controle de acesso, geração automática de CRUD, padronização de telas, entre outras); 2. Apache JENA, framework de código aberto que disponibiliza uma biblioteca de componentes especializados para as manipulações de objetos em bases de dados semânticas requeridas pela aplicação; 3. Protégé, ambiente integrado (IDE) para a modelagem de Ontologias, desenvolvido e mantido pela Universidade de Stanford; 4. Oracle 12c Spatial and Semantics, em razão dos recursos avançados de manipulação semântica disponibilizados (criação de regras complexas e suporte a GeoSPARQL), robustez da solução oferecida (estabilidade e capacidade de manipulação de elevada quantidade de dados), disponibilidade e familiaridade da tecnologia junto ao CPqD e CEEE. 5. OpenLayers, biblioteca de componentes Javascript utilizada pela interface de consulta web do SMARTINFO para requisição de serviços WMS e WFS do servidor de mapas do CEEEGEO (aplicação GIS da CEEE) e visualização dos resultados das consultas espaciais. 6. Webservices para integração (importação dos metadados) do SMARTINFO com o ECM (repositório de documentos) e CEEEGEO (aplicação GIS da CEEE, cuja base de dados subjacente possui estrutura compatível com BDGD do PRODIST). A figura 1 apresenta o diagrama macro das integrações inicialmente propostas. Conforme pode ser observado, os pilares sobre os quais o projeto SMARTINFO se apoia (as fontes de informação com as quais terá que interagir para fornecer as referências, links, associações que se propõe a disponibilizar) são o sistema CEEEGEO e a solução ECM da Oracle customizada pela CEEE para a sua gestão documental.

3/9

Figura 1 - Esquema representativo dos mecanismos de integração adotados pelo SMARTINFO Entretanto, é importante chamar a atenção para o fato de que a arquitetura incorpora uma camada de integração, baseada no consumo de Web Services, recurso cuja flexibilidade e universalidade possibilita adicionar outras fontes de dados (sistemas CRM, ERP corporativo, SCADA, etc.) que forneçam, ou para os quais possam ser desenvolvidos, estes tipos de serviços, aumentando o repertório de possibilidades de integração e utilização. TECNOLOGIA SEMÂNTICA Bancos de dados relacionais armazenam os seus dados como linhas em tabelas, construídas a partir de modelos Entidade-Relacionamento. Bases de dados semânticas, por sua vez, armazenam fatos na forma de triplas ordenadas, do tipo "", tantas quantas forem necessárias, construídas de acordo com regras descritas em Ontologias (um tipo especial de modelagem). Exemplos de fatos expressos em triplas: "" ou "". O grande diferencial das chamadas "tecnologias semânticas" é a capacidade que elas possuem de permitir inferir relações "ocultas" a partir de regras e fatos que lhes sejam previamente fornecidos. Isto é feito através da execução de um programa especial denominado "reasoner", que analisa os fatos existentes à luz

4/9

das regras fornecidas, validando-os e deduzindo fatos novos. Ou seja, este tipo de tecnologia permite construir bases de dados, carregá-las e efetuar consultas fazendo-lhes perguntas a respeito de coisas que não foram explicitamente informadas ou pedindo dados que não foram fornecidos. Embora bastante simples, esta ideia é poderosa, constituindo um dos alicerces desta tecnologia e a razão da sua adoção. Vejamos um exemplo didático: Suponha que tenhamos carregado em nossa base de dados semântica, o seguinte par de triplas: E as seguintes regras: Regra1: SE () E () ENTÃO () Regra2: SE () ENTÃO () O mecanismo de inferência ("reasoner") do banco de dados semântico poderia deduzir, a partir destes dados (fatos e regras), o seguinte fato novo: E, desta forma, responder à pergunta: “Quem é neto de quem?”, mesmo que não tenhamos, explicitamente, cadastrado "avô” algum, ou mesmo “neto”, em nossa carga inicial. É neste fato simples que reside a força desta nova tecnologia! Evidentemente, toda esta capacidade de inferir coisas e facilidade de uso decorrente têm o seu custo. Da mesma forma que a solução Google, de extrema simplicidade do ponto de vista do usuário, requer um tremendo trabalho de bastidores, com milhares de agentes escaneando, dia-e-noite, as milhões de páginas existentes na web e armazenado o resultado da indexação em milhares de servidores, a nossa solução exige um elaborado trabalho de retaguarda. A esse respeito, a figura 2 apresenta, de maneira simplificada, o fluxograma macro de funcionamento da aplicação SMARTINFO (e que se aplica, igualmente, a qualquer outra aplicação semântica semelhante a ela):

5/9

Figura 2 - Fluxo de execução (visão macro) da aplicação semântica SMARTINFO

O processo se inicia com a etapa "1. Modelar Ontologias" na qual um especialista constrói os modelos semânticos (Ontologias) que descrevem as entidades de interesse, suas principais características e relações entre elas. No SMARTINFO foi necessário criar três Ontologias: "Metadados do ECM (descrevendo os metadados dos documentos a serem recuperados), "Organograma da CEEE" (descrevendo as áreas funcionais da empresa, com suas relações de subordinação, siglas identificadoras e responsabilidades administrativas) e "Metadados CEEEGEO" (descrição dos elementos de rede georreferenciados, de acordo com o “schema” BDGD do PRODIST). A edição das Ontologias é feita através de uma ferramenta especial (no caso do SMARTINFO foi usado o Protégé) e o modelo gerado é importado, na etapa "2. Persistir Ontologias", em um formato padrão RDF/XML, para uma base de dados semântica, denominada "RDF triplestore". Além das Ontologias, são carregados, na base de dados semântica, os metadados provenientes do ECM (documentos) e do CEEEGEO (elementos de rede georreferenciados). Esta operação é realizada através de procedimento em "batch" programado para ser periodicamente executado e, no diagrama, está ilustrada como sendo a etapa "4. Extrair e indexar metadados". Toda vez que a base de dados semântica for alterada, quer seja pela inclusão de uma nova versão de Ontologia ou reexecução do processo de migração de dados, o "reasoner" deve ser executado (etapa "3. Completar e consistir Ontologias) para validar as alterações efetuadas (certificando-se de que não foram incluídas inconsistências) e inferir novas relações a partir dos fatos (da migração) e regras (das Ontologias) carregados. Finalmente, através da interface gráfica web disponibilizada ("tela de busca"), o usuário final executa as consultas semânticas que são resolvidas pela aplicação na forma de queries SPARQL (o equivalente semântico do SQL usado em bancos relacionais) formatadas e disparadas para um componente do banco semântico especializado em atendê-las

6/9

("SPARQL engine"). O resultado é trabalhado pela aplicação e devolvido ao usuário na tela de pesquisa, a partir da qual o mesmo poderá acessar um determinado documento, de uma lista resultante, ou continuar e refinar a consulta. TELA DE BUSCA Do ponto de vista do usuário do SMARTINFO, o coração do sistema é sua tela de busca, ilustrada na figura 3. Analisando-a, pode-se observar, em sua metade superior esquerda, o formulário utilizado para informar os parâmetros de busca (valores de metadados dos documentos a serem recuperados, como um nome de AUTOR, o ASSUNTO de uma ata ou o VALOR de um contrato). No canto superior direito está localizado um mapa interativo da área de concessão da CEEE, utilizado caso se queira incluir uma variável georreferenciada como parte da pesquisa. Para tanto, bastaria indicar a subárea de interesse (desenhando diretamente um polígono no mapa) ou apontar um elemento da sua infraestrutura de rede (clicando, por exemplo, em uma usina apresentada após ativação de um "layer" temático).

Figura 3 - Tela de busca utilizada pelos usuários da aplicação SMARTINFO

O sistema efetuará as consultas semânticas com base no conjunto de parâmetros informados (textuais, do lado esquerdo e espaciais, do direito) apresentando na parte inferior esquerda a relação de links dos documentos que satisfazem os critérios de pesquisa apresentados. No lado inferior direito, uma relação de links auxiliares permitem refinar a consulta, a partir de categorias recuperadas ou relacionamentos inferidos (exemplo: foi solicitado um determinado contrato e o sistema apresenta, como item relacionado, os seus respectivos aditivos).

3. Conclusões

7/9

Por ocasião da elaboração do presente trabalho a funcionalidade "core" do projeto (pesquisas semânticas) encontra-se em plena fase de implementação. A expectativa da equipe de desenvolvimento é entrada em homologação no começo do segundo semestre de 2014 e encerramento até novembro. Estamos dentro do cronograma. Em razão de seu ineditismo, o desenvolvimento do SMARTINFO combinou métodos e métricas tradicionais da Engenharia de Software com abordagens exploratórias típicas de projetos de pesquisa aplicada. Isto implicou na necessidade de se disparar, logo em seu início, duas frentes de trabalho que correram em paralelo, com pontos de sincronismo e reavaliações periódicas que levavam em consideração os resultados intermediários alcançados, dificuldades encontradas e as descobertas feitas. Este fato permitiu uma certa flexibilidade na medida em possibilitou abrir mão de determinada linha de ação que se mostrasse inexequível em favor de outra mais promissora (como a adoção de elementos do BDGD do PRODIST em lugar do CIM "full", por exemplo). Como contrapartida, as facilidades de pesquisa espacial finais disponibilizadas, como a inclusão de temáticos, acabaram excedendo as capacidades inicialmente imaginadas. Uma coisa acabou compensado outra. Para as equipes técnicas envolvidas diretamente no projeto o maior ganho foi, sem dúvida alguma, a possibilidade de adquirirem uma sólida base de conhecimento e capacitação para trabalharem, de forma efetiva, com as duas tecnologias utilizadas, quer seja em gestão documental ou no desenvolvimento de novas aplicações que requeiram o uso de Ontologias e tecnologias semânticas. Para a CEEE o SMARTINFO insere-se dentro do quadro maior de implantação de seu ECM corporativo. Permitiu entender o uso de seus sistemas base (ECM Oracle e CEEEGEO), em uma interface web flexível e de fácil aprendizado, contribuindo para minimizar um problema recorrente, com sensível economia de tempo na localização de seus documentos técnicos e corporativos. Para o CPqD, trata-se de uma iniciativa bem sucedida cujos resultados pretende multiplicar na forma de um produto que considera oportuno e adequado para o setor de energia elétrica, escalável, altamente customizável e com forte apelo comercial.

4. Referências bibliográficas As principais obras de referência consultadas durante a etapa de pesquisa do projeto foram: ALLEMANG, Dean; HENDLER, James. Semantic Web for the Working Ontologist: Effective Modeling in RDFS and OWL. Morgan Kaufmann Publishers. Kindle Edition. CAMERON, Stephen A. Enterprise Content Management – A Business and Technical Guide. British Computer Society. Kindle Edition. DUCHARME, Bob. Learning SPARQL – Querying and updating with SPARQL 1.1. Publicado por O’Reilly Media. Kindle Edition. EPRI (Electronic Power Research Institute). CIM Primer First Edition. 2011 Technical Report. (Texto baixado da Internet a partir de http://www.epri.com/search/Pages/results.aspx?k=Common%20Information%20Model%20Primer). HEDDEN, Heather. The Accidental Taxonomist (The Accidental Library Series). Publicado por Information Today, Inc. Kindle Edition. HORRIDGE, Matthew. A Practical Guide to Building OWL Ontologies Using Protégé 4 and CO-ODE Tools Edition 1.3. The University of Manchester. (Texto baixado da Internet a partir de http://protege.stanford.edu/doc/users.html). NOY, Natalya F.; MCGUINNESS, Deborah L. Ontology Development 101: A Guide to Creating Your First

8/9

Ontology. Stanford University. (Paper baixado da Internet a partir de http://protege.stanford.edu/doc/users.html) Oracle Corporation. Oracle® Spatial and Graph - RDF Semantic Graph Developer's Guide - 12c Release 1. (Manual baixado da Internet a partir de http://www.oracle.com/technetwork/databaseoptions/spatialandgraph/documentation/documentation-087054.html POLLOCK, Jeffrey T. Semantic Web For Dummies. Wiley Publishing, Inc. Kindle Edition. VON MEIER, Alexandra. Electrical Power Systems – A Conceptual Introduction. IEEE Press. Kindle Edition. Open Geospatial Consortium. OGC GeoSPARQL - A Geographic Query Language for RDF Data. (Manual baixado da Internet a partir de https://portal.opengeospatial.org/files/?artifact_id=47664)

_________________________________________

9/9

Lihat lebih banyak...

Comentários

Copyright © 2017 DADOSPDF Inc.