Modelo Autônomo de Mineração de Dados para Identificação de Violações de SLAs e Baixa QoS para os Serviços de TI

Share Embed


Descrição do Produto

Modelo Autônomo de Mineração de Dados para Identificação de Violações de SLAs e Baixa QoS para os Serviços de TI Aminadabe Sousa1, Neuman Souza1, Alberto S. Lima1 Federal University of Ceará, Fortaleza, Brazil [email protected], {albertosampaio, neuman}@ufc.br

1

Antão Moura2, Antonio C. Barros3, Igor Parente3

Resumo Para que um determinado serviço de TI atenda as reais necessidades de um negócio, sugere-se definir contratos internos com terceiros para garantir a sua qualidade, geralmente incluindo os acordos de nível de serviços (Service Level Agreements - SLAs). Para que se tenha um acompanhamento eficaz dos SLAs, busca-se criar indicadores, alimentados periodicamente, a partir dos canais de comunicação internos e externos aos provedores de serviços, uma vez que a informação positiva ou negativa sobre o serviço pode estar sendo gerada pelo service desk, e-mail, messenger, blogs, páginas da web relacionadas a reclamações, redes sociais, entre outros canais de comunicação. Este trabalho teve como objetivo utilizar técnicas de mineração de dados na mineração de textos, visando coletar informação sobre possíveis violações de SLAs e baixa QoS a partir dos diversos canais de comunicação do provedor do serviço de TI, para gerar automaticamente uma base de conhecimento a ser utilizada em sistema de monitoramento e apoio administrativo. Palavras-chave - Qualidade de serviços, BDIM, SLA, mineração de dados .

I. INTRODUÇÃO Governança de TI busca o alinhamento estratégico da TI com o negócio, de modo que o valor máximo de negócio é realizado [3]. De acordo com [4] "contribui para o valor dos negócios por meio de mudanças nas práticas e processos de negócios dentro das empresas e entre setores econômicos". A área de pesquisa denominada Gerenciamento de TI Orientada a Negócio - Business-driven IT Management (BDIM) envolve a aplicação de um conjunto de modelos, práticas, técnicas e ferramentas para mapear e avaliar quantitativamente interdependências de desempenho dos negócios em relação às soluções de TI para melhorar a qualidade de soluções de serviços de TI para os resultados de negócios relacionados com [6]. Essas métricas e atividades precisam ser vinculadas a outros resultados de negócios, tais como: perda, lucro, vendas ou fidelização de clientes [1]. A intangibilidade dos serviços de TI e seus benefícios para o negócio gera incerteza sobre o retorno financeiro de investimentos em TI [2]. Este cenário de incerteza de retorno sobre investimento (ROI – Return Over Investiment) em investimentos de TI tem incentivado os esforços de pesquisadores e gestores para identificar as relações de causa e efeito entre os investimentos recebidos e do valor gerado pela TI, que é comumente expressa pelo termo "alinhamento negócio” [2]. Como os recursos e serviços oferecidos por um fornecedor pode ter associado acordos de nível de serviço para garantir que eles não sejam comprometidos, é fundamental ter o controle eficiente de todos os eventos relacionados que possam comprometê-los. Assim, é essencial que os diversos canais de comunicação internos, como serviços centrais e email, e externo, tais como redes e páginas de reclamações sociais são monitoradas para eventuais compromissos que

2

Federal University of Campina Grande, C. Grande, Brazil 3 University Center Estácio of Ceará, Fortaleza, Brazil [email protected], [email protected], [email protected]

serão localizados, armazenados e apresentados ao usuário para a ação, se necessário. Foi desenvolvido um modelo de mineração de dados em relação ao nível de serviços de TI, para a identificação de possíveis eventos que possam comprometer o ambiente de TI. Foi realizada uma revisão da literatura a respeito de governança de TI, Bdim, SLAs, mineração de dados e ontologia. Foi proposto um algoritmo de mineração de texto para extrair automaticamente informações públicas de redes sociais, listas de discussões e FAQs, a fim de gerar uma base de conhecimentos para um sistema de gerenciamento dinâmico. Está sendo desenvolvido e ainda em processo de melhoria um protótipo de sistema que usa um algoritmo de pesquisa que armazena a informação numa base de dados, o qual, por sua vez, apresenta a informação para o usuário. Os resultados iniciais foram promissores, mostrando a importância de monitorar os canais de comunicação do provedor, na gestão de serviços de TI (ITSM). II. TRABALHOS RELACIONADOS Pretende-se para o desenvolvimento deste estudo, utilizar as melhores práticas na entrega de serviços de tecnologia da informação sugeridas pela governança de TI através do COBIT framework [17]. Neste cenário, será explorado o acompanhamento adequado do nível de acordo de serviço (SLA) e a relação dos mesmos com informações publicadas em acordos locais de rede e contratos de serviço da Internet. Para identificar esses SLAs relacionados aos serviços de informação, a nossa proposta inicial contempla a combinação de técnicas de avaliação, tais como mineração de dados, ontologias, web semântica, detecção e reconhecimento de eventos e ações, eventos e sistemas de classificação de texto e extração de informações. Para ajudar as empresas neste processo são disponíveis no mercado muitos padrões que contribuem para a Governança de TI, incluindo: COBIT, ITIL, CMMI (Capability Maturity Model Integration), PMBOK (Project Management Body of Knowledge) e as normas de segurança e as melhores práticas, como ISO / IEC -17 799, ISO / IEC 20000 e BS 15000. Alguns destes modelos agregam estruturas chamadas de quadros, um conjunto de melhores práticas testadas com sucesso em várias grandes, médias e pequenas empresas, que servem de apoio para a definição dos caminhos a seguir na gestão de TI e processo de governança [20]. A biblioteca ITIL (Information Technology Infrastructure Library) [16] apresenta um conjunto de melhores práticas e processos que ajudam as organizações a manter adequadamente a sua infraestrutura de tecnologia da informação. COBIT é um guia para implementar a governança de TI, mantido pela Associação de Informação de Segurança de Auditoria e Controle (ISACA) [21]. O quadro 4.1 referente ao COBIT [17] é um dos pilares da governança de TI, composta por uma série de ferramentas de gestão [2].

Apresentado antes mesmo das definições de [19], caracteriza-se pela entrega e suporte (D S - Deliver and Support), cujo objetivo é abordar a qualidade da prestação dos serviços solicitados. Nesta sessão, há o processo DS1 - Definir e Gerenciar Níveis de Serviço. Este processo deve identificar os requisitos de serviço, acordar os níveis de serviço e monitorar seu cumprimento [17]. Este processo deve ser medido pela percentagem de partes interessadas que entendem que os níveis estão de acordo com o combinado, não pela quantidade de serviços existentes no catálogo de serviços e da quantidade de reuniões formais para analisar criticamente o SLA com os representantes das empresas. Outro aspecto importante a considerar é que ainda há o desmembramento do processo em subprocessos DS1. O subprocesso DS1.3 vem do SLAs e indica a definição destes acordos para todos os serviços críticos de TI com base nas necessidades dos clientes e a capacidade de entrega da TI. Os itens a serem considerados são: disponibilidade, confiabilidade, desempenho, capacidade de crescimento, níveis de suporte, planejamento de continuidade, as exigências de segurança e restrições. Um processo de negócio (Business Process - BP) representa uma seqüência de tarefas que devem ser executadas para realizar um evento de negócios que resulta na agregação de valor para a empresa ou o cliente. Por exemplo, um processo de vendas - que é um dos objetivos do negócio envolve diversas atividades, muitas vezes apoiados pela TI ou os seus serviços, como a verificação de crédito do comprador, a compra de matérias-primas, o disparo do processo de fabricação e entrega de produtos. Nenhuma dessas atividades (tarefas) em isolamento permite que você execute o processo de vendas - é preciso uma visão integrada de TI para isso. Assim, um processo de negócio, provavelmente, mas não necessariamente, é suportada pela TI para proporcionar maior eficiência. Uma métrica de negócios pode ser visto como quantificar o atributo de um processo de negócio ou uma unidade de negócios. O lucro, a receita, o número de funcionários ou BPs afetados por um determinado evento que ocorre na infraestrutura e perda de fluxo de BP são exemplos de métricas de negócio, conforme descrito em [7]. A área de pesquisa denominada Business-driven IT Management (BDIM) vai além da proposta de utilização de um novo tipo de métricas para gerir a forma como a TI para melhorar e ajudar o próprio negócio. Este objetivo é alcançado em BDIM, que tem como objetivo propor um conjunto de ferramentas, modelos e técnicas que permitem mapear os eventos de TI, com o impacto quantitativo destes sobre os resultados da empresa [7]. A quantificação do impacto pode servir como uma fonte de informação, a fim de proporcionar melhores resultados para o negócio. De fato, BDIM procura captar o impacto negativo sobre os negócios, ou simplesmente perda, causada pelas falhas inerentes de serviços de TI, devido a vários fatores, tais como a infraestrutura subjacente de TI, degradações de desempenho dos serviços de TI, as falhas de processo e serviços de gestão. Neste ponto, é interessante entender o quão sério é o problema de não considerar a perspectiva de negócios em gerenciamento de nível de serviço (S L M - Service Level Management). O c u s t o d e equivocadamente escolher valores inadequados dos objetivos dos níveis de serviço (SLOs - Service Level Objectives), ou uma configuração de infraestrutura de TI, pode ser bastante elevado. De acordo com [1], os estudos em BDIM até agora mostram que foi estudada a relação entre a TI e o negócio, empregando técnicas como a Teoria das Filas [8], a Teoria da Disponibilidade [9], a Teoria da Utilidade [10], Matemática dos Intervalos [11], a Teoria das Possibilidades [12], entre outros. Soluções para Gerenciamento de Incidentes [13], Gestão de Nível de Serviço [14], Gestão de Portfólio [15] e Gerenciamento da Capacidade [7]. Lima [5] afirma que estes

são alguns exemplos em que os resultados da pesquisa são obtidos nesta área, permitindo que as decisões da governança de TI produzam os melhores resultados em termos de negócios. Para que um determinado recurso ou serviço de TI atenda as reais necessidades do negócio, sugere-se definir contratos internos com terceiros para garantir a sua qualidade, o que é chamado de nível de acordo de serviço (Service Level Agreements - SLAs). Visando um acompanhamento eficaz dos SLAs, busca-se criar indicadores, alimentado periodicamente, com base interna e externa das fontes de provedores de serviços, uma vez que a informação positiva ou negativa sobre um recurso ou serviço pode estar sendo gerado pelo gerenciamento de problemas do sistema (service desk), e-mail, messenger, blogs, p á g i n a s d a web relacionadas as reclamações, redes sociais, entre outros A totalidade do processo de aplicação de uma metodologia baseada na computação, incluindo novas técnicas para a descoberta de conhecimento em informação é chamado de mineração de dados. Consiste em um processo de busca de informação não trivial em grandes volumes de dados através da interação entre homens e máquinas [18]. A mineração de dados procura descobrir padrões e tendências que vão além da simples análise. Busca-se usar algoritmos matemáticos complexos para segmentar os dados e avaliar a probabilidade de eventos futuros [19]. A mineração de dados é também conhecida como Descoberta de Conhecimento em Dados (KDD - Knowledge Discovery in Data), técnica ou descoberta de conhecimento em informação. Assim, as principais propriedades desta tecnologia é a descoberta automática de padrões, prever os resultados prováveis, criando informações dinâmicas, além de um foco de grandes volumes de parâmetros e bases de dados. A mineração de dados pode resolver questões que não podem ser resolvidas através de consultas simples ou relatórios técnicos. Apesar de ser uma excelente ferramenta para encontrar padrões e relações com suas informações, é necessário ainda a existência de conhecimento sobre o negócio e suas informações. Através das técnicas de mineração de dados, pode-se enviar a informação escondida nos dados, mas não é possível se medir o valor da informação para a empresa. O processo de mineração de dados pode ser dividido em etapas, de acordo com [19]: definição do problema, coleta de dados e preparação, modelo de construção, avaliação e aplicação do conhecimento. A definição do problema é a fase inicial e está relacionada com a compreensão dos objetivos e necessidades. A segunda fase é a coleta e preparação de dados. Nesta fase, acontece coleta e uso de dados onde eles são adequados de acordo com as necessidades do negócio. Perguntas do tipo de dados e formatação são feitas nesta fase. A próxima fase é a construção do modelo e avaliação em que são aplicadas várias técnicas de modelagem e os valores dos parâmetros. Geralmente, nesta fase, trabalhamos com poucos parâmetros para construir as informações do modelo. A última fase é a implementação do conhecimento. Nesta etapa, o caso de uso de mineração de dados para o ambiente de produção. Um algoritmo de mineração de dados é um conjunto de heurísticas e cálculos que estabelecem um modelo de mineração de dados. Para criar um modelo, o algoritmo primeiro analisa os dados fornecidos, à procura de tipos específicos de padrões ou tendências. O algoritmo utiliza os resultados desta análise para definir os parâmetros ótimos para criar o modelo de mineração. Estes parâmetros são aplicados pelo conjunto de dados inteiro para extrair padrões acionáveis e estatísticas detalhadas.

Uma árvore de decisão que fornece um resultado e descreve como diferentes critérios afetam esse resultado. • Um modelo matemático que prevê vendas. • Um conjunto de regras que descreve como os produtos são agrupados em uma transação e a probabilidade de que os produtos são comprados em conjunto. Existem diferentes tipos de algoritmos de mineração, entre eles estão: algoritmos de classificação que prevêem uma ou mais variáveis discretas, com base em outros atributos do conjunto de dados; algoritmos de regressão que preveem uma ou mais variáveis contínuas, como lucro ou prejuízo com base em outros atributos do conjunto de dados; algoritmos de segmentação dividem dados em clusters ou grupos de itens que têm propriedades semelhantes; algoritmos de associação que encontram correlações entre diferentes atributos em um conjunto de dados. A aplicação mais comum deste tipo de algoritmo é criar regras de associação, que podem ser usados em uma análise do carrinho de compras; algoritmos para análise da sequência que sintetizam sequências de dados comuns ou episódios, como um caminho de escoamento da web. Para selecionar um algoritmo que realiza uma tarefa específica, a Tabela 1 apresenta algumas sugestões para os tipos de tarefas para as quais cada algoritmo é tradicionalmente usado. Entre os diferentes algoritmos estudados os que apresentaram as melhores características para trabalhar em nosso projeto foram os Algoritmos de Classificação que usam atributo discreto, pois eles trabalham com falha do servidor. O algoritmo Naive Bayes foi o que apresentou a solução mais adequada ao nosso problema. A classificação bayesiana obtém os melhores resultados trabalhando com os valores de atributos discretos. Outra característica deste algoritmo é que requer um conjunto de dados previamente classificados, isto é, uma linha de montagem que já está separado em categorias (ou grupos). Com base nesse conjunto de dados anteriores, que também é chamado de conjunto de treinamento, o algoritmo toma como entrada um novo desconhecido, ou seja, sem classificação, e retorna como saída o mais provável para esta classe de amostra de acordo com cálculos probabilísticos. Classificação Bayesiana não precisa de uma métrica para comparar a "distância" entre as instâncias e não classifica automaticamente o desconhecido, uma vez que um conjunto de dados já está classificado. Devido a esta necessidade, o algoritmo de classificação bayesiana foi considerado como um algoritmo de mineração de dados supervisionado. •

Tabela 1. Algoritmos Exemplos de tarefas Prevendo um atributo discreto

Algoritmos a serem utilizados Algoritmos da Árvore de Decisão Algoritmos de Naive Bayes

Sinalizar os clientes em uma lista de compradores potenciais como bons ou ruins. Calcular a probabilidade de um servidor falhar dentro dos próximos 6 meses. Categorizar resultados de p a cie n t e s e e xp l o ra r os fatores relacionados.

Prevendo um atributo contínuo

Algoritmo de Clustering

Algoritmo de Rede Neural

Algoritmos da Árvore de Decisão Algoritmo MTS

Prever as vendas do próximo ano. Prever visitantes de site considerando as tendências históricas e sazonais. Gerar uma contagem de risco considerando a demografia

Prevendo uma sequência

Algoritmo de Regressão Linear

Algoritmo MSC

Executar uma análise de sequência de cliques no site da empresa. Analisar os fatores que conduzem à falha do servidor. Capturar e analisar sequências de atividades durante visitas de pacientes externos, formular práticas recomendadas para atividades comuns

Localizando grupos de itens comuns em transações

Algoritmo de Associação Algoritmos da Árvore de Decisão

Usar análise da cesta de compras para determinar colocação de produto. Sugerir produtos adicionais a um cliente para compra. Analisar dados de pesquisa de visitantes para um evento, encontrar quais atividades estão correlacionadas, planejar atividades futuras.

Localizando grupos de itens semelhantes

III. O PROBLEMA

Algoritmo de Clustering Algoritmo MSC

Criar grupos de perfis de risco de paciente em atributos como demografia e comportamentos. Analisar usuários por padrões de navegação e compra. Identificar servidores que têm características de uso semelhantes

O modelo de mineração que um algoritmo cria a partir de seus dados pode assumir várias formas, incluindo: • Um conjunto de clusters que descreve os casos em um conjunto de dados que estão relacionados.

A partir do uso da internet nos negócios e redes sociais como ferramenta de comunicação empresarial eficaz, as organizações têm buscado o desenvolvimento da computação social avançada e colaboração, gerenciamento de informações, de descoberta de conhecimento, mineração de dados e pesquisas de operações de serviços de TI, tanto em ambientes internos como externos relacionados ao provedor de serviços de TI. Esta pesquisa é baseada nos resultados de pesquisa acadêmica sobre a gestão dos serviços de TI (ITSM – IT Service Management), o desenvolvimento de contribuições para a criação de perfis para as entidades relevantes, tais como: propostas, soluções, tratamento e pessoas. Esses perfis são por sua vez construídos por fontes básicas, tais como LDAP - Lightweight Directory Access Protocol (pessoas) acordos de diretório, repositório de serviço e mantido pelo grupo do ciclo de vida do serviço em organizações de gestão. Estes novos tipos de perfis devem ser complementados com informações de outras fontes, encontradas em todos os lugares, dentro e fora da empresa (e-mails, sharepoint, wikis, fóruns, blogs, listas de discussão, resumos, relatórios

analíticos, etc.) que são relevantes para um serviço de ou acordo, e conectado a um perfil específico. Os novos perfis devem ser separados e interligados. Isto leva à criação de uma rede composta não apenas por pessoas, mas por serviços e acordos (e outras instâncias secundárias). “Esta rede social se torna um lugar onde os membros da comunidade em torno das ofertas de serviços e partilha de informações relacionam-se entre si, incluindo elementos como a “Tagging”, acordos de “ como", "conversa", e apregadores sociais de base para empresas. Como as redes sociais conectam não apenas com pessoas, mas também "coisas" tais como entidades, contratos de serviços, estes entes podem se tornar participantes ativos nas conversas, ocupando um lugar nestas redes sociais. O discurso de serviços e acordos nessas conversas devem responder por atualizações de status ou de prestação de serviços, entrando em uma fase diferente, com o uso de um gerenciador de conversas sobre TI. Espera-se que a área de trabalho para avaliar o desempenho de tais atividades deva representar o proprietário de uma linha de serviços na rede social de pessoas, serviços e acordos, onde se pode pesquisar e navegar na informação disponível, com o auxílio de um conjunto de ferramentas analíticas, sendo as redes sociais utilizadas como apoio à decisão, através de análise hipotética e painéis em torno das atividades relacionadas com a gestão de portfólio de serviços de TI. A inovação da oferta de serviços gira em torno da capacidade de se usar o conhecimento coletivo da organização para encontrar novas idéias para soluções que forneçam recursos e se refiram mais aos tomadores de decisão. Um processo de gestão começa com idéias, a evolução em termos de valores é oriundo da sabedoria do povo, a metodologia de análise de impacto usa o conceito-de-produção, ele utiliza as idéias para criar novas soluções ou ofertas. O monitoramento da qualidade dos serviços de TI tornou-se cada vez mais importante e necessário para a viabilidade de novos desafios por parte dos serviços de TI que atuam internamente (depa rt a me nt os) e e xt er nam ent e (fo rnec edor es e terceirizados). A maioria dos acordos de nível de serviço de TI em organizações ainda são formalizados através de meios textuais (arquivos gerados por editores de texto). Para identificar as violações de tais acordos, os gerentes usam uma estratégia de indicadores de acompanhamento do desempenho dos serviços de TI. Para isso, existe um mínimo e um máximo para cada um dos limites do monitoramento das métricas, bem como as sanções correspondentes, que podem ser aplicadas ao prestador do serviço a partir de uma violação desses acordos definidos. O monitoramento dessas métricas relacionadas aos SLAs é realizado nas organizações a partir do uso de ferramentas automatizadas ou por meio de pesquisas quantitativas e qualitativas, tais como questionários, entrevistas e outras ferramentas de coleta. Tem-se a necessidade de uma identificação eficaz de possíveis violações dos acordos de níveis de serviços de TI em níveis nacionais e internacionais para o prestador de serviços, desde ferramentas de service desk atuais usados por essas organizações, que só permitem a identificação de violações de SLAs o registro de incidentes ou problemas e ler os seus contratos de gestores com métricas geradas por essas ferramentas ou questionários ou outro instrumento de coleta de informações de acompanhamento quantitativo e qualitativo. Há uma necessidade de se desenvolver métodos que permitem níveis de identificação e violações autonômicos próativas de contratos de serviços de TI em redes sociais para evitar mais danos, que só é informado quando há registros de incidentes ou problemas de clientes. As redes sociais e novos cenários atualmente experimentados por prestadores de serviços de TI são os canais de comunicação que exigem a criação de novas

soluções para monitoramento inteligente dos níveis de acordos de serviços, além de soluções existentes. Com o amadurecimento dos processos de governança de tecnologia da informação (TI) nas organizações, o exercício de uma atividade para fornecer tecnologia de informação (TI), note que fortes padrões de serviços de tecnologia de qualidade estão sendo priorizados pelos gestores, com foco nas necessidades dos negócios. Os membros da equipe de gestão de TI, tais como administradores de redes / sistemas exigem a capacidade de diagnosticar o problema de todas as informações disponíveis (registros de problemas, relatórios de diagnóstico, os arquivos de log do aplicativo), a fim de identificar rapidamente e implementar as ações corretivas necessárias. IV. ESTUDO DE CASO E ANÁLISE DOS RESULTADOS O cenário de negócios considerado neste trabalho requer a disponibilidade de uma infraestrutura que pode ser utilizada para o desenvolvimento do modelo e posteriormente para utilização de uma ferramenta de software. Como pode ser visto na Figura 1 abaixo, o modelo terá uma entrada no banco de dados que será alimentado pelas redes sociais (facebook, tweeter), e-mail, service desk, etc. Posteriormente, os dados serão submetidos a um processo de mineração de dados e mineração de texto. Finalmente, na saída teremos as mensagens de violações, potenciais violações e indicadores chaves de desempenho (KPIs - Key Performance Indicators).

Figura 1 – Modelo de Estudo

Para atingir este objectivo principal, foi desenvolvida uma abordagem e selecionado um algoritmo para mineração de texto. Queríamos ser capaz de propor um algoritmo de busca para identificar possíveis violações dos SLAs. Então, devem-se determinar quais mecanismos de monitoramento são realmente eficazes para atingir esse objetivo. Foram feitas as seguintes atividades durante esta pesquisa: 1. O objetivo é identificar a partir da revisão da literatura e avaliação de algoritmos de mineração de dados, os que (s) que está (ão) mais adequado (s) para resolver o problema apresentado. 2.

Propor um sistema de integração das propriedades do algoritmo proposto. Implementar e avaliar a proposta e a posteriori avaliar o impacto e comportamento dos mecanismos propostos nesta aplicação do projeto.

A. METODOLOGIA vOs estudos e os resultados da pesquisa pretendem lançar orientações para o desenvolvimento de uma abordagem autônoma para o tratamento de violações do nível de acordos de serviços de TI no Brasil. A idéia é desenvolver novos mecanismos para integrar informações textuais e gestão decisão nível de serviços de TI métricas de processo. As atividades levam em consideração o estudo de novos parâmetros. Espera-se o aumento do nível de eficiência na tomada de decisões. Assim, a robustez e a eficiência pode permitir o desenvolvimento de novas aplicações para as dimensões do ITIL [18], que são de grande valor para a sociedade, da academia e da indústria. Tem sido a intenção de aplicar os testes do modelo, no caso de estudo a ser realizado em ambiente real. O projeto deve seguir estes passos: 1. A revisão da literatura; 2. Identificação da estratégia de mineração a ser utilizado e o algoritmo e função; 3. Mapeando os atributos de recursos e SLAs internos e externos para os serviços do provedor de serviços. 4. Desenvolvimento/implementação da busca de informações relevantes sobre os recursos e serviços relacionados algoritmo. 5. O desenvolvimento do modelo de sistema que irá receber as informações em modo texto e fazer o armazenamento em um banco de dados. 6. Desenvolvimento do sistema irá interpretar as informações armazenadas no banco de dados e apresentar o modelo do usuário. 7. Entrevistas com os gerentes.

A cada passo, as informações relacionadas serão apresentadas de forma vinculada aos SLAs monitorados para mostrar sua relação com eventos internos e externos, de modo que o usuário possa tomar as medidas necessárias. Para alcançar os objetivos deste projeto, a implementação de um protótipo real será feita para analisar a solução e suas aplicações serão realizadas. O software que irá automatizar a solução a ser desenvolvida será implementado em plataforma web utilizando PHP ou Java. Planeja-se o uso de métodos ágeis na fase de projeto. Pretende-se a testar a solução em um estudo de caso real, uma empresa estabelecida na cidade de Fortaleza, Ceará, Brasil. Atualmente, o processo de detectar a violação dos acordos de níveis de serviços de TI é suportado por dados do nível operacional de TI, o que torna difícil o monitoramento ao nível estratégico. Não existem dados eficazes para a identificação de possíveis falhas através das redes sociais e ambientes externos, a menos que as chamadas gravadas pelos mecanismos de service desk. Esta proposta prevê a geração de informações da rede interna e externa ao provedor para uso pelos administradores em ambientes corporativos. Destina-se a fazer comparações com os dados existentes, a fim de investigar o comportamento e a eficiência dos mecanismos de soluções propostas para monitoramento proativo dos serviços.

O sistema de gerenciamento de dados foi modelado para receber diferentes fontes de dados, como por exemplo: Twitter, facebook, whats up, dentre outros. Nesta fase inicial, na etapa de captação das mensagens, houve a criação de um grupo de usuários de rede da corporação (fictícia), onde serão postadas mensagens sobre o comportamento da rede. A rede social TWITTER foi escolhida para tal finalidade, e para os testes foi criado o perfil SLADoutorado, e desenvolvido o aplicativo SLA-pesquisa de opnião e a API Twitter4J foi utilizada [22]. O aplicativo SLA-pesquisa de opnião faz a integração das contas dos usuários com a API Twitter4J para capturar as mensagens, que serão tratadas pelo classificador Naive Bayes. Por sua vez a API Twitter4J foi configurada para buscar a timeline dos usuários e tratar as mensagens recebidas (escolha da língua, remoção dos ruídos, mineração de dados,...). A plataforma para desenvolvimento adotada é a Eclipse versão MARS, com Java(TM) FX 2.0 para construção de telas, JPA 2.0 para base de dados, MARVEN para gerenciamento de projetos e as dependências e o sistema operacional Windows 8

em um ultrabook i7 com 3GHz, 4Gbyte de RAM e 128G de HD SSD. Na Figura 2 é apresentada a tela de Criação da Base de Dados. Figura 2 – Criação da Base de Dados

A Figura 3, está a tela com finalidade de passar parametros do Twitter de acordo com as palavras chaves a qual deseja avaliar as mensagem. Está sendo utilizado Twitter4j para conectar e capturar as mensagens. Figura 3 – Coleta de Dados

Após a coleta das mensagens, será feita a seleção do idioma que o sistema irá trabalhar. Pode ser observada na Figura 4, a tela de seleção de língua, onde o usuário terá a opção de escolher três opções de idioma. São elas: inglês, português e espanhol.

Figura 4 – Seleção de Língua

Após serem coletadas e armazenadas em banco de dados, as mensagens foram classificadas manualmente. Somente as mensagens neutras e negativas foram efetivamente utilizadas neste trabalho. Mensagens indefinidas ou conflitantes foram descartadas, pois fogem ao escopo do problema que estamos atacando. Após a coleta e classificação manual das mensagens, fez-se necessário a realização do préprocessamento das mesmas. A principal intenção é realizar uma “limpeza” nos dados. Primeiramente é realizada a tokenização (que consiste em separar palavra por palavra, removendo espaços em branco, fim de linha, tabulações e etc) dos termos e em seguida efetua-se os seguintes passos como pode ser observada na Figura 5: 1. Remoção de StopWords, que são palavras irrelevantes para aplicação, como: artigos, preposições, numerais. 2. Remoção de caracteres inválidos. 3. Remoção de dígitos. 4. Remoções de links.

Figura 5 – Redução de Ruído

B. MÉTRICAS DE AVALIAÇÃO Para o treinamento do classificador Naive Bayes foi utilizado o método de validação cruzada (cross-validation). Primeiro o conjunto de dados disponível (são os exemplos) é particionado aleatoriamente em um conjunto de treinamento e um conjunto de teste. O conjunto de treinamento é depois particionado em dois conjuntos disjuntos: Subconjunto de estimação, usado para selecionar o modelo; Subconjunto de validação, usado para testar ou validar o modelo. Também se diz que o subconjunto de estimação é usado para estimação do modelo, isto é, treinamento da rede. E o subconjunto de validação é usado para avaliação da performance do modelo. O subconjunto de validação tem de 10 a 20 porcento do conjunto de treinamento. Para avaliar a performance do classificador foram consideradas como base as seguintes métricas: Precisão, Recall, F-measure, Estatística Kappa, Raiz do Erro Quadrático Médio e Desvio Padrão. A seguir, tem-se uma breve explicação das métricas utilizadas no presente trabalho: • Percentual de acerto: porcentagem de acerto do algoritmo quando utilizado nas bases de testes. • Tempo de treinamento: tempo que o algoritmo requer para gerar seu modelo de classificação. • Precisão (p): representa o quanto a classificação feita por um algoritmo corresponde à realidade (classificação manual feita por um especialista). • Recall (r): mede o quanto a classificação feita por um especialista coincide com a realizada pelo algoritmo. • F-measure (Fb ): representa uma relação de correspondência entre Precisão e Recall. • Estatística Kappa (k): indica o grau de concordância entre dois classificadores, levando em consideração a probabilidade de as concordâncias terem acontecidas ao acaso. • Raiz do Erro Quadrático Médio (RMSE): raiz quadrada do erro quadrático médio. • Desvio Padrão (s): medida de dispersão dos valores de uma distribuição normal em relação à sua média. Ambos, Precisão (p) e Recall (r), são definidos em [23] a partir de probabilidades condicionais através de uma Tabela de contingência – Tabela 1, para determinada mensagem i e classe Ci. Tabela 1: Tabela de contigência[23].

Classifcação Especialista

Classifcação do Algoritmo

Sim

Não

Sim

VPi

FPi

Não

FNi

VNi

Na Tabela 1 temos que FPi (Falso Positivo) é o número incorreto de mensagens classificadas como positivas. VPi (Verdadeiro Positivo) é o número de mensagens positivas classificadas corretamente. FNi (Falso Negativo) é o número incorreto de mensagens classificadas como negativas. VNi

(Verdadeiro Negativo) é bom número de mensagens negativas classificadas corretamente. A Estatística Kappa, segundo [24] indica o grau de concordância entre dois classificadores, levando em consideração a probabilidade de as concordâncias terem acontecidas ao acaso. Para isso é introduzido o conceito de Classificador Infalível, o qual é utilizado para confrontar os dados com o classificador real levando em consideração as escolhas aleatórias. O valor de Kappa está compreendido no intervalo 0= < k=< 1 e pode ser interpretado segundo a Tabela 2. Tabela 2: Interpretação dos valores de Estatística Kappa [24].

K

A Matriz de Confusão apresentada na Tabela 5, mostra que das 25 mensagens da Classe Negativa postadas todas foram identificadas pelo classificador e das 20 mensagens da Classe Normal apenas 5 foram identificadas, reforçando a eficiência no grau de acerto para a detecção das mensagens da classe Negativa e a necessidade de melhoria no processo de identificação das mensagens da Classe Normal. Tabela 5: Matriz de Confusão a

b

Classifcação

5

15

a = normal

0

25

b = negatvo

O passo seguinte é a determinação dos termos para a pesquisa. Pode-se observar na Figura 6, que as palavras a serem buscadas no Twiteer, nesse exemplo são “link caindo”.

Interpretação 0

Nenhuma concordância

0 a 0,2

Leve concordância

0,21 a 0,4

Concordância regular

0,41 a 0,6

Concordância moderada

0,61 a 0,8

Concordância substancial

0,81 a 1,0

Concordância quase perfeita

C. RESULTADOS Para o treinamento do classificador Naive-Bayes foram utilizadas 45 mensagens, onde 20 foram mensagem normais e 25 mensagens negativas. Como pode ser observado na Tabela 3, o valor encontrado da Estatística Kappa foi de 0,2703, indicando que houve uma concondância regular. Tabela 3: Resultados

Figura 6 –Pesquisa de termos: ”link caindo”.

an t - f " C : \ \ U s e r s \ \ N H 2 d a b e \ \ D e s k t o p \ \ I n i c i a ç ã o c i e n t i f i c a \ \ S L A " -Djavac.includes=controle/Main.java -Drun.class=controle.Main -Dnb.internal.action.name=run.single run-single init:

Instâncias Classifcadas Corretamente

30

66,6667%

Instâncias Classifcadas Incorretamente

15

33,33%

Deleting:C:\Users\NH2dabe\Desktop\Iniciaçãocientifica\SLA\build\builtjar.properties

Estatstca Kappa

0,2703

deps-jar:

Raiz do Erro Quadrátco Médio

0,4381

Updating property file: C:\Users\NH2dabe\Desktop\Iniciação cientifica\SLA\build\built-jar.properties

100%

Cobertura dos Casos

45

Total do Números de Instâncias

compile-single:

Figura 5 – Pesquisa de termos

De acordo com os números apresentados na tabela 4, pode-se verificar uma taxa de verdadeiro positivo para a classe Negativa um índice de acerto de 100% ( Recall=1; classificação do especialista coincide com a realizada pelo classificadorg). Embora, a taxa de falso positivo para a classe Normal tenha dado apenas 25% de acerto, para o nosso projeto isso não terá muita relevância. O motivo é porque o interesse maior é não deixar nenhuma mensagem negativa sem ser analisada e esse objetivo foi alcançado. Tabela 4: Precisão Detalhada por Classe

Média Ponderada

C om p i l i n g 1 so u rc e f i l e t o C : \ U s e rs \ N H 2d a be \ D e s k t op \ I n i ci a ç ã o cientifica\SLA\build\classes

Taxa VP

Taxa FP

Precisão

Recall

F-Measure

Classe

0,250

0,000

1,000

0,250

0,400

1,000

0,750

0,625

1,000

0,769

Normal Negatv o

0,667

0,417

0,792

0,667

0,605

run-single: Pesquisa por um termo! 1-@ByaBuzzolo:ironia o link do site palmeirense estar caindo Idioma:pt 2-@b5e76d4e51e74a5:@gpesportiva esse link esta caindo no jogo dos porcos do atletico. Idioma:pt 3-@iarlensilva:Link caindo SLADoutorado! Idioma:pt . . . 19-@ptxfernanda:@penttatonix caindo no chão esperando o link adeus Idioma:pt 20-@surubaowith5h:kd link videovine o forninholauren caindo pelo amor gente me mandem

Idioma:pt CONSTRUÍDO COM SUCESSO (tempo total: 1 segundo)

Figura 7 – Resultado da Pesquisa de termos: ”link caindo”.

Como pode ser visto na Figura 7, a pesquisa foi bem sucedida e foram retornadas 20 mensagens do Twiteer que continham os termos “link caindo”. Caso deseje-se fazer a pesquisa em apenas em um timeline de um usuário em específico, isso pode ser feito acrescentando o nome do perfil do usuário nos termos da pesquisa, Figura 8. an t -f " C:\\ Users\ \NH2dabe\\Desktop\\ Iniciação cientifica\\SLA " - D j a va c . i n c l u d e s = c o n t r o l e / M a i n. j av a - D ru n . c l a s s = c o nt r o l e . M ai n -Dnb.internal.action.name=run.single run-single init: Deleting:C:\Users\NH2dabe\Desktop\Iniciaçãocientifica\SLA\build\builtjar.properties deps-jar: Updating property file: C:\Users\NH2dabe\Desktop\Iniciação cientifica\SLA\build\built-jar.properties Comp iling 1 sou rce file to C:\Users\NH2dabe\Desktop\Iniciação cientifica\SLA\build\classes compile-single: run-single: Pesquisa por um termo! @iarlensilva:Link caindo SLADoutorado! Idioma:pt @iarlensilva:@SLADoutorado link caindo direto Idioma:pt @iarlensilva:@SLADoutorado link caindo Idioma:pt CONSTRUÍDO COM SUCESSO (tempo total: 1 segundo)

Figura 8 – Pesquisa de termos: ”SLADoutorado link caindo”.

O próximo passo do projeto é ajustar as mensagens coletadas do Twitter para o formato .csv para adicioná-las ao banco de dados. Com isto, o classificador poderá fazer a triagem on-line das mensagens do Twitter enviadas para o usuário SLADoutorado. Terminada essa fase de classificação, a próxima etapa consistirá em parametrizar o quantitativo de mensagens negativas com os valores de SLA do serviço contratado. V. CONCLUSÕES E TRABALHOS EM ANDAMENTO Este trabalho em andamento apresentará um novo modelo de mineração de dados para identificar possíveis violações de SLA e baixa qualidade dos serviços de TI. Nossa principal contribuição será um modelo, que poderá ser utilizado pelos gestores nas atividades de gerenciamento de serviços de TI. Seguimos um estudo inicial para testar os algoritmos de modelo e obtivemos resultados promissores. Nosso modelo poderá ser usado por gestores nas atividades de monitoramento do SLA, apoiando a tomada de decisões e melhoria do processo de gerenciamento de nível de serviço. As etapas de coleta iniciais e pré-processamento foram realizados para a mineração de dados. As seguintes etapas de análise e tomada de decisões estão sendo implementadas. Para a fase de análise, estamos a definir métricas de classificação de dados, com base em SVM aprendizagem de máquina (Support Virtual Machine) e ontologia. A tomada de decisão deve otimizar os fatores que garantem uma melhor qualidade de serviço. Será aplicado um questionário de validação de face para onze gerentes de TI. O questionário incluiu três perguntas, cada uma delas leva à hipótese de utilidade, confiabilidade e eficácia do modelo. Como a população dos gestores é muito maior que onze, inferência estatística foi utilizada para testar as hipóteses (um teste estatístico binomial com um nível de significância de 5%). O modelo proposto será apresentado aos gestores antes da avaliação. Validadação de face parece ser estabelecida em todas as dimensões analisadas. Apesar da validação de face ser um primeiro passo, uma ameaça para a validade era nossa análise limitada. Nós não podemos generalizar os resultados. Nossa ferramenta de software ainda precisa de algumas melhorias. Pretendemos completar a nossa implementação do modelo para avaliar uma empresa em um estudo de caso futuro. Planejamos usar o nosso modelo em todos os canais de comunicação prestadores de serviços de TI (ou seja, redes sociais, dados de service desk, mensagens de e-mail, chat, fórum, etc.). Um trabalho futuro será a utilização do modelo em uma organização de gerenciamento de serviços.

VIII. REFERÊNCIAS Oliveira J. A. Um modelo formal para avaliar o valor de negócio e sua aplicação no contexto de gestão e governança de TI. PhD Thesis, Federal University of Campina Grande, PB, Brazil, 2010. Weill P., Ross J. “IT Governance: How Top Performers Manage IT Decision Rights Results”, Harvard Business Press, Cambridge, MA. (2004). Adachi E. S. Governança de TI: Analise Crítica das Práticas Existentes em uma Empresa Estatal do Setor de TI, 2008, 143f, Master Thesis. UFRGS, Porto Alegre, 2008.

Sougstad, R., Bardhan. I. R. Empirical analysis of information technology project investment portfolios. Robert J. Kauffman and Paul R Tallon.eds. Economics, Information Systems, and Electronic Commerce: Empirical Research. Advances in Management Information Systems, Volume 13, 89112, 2009. Lima, A. S., De Souza, J. N., Oliveira, J. A., Sauvé, J., Moura, J. A. B., Towards Business-Driven Continual Service Improvement, Proceedings of the 5th IEEE / IFIP International Workshop on BDIM. IEEE Communications Society, 2010. Sauvé J. P., Moura J. A. B., Sampaio M. C., Jornada J., RaclziukE. An introductory overview and survey of BDIM. Proceedings of the lst IEEE / IFIP International Workshop on BDIM., p. 1 - 10, 2006. Marques F. T., Sauvé J.P., Moura A. SLA design and service provisioning for outsourced services. Journal of Network and Systems Management, V.17 , Issue 1-2, pp. 73 - 90, 2009. Kleinrock L. Queuing Systems, Vol I: Theory. Wiley, New York, 1975. Klaus J. K., Ullmann M. Availability: Theory and Fundamentals for Practical Evaluation and Use. 1063-9527/94, IEEE, 1994. Daniel R. Utility theory from jeremybentham to danielkalmeman. London School of Economics and Political Science, 9:ISBN No: 07530 1689, 2004. Marek W. G. Power and beauty of interval methods. Domestic Conference on E v o l u t i o n a r y A l go r i t h m s a n d G l o ba l O p t i m i z a t i o n , P ol a n d, arXiv:pliysics/0302034v2:8pp, May 26-29, 2003. Zadeh L. Rizzy sets as a basis for a theory of possibility. Fuzzy Sets and Systems, 1:3-28, 1978. Bartolini C., Sallé M. Business driven prioritization of service incidents. L5th IFIP/IEEE International Workshop on Distributed Systems, 1:1-8, 2008. Sauvé J., Marques F., Moura A., Sampaio M., Jornada J., Radziuk E. SLA design from a business perspective. In DSOM, 2005.

Moura J. A. B.. A possibility theoretic model for decision support in businessdriven IT service portfolio financial management under uncertainty. In HP OVUA, Marrakech, Marrocos, 2008. Office of Government Commerce (OGC). ITIL Core Version3, Office of Government Commerce (OGC), 2008. /urlhttp://www.itil.co.uk. IT Governance Institute. COBIT 4th edition, 2006. http://www.isaca.org/Template.cfm? Section=COBIT6&Template=/TaggedPage/TaggedPageDisplay.cfm&TPLID =55&ContentID=7981. Kantardzic M. “Data Mining: concepts, models, methods and algorithms”. 2ª Ed. John Wiley & Sons, 2003. “Oracle Data Mining Concepts”, 11g Release 1 (11.1) B28129-04, Oracle, 2008. Sodré, M. G. Uma Análise Comparativa de Metodologias para Governança de Tecnologia da Informação – ITIL e COBIT. TCC em Ciência da Computação. UFSC, Florianópolis, 2007. Pessoa, C. R. M. Alinhamento Estratégico Entre a Gestão das Empresas e o Setor de Tecnologia da Informação (Ti): O Momento da Aquisição de Soluções de Tecnologia. Master Thesis, Faculdade de Ciências Empresariais da Universidade Fumec, Belo Horizonte, 2009. Twitter4J API. In http://twitter4j.org/en/index.html acesso em 11/11/2014. LIN, F. ren; HSIEH, L. shih; CHUANG, F.-T. Discovering genres of online discussion threads via text mining. Computers And Education, v. 52, n. 2, p. 481–495, 2009. LANDIS, J. R.; KOCH, G. G. The measurement of observer agreement for categorical data. Biometrics, International Biometric Society, v. 33, n. 1, p. 159–174, 1977. Disponível em: .

Lihat lebih banyak...

Comentários

Copyright © 2017 DADOSPDF Inc.