Um Levantamento do Uso de Algoritmos de Aprendizado Supervisionado em Mineração de Opiniões

June 19, 2017 | Autor: Alexandre Lunardi | Categoria: Machine Learning, Sentiment Analysis, Aprendizado de máquina, Análise De Sentimento
Share Embed


Descrição do Produto

Um Levantamento do Uso de Algoritmos de Aprendizado Supervisionado em Mineração de Opiniões Alexandre de Castro Lunardi1, José Viterbo Filho1, Flavia Cristina Bernardini2 1

Pós-Graduação em Computação Instituto de Computação Universidade Federal Fluminense Niterói, RJ, Brasil 2 Departamento de Computação Instituto de Ciência e Tecnologia Universidade Federal Fluminense Rio das Ostras, RJ, Brasil Resumo – Verifica-se atualmente uma ampla utilização de redes sociais e microblogs associada ao crescimento da quantidade de sistemas que permitem que um usuário avalie sua experiência em relação a um produto ou serviço. Neste cenário, visando auxiliar na compreensão do gosto ou humor dos usuários em relação a seus serviços ou produtos, a análise textual surge como uma tarefa de grande interesse para empresas e pesquisadores. Com o objetivo de orientar novos pesquisadores da área sobre o estado da arte da mineração de opiniões através de técnicas de aprendizado de máquina, este trabalho apresenta um levantamento do uso das técnicas de aprendizado supervisionado que são mais úteis na definição de modelos para a classificação de opiniões. Este estudo considera também os métodos empregados para a seleção de características e compara a acurácia dos diversos algoritmos discutidos. Além disso, são descritas algumas aplicações que empregam esses algoritmos em diferentes áreas de conhecimento.

usuário em relação a esse aspecto a; h é o autor do comentário (o usuário); e t é a data na qual a opinião foi emitida pelo usuário. Todas as variáveis dessa definição são de extrema importância na análise de sentimentos.

Palavras-chave: algoritmos de aprendizado supervisionado, análise de sentimentos, mineração de opiniões.

 Métodos estatísticos: utiliza algoritmos de aprendizado de máquina, como Naive Bayes e SVM, para classificar um texto. Nesse caso, o sistema, além de aprender a importância de uma palavra-chave óbvia, considera outras palavras que podem ser fundamentais, além da pontuação e da frequência.

I.

INTRODUÇÃO

Com o advento da Web 2.0, é cada vez mais fácil encontrar opiniões valiosas relacionadas a produtos, serviços, organizações, indivíduos, eventos, pesquisas e vários outros domínios. Isso se deve ao crescente uso de redes sociais, blogs e, principalmente, o uso por parte de sites de comércio eletrônico, com ferramentas que permitem que os usuários deixem registradas suas opiniões sobre algum produto ou serviço. Capturar e processar de forma adequada essa informação, descobrindo o interesse do público em geral sobre algum item, é de grande interesse para o mundo dos negócios. A comunidade científica vem, dessa forma, desenvolvendo ferramentas que visam auxiliar na recuperação e mineração desses dados. Esses campos fazem parte da mineração de opiniões e/ou análise de sentimentos [1]. Segundo [2], uma opinião regular, dada por um usuário, é representada como uma quíntupla O = (e, a, s, h, t), onde e é o nome da entidade, ou objeto, à qual a opinião se refere; a é um aspecto específico da entidade e; s é o sentimento do

Considerando a evolução da análise de sentimentos, utilizando tokens ou informações extraídas de uma opinião, as pesquisas em mineração de opiniões para análise de sentimento podem ser agrupadas em quatro campos [1]:  Palavras-chave: classifica o texto de acordo com a presença de palavras sem sentido ambíguo, tais como “feliz”, “triste” e “medo”.  Afinidade léxica: além de detectar palavras óbvias, também atribui a outras palavras uma “afinidade” com um sentimento.

 Baseado em conceitos: usam ontologias ou redes de palavras-chave para realizar a análise textual. Podem analisar expressões que não possuem uma emoção explícita, mas estão relacionadas a um sentimento implicitamente. O foco nesta pesquisa está em sistemas que utilizam Métodos Estatísticos para análise de sentimentos, mais especificamente nos métodos que utilizam algoritmos de aprendizado de máquina. Para utilização de tais algoritmos, é necessário o uso de técnicas de processamento de linguagem natural e recuperação de informação, que é possível principalmente à disponibilidade de dados para o treinamento dessas técnicas devido à grande utilização da “web social” [1] e à criação de web sites que agregam opiniões.

Alguns trabalhos que utilizam algoritmos de aprendizado não supervisionados merecem destaque. Em [4] é mencionado que alguns desses algoritmos utilizam orientação semântica, e realiza uma comparação entre algoritmos de aprendizado supervisionado e não supervisionado. Em [5] são realizadas inferências de orientação semântica dos textos com base em associação de palavras. Em [6] e [7] é utilizado o algoritmo PMI-IR para cálculo de distâncias. Por outro lado, no caso específico em que há histórico do sentimento dos usuários em relação a um produto – “bom”, “ruim” ou “neutro” – e, associada a essa informação, há um comentário, o uso de aprendizado supervisionado para problemas de classificação é indicado. Deve ser observado que, em domínios específicos, os resultados de algoritmos desse tipo são considerados de bom desempenho [8]. Algoritmos de aprendizado supervisionado tais como o Naive Bayes (NB), Support Vector Machines (SVM), Máxima Entropia (MaxEnt), Decisions Trees (DT) e outras técnicas têm sido utilizados em diversos trabalhos, tais como [9], [10] e [8]. Segundo [2], a chave para o bom desempenho desses algoritmos está na seleção de um conjunto de características cuja análise seja adequada para o uso de técnicas de aprendizado de máquina. Entre elas estão: a posição e a frequência de um termo; partes do discurso (POS); frases e palavras que expressam um sentimento; regras de opiniões; modificadores de sentimento; e dependência sintática. O objetivo deste trabalho é analisar o uso de algoritmos de aprendizado supervisionado na área de análise de sentimentos. Também é analisado o uso de técnicas de extração de características utilizadas para construção dos modelos de classificação. É importante ressaltar que foram considerados trabalhos da literatura que apresentaram os melhores resultados em classificação e os trabalhos mais citados para escolha da análise dos algoritmos de aprendizado e técnicas de extração de características. Esse levantamento visa auxiliar e orientar novos pesquisadores da área sobre o estado da arte da mineração de opiniões com aprendizado de máquina. Este artigo está dividido como segue: na Seção II é apresentada uma descrição dos principais algoritmos de aprendizado supervisionado para problemas de classificação, que são comparados adiante, e estratégias de extração de características das opiniões. Na Seção III são resumidamente descritos os trabalhos que utilizam umas ou mais das técnicas apresentadas na Seção II, bem como o desempenho dos algoritmos de aprendizado e técnicas de extração de características utilizadas nos trabalhos descritos. Na Seção IV são apresentadas as principais aplicações e ferramentas utilizadas na área de análise de sentimentos para mineração de opiniões utilizando algoritmos supervisionados para problemas de classificação. Na Seção V, é feita uma análise dos trabalhos apresentados nesta pesquisa. Por fim, na Seção IV são apresentadas as conclusões deste trabalho. II. APRENDIZADO SUPERVISIONADO

No problema padrão de aprendizado supervisionado, um conjunto de exemplos de treinamento S é utilizado como dado de entrada de um algoritmo de aprendizado. S possui N exemplos Ti, i = 1,...,N que são escolhidos de um domínio X, com uma distribuição D fixa, desconhecida e arbitrária. S = {(x1,y1),..., (xN,yN)}, tal que y = f(x). Os xi são tipicamente vetores da forma (xi1, xi2, ..., xiM), com valores discretos ou numéricos, onde xij refere-se ao valor do atributo j, também conhecido como característica, denominado Xj do exemplo Ti. Os valores yi referem-se ao valor do atributo Y, frequentemente denominado classe. Em problemas de classificação, tratados neste trabalho, o atributo yi é discreto, pertencente a um conjunto de classes C, ou seja, yi  C = {C1, C2, ..., CK}. Quando K = 2, o problema é denominado de classificação binária; quando K > 2, de classificação multiclasse. Nesta seção são apresentados os principais algoritmos de aprendizado supervisionado para problemas de classificação – Naïve Bayes (NB), Máquinas de Vetor Suporte (SVMs, do inglês Support Vector Machines), Indução de Árvores de Decisão (DTs, do inglês Decision Trees) e K Vizinhos Mais Próximos (K-NN, do inglês K-Nearest Neighbors) – e as principais estratégias de extração de características para a classificação textual supervisionada, comumente utilizadas por pesquisadores e empresas. A. Algoritmos de Aprendizado 1) Naïve Bayes (NB) O algoritmo Naïve Bayes segue uma variação da teoria de decisão Bayesiana. A probabilidade Bayesiana habilita que o conhecimento inicial de um domínio e a lógica possam ser aplicados em novos exemplos [11]. O algoritmo de Naïve Bayes [9] assume que todos os atributos utilizados para representar um exemplo x são independentes. Para associar a um novo exemplo x uma classe Ck, é considerada a classe com maior probabilidade 𝐶 ∗ = argmax 𝑃(𝐶𝑘 |x). Na Equação 1 é mostrado como se dá o cálculo das probabilidades para cada classe 𝐶𝑘 ∈ 𝐶. 𝑃𝑁𝐵 (𝐶𝑘 |x) = 𝑃(𝐶𝑘 )(∏𝑀 𝑗=1 𝑃(𝑥𝑗 |𝐶𝑘 )

(1)

2) Máxima Entropia (MaxEnt) O modelo de entropia máxima também é conhecido por regressão logística multinomial aplicado a problemas de processamento de textos. A classificação por máxima entropia estima a probabilidade 𝑃𝑀𝐸 (𝐶𝑘 |x𝑖 ) considerando a Equação 2. 𝑃𝑀𝐸 (𝐶𝑘 |x𝑖 ) =

exp(∑𝑀 𝑗=0 𝑤𝐶𝑘 𝐹𝑗 (𝐶𝑘 ,x 𝑖 )) 𝑍(x 𝑖 )

(2)

onde 𝑍(x𝑖 ) é um fator de normalização, definido pela Equação 3; 𝑤𝐶𝑘 é um vetor de pesos; F é uma função indicadora de classe para o atributo 𝑋𝑗 , a classe 𝐶𝑘 e a observação, ou exemplo, x𝑖 , definida pela Eq. 4. Na Eq. 4, 𝑛𝑖 (x𝑖 ) é o número de vezes que o termo, representado aqui pelo atributo 𝑋𝑗 , aparece no exemplo, ou documento, x𝑖 . Deve ser observado que a MaxEnt não pressupõe

independência às características (atributos) do domínio, podendo ter melhor desempenho quando não são encontradas independências condicionais [9]. 𝑍(x𝑖 ) = ∑𝐶𝑘 ∈𝐶 exp(∑𝑀 𝑗=0 𝑤𝐶𝑘 𝐹𝑗 (𝐶𝑘 , x 𝑖 ))

(3)

1 se 𝑛𝑖 (x𝑖 ) > 0 ; 𝐹𝑗 (𝐶𝑘 , x 𝑖 ) = { 0 c.c

(4)

𝑖

3) Máquinas de Vetor Suporte (SVM) Em casos simples com dois grupos de dados, diz-se que os grupos são linearmente separáveis se existe uma hiperplano que os separa. O hiperplano é o limitador de decisão, pois de um lado estão informações que pertencem a uma classe, e do outro, informações que pertencem a uma classe diferente. Essas linhas separadoras podem, ainda, ter sua distância média minimizada em relação a tais dados. Entretanto, a ideia é encontrar pontos que estejam o mais distante possível da linha separadora. Esses pontos que separam o hiperplano são conhecidos como vetores de suporte [11]. No entanto, há diversos problemas que não linearmente separáveis. Para isso, as SVMs não lineares mapeiam o conjunto de dados de treinamento do seu espaço original para um novo espaço de maior dimensão, denominado espaço de características. Seja : X → um mapeamento, em que X denota o espaço original e , o espaço de características. A escolha apropriada da função  faz com que os dados mapeados para  possam ser separados por uma SVM linear em . Segundo [12], SVMs costumeiramente apresentam resultados mais efetivos na classificação de textos, superando os resultados do Naive Bayes. 4) Indução de Árvores de Decisão (DT) Os algoritmos de indução de árvores de decisão são um dos principais métodos de inferência indutiva utilizados. Os algoritmos de indução de DTs consistem em métodos de aproximação discreta do alvo, onde a função de aprendizado é representada por uma árvore de decisão, que podem ser representadas como um conjunto de regras se-então [13]. Para a análise de um documento, a árvore de decisão é construída por um processo iterativo, criando um vetor de características. Para cada iteração, a divisão provê o erro em relação ao dado utilizado e, por fim, o tamanho da árvore é definido. Para o uso com dados desconhecidos, a classificação é feita através da leitura das folhas, iniciando da raiz até o valor da característica desse novo documento [19]. 5) k-Vizinhos Mais Próximos (kNN) O k-Nearest Neighbors (kNN) é um método baseado em instâncias que aprende com o simples armazenamento dos dados de treinamento. Quando uma nova instância surge, ele recupera os dados em memória e classifica essa nova instância. A partir dos k vizinhos mais próximos, ele escolhe o dado mais similar com o que será classificado e atribui uma nova classe a ele. A proximidade dos vizinhos é definida de acordo com a distância Euclidiana [11],[13]. B. Técnicas de Extração de Características (TECs)

Em mineração de textos, é fundamental que sejam bem definidas quais são as características, ou atributos, a serem utilizadas para construir o conjunto de treinamento [2]. O principal desafio está em escolher as melhores Técnicas de Extração de Características (TECs) para a primeira etapa do treinamento de um algoritmo de aprendizado supervisionado, isto é, a forma de treinamento que apresenta os melhores resultados em termos de acurácia, tempo de execução, recall ou precisão. Para treinar um modelo, podem ser escolhidas as palavras mais frequentes, as palavras mais positivas e negativas, as palavras ou expressões mais importantes, modificadores de opiniões, palavras ou expressões que indiquem sentimentos, partes de um discurso (POS), posição das palavras, ou então uma miscelânea de cada tipo de característica. Nesta subseção, são apresentadas as principais técnicas de extração de características encontradas nas principais pesquisas na área de análise de sentimentos, de acordo com [2]. 1) Termos e sua frequência Essa é a técnica mais comum utilizada em classificação de texto baseada em tópicos e tem sido altamente efetiva em classificação de sentimento [2]. Essa técnica consiste em retirar os termos mais comuns ou os que sejam mais próximos de palavras como “bom” ou “ruim” de um texto. A partir disso, vetores podem ser criados com palavras separadas (unigramas), duas palavras (bigramas) ou n palavras (n-gramas). O uso destas técnicas está presente em vários trabalhos como [9], [10], [14], [15], [16] e [17]. A partir dessa seleção simples de palavras, outras melhorias podem ser feitas como, por exemplo, ranquear palavras de acordo com seu ganho de informação (Information Gain – IG) [18]. Em outra técnica, para selecionar um subconjunto f de características, as f palavras com maior Informação Mútua (Mutual Information) são escolhidas e as outras palavras são descartadas [12]. Outro método, o Chi-quadrado, ou somente CHI, representa a associação entre uma palavra e sua classe. A divergência da distribuição esperada é medida baseada no teste estatístico em que uma característica que ocorre é independente do valor da classe final [19]. Outro método utilizado é o Document Frequency (DF) [19]. Ele mede o número de documentos que uma característica aparece em um conjunto de dados e remove os n-gramas que ultrapassam ou não atingem um limiar predefinido, isto é, remove as características mais comuns e as menos comuns. Além da frequência de termos, outra característica relevante é a posição de uma palavra. Em [20], os pesquisadores analisam a posição de uma palavra, ou expressão, dentro de um parágrafo e de um documento. 2) Parts of speech (POS) Essa técnica consiste na extração das principais partes de um documento a fim de utiliza-lo para o treinamento de um algoritmo. Por exemplo, um adjetivo pode ser um importante indicador de opinião, logo, eles são as principais partes de um dircurso a serem analisados [2]. Em [21], umas das tarefas no pré-processamento de tweets consiste em usar

um marcador de POS, utilizado para marcar adjetivos, verbos e advérbios. 3) Palavras que expressam sentimento Nessa técnica, são utilizadas palavras que expressam um sentimento positivo ou negativo. Em [22] eles propõem um modelo probabilístico que aprende a distribuição de uma palavra baseado em um conjunto de palavras-chave prédeterminadas que indiquem um sentimento. 4) Dependência Sintática Essa técnica usa relações sintáticas entre palavras, extraindo as palavras mais frequentes e palavras dependentes, criando um subárvore. Em [23] essa técnica foi utilizada para extração de característica para treinamento de SVM. III. TRABALHOS RELACIONADOS Muitos dos trabalhos existentes na área de análise de sentimentos têm como principal objetivo avaliar o desempenho de um ou mais algoritmos de aprendizado. São utilizadas bases de dados construídas para esse fim e/ou é realizado um estudo sobre o melhor algoritmo e a melhor técnica de representação de características. Dentre os principais objetivos nesses estudos está a classificação em relação à polaridade do sentimento em uma opinião (negativo ou positivo; bom ou ruim; recomendado ou não recomendado). Pang et al. [9] avaliam o desempenho de técnicas de aprendizado de máquina em relação a bases criadas por humanos e com a categorização baseada em tópicos, com o intuito de determinar se uma revisão é positiva ou negativa. Os autores mostram que os algoritmos são melhores em relação a humanos, mas seu desempenho não é melhor do que tradicionais métodos de categorização baseado em tópicos (classificação por assunto). Também, utilizam uma base de dados de revisões de filmes e pedem para que dois estudantes criem uma seleção de palavras que indiquem a positividade ou negatividade de uma revisão. Baseado nessa lista, eles criam novos vetores de palavras que serão utilizadas pelos algoritmos Naive Bayes, SVM e Máxima Entropia. Mostram que o desempenho foi melhor do que as bases formadas por humanos, mas em relação à acurácia de 90% da categorização baseada em tópicos, nenhum dos algoritmos, mesmo quando combinados com bigramas, POS ou posição consegue atingir tal desempenho. O melhor classificador foi o SVM, enquanto a presença unigrama mostrou-se mais efetiva em relação às características. Kang et al [10] propõem um novo método para a análise de sentimentos de revisões de restaurantes e apresentam uma melhoria no algoritmo Naive Bayes. Eles combinam técnicas de unigramas e bigramas (que incluem palavras negativas e advérbios intensivos) com o algoritmo SVM, o Naive Bayes e uma melhoria do Naive Bayes proposta pelos autores. Mostram que o Naive Bayes proposto, quando implementado usando bigramas e unigramas, diminui a distância entre a acurácia positiva e a acurácia negativa para 3.6% comparada ao Naive Bayes original e em até 28% em relação ao SVM para revisões de restaurantes.

Xia et al. [14] fazem um estudo sobre a efetividade do agrupamento de técnicas para tarefas de classificação de sentimento, focando no agrupamento de conjuntos de características e algoritmos de classificação. Eles projetam dois esquemas utilizando POS e dependência sintática e, para cada esquema, utilizam NB, SVM e MaxEnt para a classificação, utilizando a base de dados de filmes disponíveis em Cornell1 e o Multi-Domain Sentiment Dataset2 com revisões de produtos da Amazon. Tan e Zhang [18] é um dos raros trabalhos que apresentam um estudo sobre análise de sentimentos que não na língua inglesa, mas sim na chineses. Os autores utilizam quatro métodos de TECs (Informação Mútua, IG, DF e CHI) e cinco algoritmos de aprendizado de máquina (classificador centroide, kNN, Naive Bayes, Winnow e o SVM) em uma base de dados que contém opiniões sobre três domínios: educação, filmes e eletrodomésticos. O melhor método de seleção de característica é o Ganho de Informação, que atinge uma média de 88.6% de acurácia. Em relação aos algoritmos de aprendizado, o SVM produz a melhor acurácia: 86.8%. Também, os autores treinaram uma SVM em um domínio de eletrodomésticos e utilizaram a mesma SVM em um domínio de educação. Os autores surpreendentemente obtiveram 89.92% de acurácia para a SVM treinada, ilustrando a possibilidade de uso de modelos treinados em um domínio distinto de outra aplicação. Matsumoto et al. [23] analisam o desempenho do SVM para descobrir a polaridade de revisões de filmes em dois conjuntos de dados. Os autores extraem unigramas, bigramas, frequentes subsequências de palavras e subávores dependentes, e usam tais características para treinamento de um classificador SVM. Entre os vários testes, eles atingem 88.3% de acurácia para a primeira base de dados utilizando bigramas, unigramas e árvores de dependência, e 93.7% para o segundo conjunto, utilizando o SVM com bigramas, unigramas, palavras subsequentes e árvores de dependência. Paltoglou and Thelwall [24] mostram que funções de peso adaptadas da Recuperação de Informação (RI) baseadas no cálculo da tf.idf [25] e adaptada para uma configuração particular da análise de sentimentos pode aumentar significativamente o desempenho da classificação. Os autores mostram que uma SVM adaptada com essas funções de peso pode atingir até 96% de acurácia. Esse resultado pode ser considerado o melhor obtido utilizando um algoritmo de aprendizado dentre os resultados reportados neste trabalho. Sharma e Dey [19] exploram cinco métodos de seleção de características em mineração de dados e sete algoritmos de aprendizado de máquina para análise de sentimento em um conjunto de revisões on-line de filmes. Entre os melhores resultados, o método Gain Ratio (GR), uma variação de IG, é o que apresenta os melhores resultados. Já em relação aos algoritmos de aprendizado, o SVM possui a

1

Disponível em http://www.cs.cornell.edu/people/pabo/movie-reviewdata/. 2 Disponível em http://www.cs.jhu.edu/~mdredze/datasets/sentiment/

melhor média de desempenho, considerando as cinco estratégias de seleção, mas o melhor resultado é apresentado pelo Naive Bayes atingindo 90,9% com GR. Analisando dados do Twitter, Pak e Paroubek [17] coletaram micro-textos e os separaram em três classes: sentimento positivo, sentimento negativo e textos objetivos. Esses tweets foram buscados a partir de emoticons definidos como “felizes” ou “tristes”. As TECs utilizadas para o treinamento foram n-gramas, extraindo as palavras mais frequentes nos tweets. Entretanto, para o treinamento do classificador utilizado (Naive Bayes), eles utilizaram, além de n-gramas, marcadores POS. Como resultado final, eles demonstram que o melhor resultado foi utilizando bigramas, com acurácia chegando a 85%. Como pode ser observado, muitas das aplicações exploram novas configurações e novos meios para melhorar o desempenho dos algoritmos de aprendizado. Xia et al. [10] exploram métodos agrupados: regras fixas e métodos treinados a fim de melhorar o desempenho dos algoritmos de aprendizado. Sharma and Dey [19] fazem um estudo sobre vários métodos de seleção de características e algoritmos de aprendizado. Paltoglou and Thelwall [24] utilizam uma variação do DF e atingem acurácia superior a 95%.

TABELA I. Técnicas de Extração de Característica (TECs)

Unigramas ou n-gramas

POS

IG

DF

CHI

Na Tabela I é apresentada uma relação dos trabalhos previamente descritos, em função dos algoritmos de aprendizado utilizados juntamente às TECs utilizadas. Pode ser observado que alguns trabalhos utilizam diversos algoritmos de aprendizado, combinados com diversas TECs, mostrando que em muitos trabalhos houve algum tipo de comparação a fim de obter o melhor algoritmo para o(s) domínio(s) em estudo. Entre as principais TECs destacamse as que analisam termos e sua frequência em uma revisão. Entre as principais formas de analisar um termo estão DF, IG, CHI, unigramas e n-gramas. Em alguns trabalhos pode-se notar também que os unigramas e n-gramas são usados juntamente com outra técnica. Por exemplo, em [17] são usados n-gramas para representar palavras que são obtidas através da análise da frequência de tais palavras chaves, além de marcadores POS. Em [9] são usados unigramas, bigramas, POS e adjetivos, considerando em alguns casos a frequência, e em outras a presença de uma palavra. Em [19] são testados cinco TECs e sete algoritmos de aprendizado. Entretanto, nossa pesquisa considera apenas os algoritmos e as TECs mais utilizados, desconsiderando algoritmos e técnicas que não mostraram bom desempenho em nenhuma situação.

RELAÇÃO ENTRE ALGORITMOS DE APRENDIZADO E ESTRATÉGIAS DE EXTRAÇÃO DE CARACTERÍSTICAS Algoritmos de Aprendizado Supervisionado para Classificação Naive Bayes

SVM

Árvores de Decisão

MaxEnt

kNN

Pang et a. 2002[9]; Beineke et al 2004[20]; Go et al. 2009[26]; Pak and Paroubek 2010[17]; Kang et al. 2011[10]; Ortigosa et al. 2014[8]. Pang et al. 2002[9]; Go et al. 2009[26]; Pak and Paroubek 2010[17]; Xia et al., 2011[14]. Mak et al 2003[27]; Tan and Zhang 2008[18]; Sharma and Dey 2012[19]. Pang et al. 2002[9]; Mak et al 2003[27]; Tan and Zhang 2008[18]; Pak and Paroubek 2010[17]; Sharma and Dey 2012[19]. Tan and Zhang 2008[18]; Sharma and Dey 2012[19].

Pang et al. 2002[9]; Go et al. 2009[26]; Paltoglou and Thelwall, 2010[24]; Kang et al. 2011[10]; Ortigosa et al. 2014[8].

Ortigosa et al. 2014[8].

Pang et al. 2002[9]; Go et al. 2009[26].

Sharma and Dey 2012[19].

Pang et al. 2002[9]; Go et al. 2009[26]; Xia et al., 2011[14].

-

Pang et al. 2002[9]; Go et al. 2009[26]; Xia et al., 2011[14].

-

Tan and Zhang 2008[18]; Sharma and Dey 2012[19].

Mak et al 2003[27]; Sharma and Dey 2012[19].

Sharma and Dey 2012[19].

Mak et al 2003[27]; Tan and Zhang 2008[18].

Pang et al. 2002[9]; Tan and Zhang 2008[18]; Paltoglou and Thelwall, 2010[24]; Sharma and Dey 2012[19].

Mak et al 2003[27]; Sharma and Dey 2012[19].

Pang et al. 2002[9]; Sharma and Dey 2012[19].

Mak et al 2003[27]; Tan and Zhang 2008[18].

Sharma and Dey 2012[19].

Sharma and Dey 2012[19].

Tan and Zhang 2008[18].

-

-

-

Xia et al., 2011[14].

-

-

Palavras que expressam sentimento

Kang et al. 2011[10]

Dependência sintática

Xia et al., 2011[14].

Tan and Zhang 2008[18]; Sharma and Dey 2012[19]. Mullen and Collier 2004[28]; Kang et al. 2011[10]; Chen et al. 2006[29]; Matsumoto et al. 2005[22]; Chen et al. 2006[29]; Xia et al., 2011[14].

IV.

APLICAÇÕES TÍPICAS

Além das pesquisas voltadas para a comparação entre técnicas de aprendizado e seleção de características, pode-se encontrar trabalhos que, a partir do uso das mesmas, possuem uma aplicação final, seja em tempo real ou não. Nesta seção são mostrados alguns trabalhos existentes. A. Summarização Como pode ser observado na seção anterior, os principais trabalhos encontrados visam a classificação da polaridade de uma opinião ou documento. Beineke et al. [20] introduzem o resumo do sentimento, que captura a ideia essencial de uma opinião sobre algo. Para isso, as características extraídas são consideradas como a ideia essencial de cada opinião. Entre elas estão a posição dentro de um parágrafo, localização no documento e uma palavra escolhida. Elas são utilizadas para ajustar o Naive Bayes e regularizar modelos de regressão para a criação de resumos. Entre os problemas descritos estão a presença de mais de uma parte que tenha a opinião geral, e modelos que usam apenas a localização tendem a selecionar somente a sentença final do documento. Entretanto, devido a baixos resultados, eles concluem que as características citadas anteriormente (posição e uma palavra) com técnicas de classificação (Naive Bayes e regressão) são insuficientes para criar corretamente um resumo. Chen et al. [29] criam uma análise visual de opiniões positivas e negativas do livro “The Da Vinci Code”. Eles utilizam uma ferramenta visual, o TermWatch, para construir uma rede multicamada de termos baseada em associações sintáticas, semânticas e estatísticas, como pode ser visto na Fig. 1. A fim de avaliar os termos que foram selecionados anteriormente, eles utilizam um modelo preditivo baseado no SVM. Como característica para o treinamento, um conjunto de revisões positivas e negativas é utilizado. Neste caso, uma revisão é decomposta em três componentes que refletem a presença de termos positivos, negativos e comuns em ambas as categorias. A acurácia do SVM em classificar revisões como positivas ou negativas é de 67.14%. Isso acontece devido à construção do modelo baseado em apenas 8.3% do conjunto de termos de entrada. B. Sistemas de Recomendação Sistemas de recomendação são umas das possíveis aplicações que podem derivar da análise de sentimentos, como em [1]. Eles têm como principal objetivo sugerir itens usando estatísticas ou técnicas de aprendizado. Entre as principais técnicas de recomendação estão a filtragem colaborativa e a baseada em conteúdo. Esta última, menos utilizada, pode ser baseada em características ou baseada em categorização de texto. Mak et al. [27] criam um sistema de recomendação web utilizando categorização textual de sinopses de filmes armazenadas no IMDB, selecionados do EachMovie database.

³http://twitrratr.com/ 4

http://www.sentiment140.com/

Fig.1 - Termos extraídos de revisões positivas baseados na relação sintática e semântica [28].

Primeiramente, eles adaptam as revisões a fim de serem utilizadas nos algoritmos, representando-as em vetores, retirando palavras que não possuem informação útil, utilizando valores para cada palavra restante e ranqueando as características do corpus resultante através de três TECs: IG, DF e Informação Mútua. Com essa primeira etapa finalizada, eles utilizam três algoritmos para construir um classificador para um usuário do sistema: kNN, Decisions Trees e o Naive Bayes. A performance final dos algoritmos gira em torno de 60 a 65%, com as árvores de decisão apresentando o melhor resultado, entretanto, a diferença entre os três é pouco significativa. C. Serviços e Educação Outras importantes áreas de aplicação de sistemas que utilizam análise de sentimentos são as de serviço e a educacional. Muitas companhias usam a análise de sentimentos para desenvolver estratégias de marketing e prever atitudes públicas, por exemplo. Em [8], os autores constroem um modelo para avaliar postagens no Facebook e, a partir da detecção do sentimento habitual do usuário, verificar mudanças emocionais. Para isso, implementam o SentBuk, onde empregam um modelo híbrido que utiliza análise léxica e algoritmos de aprendizagem de máquina. Essa informação é utilizada em sistemas e-learning a fim de recomendar atividades mais adequadas em relação ao humor do estudante em determinada época. Eles constroem um classificador léxico e, quando um grande número de sentenças for classificado, eles usam essas mensagens como entrada de treinamento para o algoritmo de aprendizado de máquina. Para realizar os testes eles utilizam os algoritmos J48, Naive-Bayes e SVM (radial e sigmoide), onde o melhor resultado foi utilizando o algoritmo SVM (sigmoide) com 83% de acurácia. A partir de um dataset retirado do Twitter, Go et al. [26] mostram que algoritmos de aprendizado de máquina podem atingir cerca de 80% de acurácia quando treinados com emoticons. Como característica de treinemanto eles usam um lista de palavras-chave positivas e negativas extraídas do Twittratr’s³, com unigramas e bigramas. Utilizando apenas unigramas eles atingiram 81.3%, 80.5%, and 82.2% para NB, MaxEnt e SVM, respectivamente. Para bigramas eles não atingiram uma boa acurácia, já que o espaço de

características fica muito vago. Utilizando ambos em conjunto, eles conseguiram melhoras nos algoritmos NB e MaxEnt, entretanto o SVM não apresentou melhoria no desempenho. Além destes testes, eles disponibilizam uma aplicação web, o sentiment140 4 , que pode ser usada por companhias ou indivíduos que queiram saber o sentimento dos usuários do Twitter sobre algo. V.

DESEMPENHO

Na Tabela 2 são resumidos os resultados dos trabalhos descritos, unindo os trabalhos descritos na Seção III com os artigos apresentados de aplicações na Seção IV. São descritas a área de aplicação, as características usadas, os algoritmos e os resultados finais dos trabalhos. Deve ser observado que dois trabalhos apresentam resultados em dois diferentes domínios. O melhor resultado foi o do trabalho [24], com a SVM apresentando 96% de acurácia. Outros resultados superaram a marca de 90% de desempenho como em [23], [18] e [19]. A maioria dos trabalhos descritos apresenta uma acurácia superior a 80%, o que pode ser visto TABELA 2. Autores

como um resultado satisfatório. Outro detalhe é a pouca variação no que diz respeito ao domínio empregado, onde muitos dos trabalhos utilizam revisões de filmes para desenvolver um algoritmo. Em relação aos domínios, o resultado dos algoritmos se torna sensível ao contexto, como pode ser notado em [28] e [14]. Além disso, em uma mesma área, a utilização bases de dados diferentes pode apresentar resultados diferentes, como visto em [24]. Já em relação às TECs utilizadas, unigramas e bigramas são as que apresentam os melhores resultados. Outra característica que exibe bons resultados é a IG, utilizada por [18], [24] e [19]. Uma caractereística que se mostra interessante é a utilização de funções para a suavização, como feito por [24], que apresentou o melhor resultado até o momento. Em relação aos algoritmos de aprendizado de máquina, SVM, Naive Bayes e Máxima Entropia são os que apresentam o melhor resultado. Destaque principalmente

RESULTADOS DAS PESQUISAS COM APRENDIZADO DE MÁQUINA E ANÁLISE DE SENTIMENTOS Domínio

Seleção de Características

Algoritmos

Acurácia (%)

Pang et al. 2002[9]

Revisões de filmes

POS, unigramas, bigramas, posição, adjetivos

NB, MaxEnt e SVM

82.9 (SVM + unigramas)

Mak et al 2003[27]

Revisões de filmes

IG e DF

Decision Tree, kNN e NB

65 (DT + DF)

Mullen and Collier 2004[28]

Revisões de filmes e discos

Unigramas e modelos orientação semântica: Lemmas, Osgood and Turney

SVM

Filmes – 86 (SVM + Turney e Lemmas) Discos – 89 (SVM + PMI/Osgood + Lemmas)

Beineke et al 2004[20]

Revisão de filmes

Posição

NB e Regressão

25 (Regressão + posição/tipo)ª

Matsumoto et al. 2005[22]

Revisão de filmes

Unigramas, bigramas, frequentes subsequências de palavras e subárvores dependentes

SVM

93.7 (SVM + unigramas + bigramas, frequentes subsequências de palavras

Chen et al. 2006[29]

Opiniões do livro “The Da Vinci Code”

Regras sintáticas, semânticas e estatísticas

SVM

67.14 (SVM + regras sintáticas)

Tan and Zhang 2008[18]

Opiniões sobre educação, filmes e eletrodomésticos

IG, DF and CHI

Classificador centroide, kNN, NB, Winnow e o SVM

90.6 (SVM + IG)

Go et al. 2009[26]

Tweets

Palavras com sentimento, bigramas and unigramas

NB, MaxEnt e SVM

83.0 (MaxEnt com unigramas + bigramas)

Paltoglou and Thelwall 2010[24]

Revisão de filmes

Unigramas e DF – variantes do tfidf

SVM

96.9 (SVM + BM25 tf + variante BM25 delta idf)ᵇ

Pak and Paroubek 2010[17]

Tweets

Frequência , n-gramas and POS

NB

60-80 (NB + bigramas)

Unigramas and bigramas

NB, SVM e NB adaptado

81.2 (NB adaptado + unigramas + brigramas)

POS and dependência sintática (Word Relation - WR)

NB, SVM e MaxEnt

Filme – 86.85 (MaxEnt + POS) Cozinha – 88.65 (NB + WR)

Kang et al. 2011[10] Xia et al., 2011[14]

Revisões de restaurantes Opiniões sobre livros, eletrônicos, DVD’s e artigos de cozinha

Sharma and Dey 2012[19]

Revisão de filmes

IG, GR, MI, CHI e Belief

Ortigosa et al. 2014[8]

Posts no Facebook

Classificação léxica

NB, SVM, MaxEnt, DT, kNN, Adaboost e Winnow J48, NB e SVM

90.9 (NB + GR) 83.27 (SVM + classificador léxico)

ªAutores concluem que as características utilizadas não são boas, por isso o baixo desempenho. ᵇMelhor resultado.

para os dois primeiros que, entre os trabalhos citados, são os que apresentam os melhores desempenhos. Árvores de decisão e a Regressão Logística também apresentaram boas acurácias nos poucos trabalhos em que foram utilizadas. VI.

CONCLUSÕES

A utilização de algoritmos de aprendizado de máquina supervisionados apresentam melhores resultados que os não supervisionados [4]. Para isso, é fundamental que haja uma escolha correta de características [2]. Neste trabalho são apresentadas, resumidamente, as principais pesquisas existentes na literatura, descrevendo os algoritmos empregados, bem como quais Técnicas de Extração de Características (TECs) para o treinamento foram utilizadas. São exibidos os resultados das melhores configurações e outras estratégias que melhoram o desempenho dos algoritmos de aprendizado. Outra questão importante em relação aos algoritmos supervisionados é a necessidade de treinamento. Dependendo dos dados disponíveis, isso pode ser decisivo no desempenho final do algoritmo. Isso porque, conforme observados nos trabalhos citados acima e segundo [4], tais algoritmos são dependentes do conjunto de treinamento. Uma área que pode ser bem explorada é a construção de sistemas que possam utilizar, em tempo real, os resultados obtidos por esses algoritmos, como em [26]. Poucos trabalhos práticos foram apresentados, já que a maioria dos trabalhos visa analisar dados a fim de encontrar os melhores algoritmos e estratégias de seleção, deixando de priorizar a aplicação em tempo real. Trabalhos interessantes em sistemas de recomendação [27] e educação [8] são bons exemplos da utilização em tempo real das técnicas e algoritmos apresentados em mineração de opiniões para análise de sentimentos. BIBLIOGRAFIA [1]

[2] [3]

[4]

[5]

[6]

[7]

[8]

E. Cambria, B Schuller, Y. Xia, and C. Havasi, “New avenues in opinion mining and sentiment analysis.” IEEE Intelligent Systems 28.2,2013,pages 15-21. B. Liu, “Opinion mining and sentiment analysis.” Morgan and Claypool Publishers, Maio, 2012. B. Pang, and L. Lee, “Opinion Mining and Sentiment Analysis”. Foundations and Trends in Information Retrieval. Vol.2, No1-2. (2008). P. Chaovalit, and L. Zhou. “Movie review mining: A comparison between supervised and unsupervised classification approaches.” System Sciences, 2005. HICSS'05. Proceedings of the 38th Annual Hawaii International Conference on. IEEE, 2005. P. Turney, and M Littman, “Measuring praise and criticism: Inference of semantic orientation from association.” ACM Transactions on Information Systems (TOIS), 2003. P. Turney, “Thumbs up or thumbs down?: semantic orientation applied to unsupervised classification of reviews.” Proceedings of the 40th annual meeting on association for computational linguistics. Association for Computational Linguistics, 2002. J. Carvalho, A. Prado, A. and Plastino, “A Statistical and Evolutionary Approach to Sentiment Analysis.” Web Intelligence (WI) and Intelligent Agent Technologies (IAT), 2014 IEEE/WIC/ACM International Joint Conferences on. Vol. 2. IEEE, 2014. A. Ortigosa, J. M. Martín, and R. M. Carro, “Sentiment analysis in Facebook and its application to e-learning.” Computers in Human Behavior 31 (2014): 527-541.

[9]

[10]

[11] [12]

[13] [14]

[15]

[16]

[17] [18] [19]

[20]

[21] [22] [23]

[24]

[25] [26] [27]

[28] [29]

B. Pang, L. Lee, and S. Vaithyanathan, “Thumbs up Sentiment Classification using Machine Learning Techniques”. Proceedings of the Conference on Empirical Methods in Natural Language Processing (EMNLP), Philadelphia, July 2002, pp. 79-86. Association for Computational Linguistics. H. Kang, J. Seong, and H. Dongil. “Senti-lexicon and improved Naïve Bayes algorithms for sentiment analysis of restaurant reviews.” Expert Systems with Applications 39.5 (2012): 6000-6010. P. Harrington, “Machine learning in action”, Manning Publications Co., 2012. T. Joachims, “Text categorization with support vector machines: learning with many relevant features.” In Proceedings of the ECML’98, 1998, 137–2. T. M. Mitchell, “Machine Learning”. WCB/McGraw-Hill, Boston, 1997. R. Xia, C. Zong, and S. Li, “Ensemble of feature sets and classification algorithms for sentiment classification.” Information Sciences, 2011. K. Dave, S. Lawrence, and D. M. Penncock, “Mining the peanut gallery: Opinion extraction and semantic classification of product reviews.” Proceedings of the 12th international conference on World Wide Web. ACM, 2003. H. Cui, V. Mittal and M. Datar, “Comparative experiments on sentiment classification for online product reviews.” AAAI. Vol. 6. 2006. A. Pak, and P. Paroubek, “Twitter as a Corpus for Sentiment Analysis and Opinion Mining.” LREC. Vol. 10. 2010. S. Tan, and J. Zhang, “An empirical study of sentiment analysis for chinese documents.” Expert Systems with Applications, 2008. A. Sharma, and S. Dey, “A Comparative Study of Feature Selection and Machine Learning Techniques fo Sentiment Analysis”. RACS’S – Texas, USA. October, 2012. P. Beineke, T. Hastie, C. Manning, and S. Vaithyanathan, “Exploring sentiment summarization.” Proceedings of the AAAI spring symposium on exploring attitude and affect in text: theories and applications. Vol. 39. 2004. A. Kumar, and T. M. Sebastian, “Sentiment analysis on twitter.” IJCSI International Journal of Computer Science Issues, 2012. A. Davies, and Z. Ghahramani, “Language-independent Bayesian sentiment mining of Twitter.” 5th SNA-KDD Workshop. 2011. S. Matsumoto, H Takamura, and M. Okumura, “Sentiment classification using word sub-sequences and dependency sub-trees.” Advances in Knowledge Discovery and Data Mining. Springer Berlin Heidelberg, 2005. 301-311. G. Paltoglou, and M. Thelwall, “A study of information retrieval weighting schemes for sentiment analysis.” Proceedings of the 48th Annual Meeting of the Association for Computational Linguistics. Association for Computational Linguistics, 2010. Martineau, Justin, and Finin, Tim. "Delta TFIDF: An Improved Feature Space for Sentiment Analysis." ICWSM. 2009. A. Go, R. Bhayani, and L. Huang, “Twitter sentiment classification using distant supervision.” CS224N Project Report, Stanford, 2009. H. Mak, I. Koprinska, and J. Poon, “Intimate: A web-based movie recommender using text categorization.” Web Intelligence, 2003. WI 2003. Proceedings. IEEE/WIC International Conference on. IEEE, 2003. T. Mullen, and N. Collier, “Sentiment Analysis using Support Vector Machines with Diverse Information Sources.” EMNLP. Vol. 4. 2004. C. Chen, F. Ibekwe-Sanjuan, E. Sanjuan and, C. Weaver, “Visual analysis of conflicting opinions”. In Visual Analytics Science And Technology, 2006 IEEE Symposium On (pp. 59-66). IEEE

Lihat lebih banyak...

Comentários

Copyright © 2017 DADOSPDF Inc.