Avaliação do perfil de acesso e navegação de usuários em ambientes web de compartilhamento de vídeos

August 27, 2017 | Autor: Adriano Pereira | Categoria: Latin America, Perforation, Interactive Monitoring System, Service Provider
Share Embed


Descrição do Produto

Avaliação do Perfil de Acesso e Navegação de Usuários em Ambientes Web de Compartilhamento de Vídeos Fabrício Benevenuto

Adriano Pereira

Tiago Rodrigues

UFMG, Belo Horizonte/Brasil

UFMG, Belo Horizonte/Brasil

UFMG, Belo Horizonte/Brasil

UFMG, Belo Horizonte/Brasil

UFMG, Belo Horizonte/Brasil

UFMG, Belo Horizonte/Brasil

[email protected] Virgílio Almeida [email protected]

[email protected] Jussara Almeida [email protected]

ABSTRACT Recently, it has been observed an increasing popularization of video sharing environments. Part of such success is due to the change on the user perspective from content consumer to content creator, basic fundament of the Web 2.0. Thus, video service providers are dealing with different challenges such as, content storage, performance and scalability of servers, personalization, and service differentiation. In this context, it is crucial to understand the characteristics of requests that arrive on these servers, and the access pattern of users on these interactive systems. This work approaches these aspects. Through the analysis of a video service workload from UOL, the largest content provider of Latin America, we present a complete characterization of user sessions, their requests to the server, and their navigation profile. Such analyses are important not only to generate synthetic workload, but also to project and create new infra-structures to video sharing systems. Our results show that there are different profiles of users and also provide a better understanding of the user access pattern to video sharing systems.

RESUMO Recentemente, tem se observado uma crescente popularização das redes sociais de compartilhamento de vídeos. Em parte, isso se deve à mudança de perspectiva no papel do usuário, de espectador a criador de conteúdo, fundamento básico da Web 2.0. Consequentemente, provedores desse tipo de serviço vêm lidando com diferentes desafios, tais como armazenamento de conteúdo, desempenho e escalabilidade dos servidores, personalização e diferenciação de serviços para os usuários. Neste contexto, é fundamental entender as características das requisições que chegam a esses servidores e o padrão de acesso dos usuários desses sistemas interativos. Este trabalho aborda esses aspectos. Através da análise da carga de trabalho do serviço de vídeos do UOL, maior provedor de conteúdo da América Latina, apresentamos uma caracterização de sessões de usuários, de suas requisições ao servidor e do perfil desses usuários. Tais análises são importantes não só para a geração de carga de trabalho sintética, mas também para o projeto e criação de novas infra-estruturas para serviços de compartilhamento de vídeos. Nossos resultados mostram que há diferentes perfis de usuários e provêem um melhor entendimento do padrão de acesso de usuários a sistemas de compartilhamento de vídeos.

Categories and Subject Descriptors H.3.5 [Online Information Services]: Web-based services

General Terms Experimentation, Measurement

[email protected] Marcos Gonçalves

[email protected]

Keywords Video sharing, Web 2.0, user navigation profile, user session

1. INTRODUÇÃO Recentemente, redes sociais de compartilhamento de vídeos vêm crescendo e ganhando popularidade rapidamente. Assistir e publicar vídeos na Internet vem se tornando uma rotina comum na vida dos usuários da Web. De acordo com a empresa comScore, em maio de 2008, 74% de toda a audiência da Internet norte americana assistiu a vídeos online, correspondendo a cerca de 12 bilhões de vídeos exibidos somente em um mês [2]. Parte desse grande crescimento está associado à mudança de perspectiva no papel do usuário, de simples espectador para um ativo criador de conteúdo. Além disso, esses ambientes proporcionam diversos tipos de interações entre usuários e vídeos, tais como relações de amizade, avaliações dos vídeos e publicações de comentários. Associada a essa nova perspectiva da Web, também conhecida como Web 2.0, existem inúmeros novos desafios aos provedores desses serviços, tais como armazenamento de conteúdo, desempenho e escalabilidade dos servidores, personalização e diferenciação de serviços para os usuários, detecção de conteúdo ilegal, etc. Nesse contexto, é de fundamental importância entender as características das requisições e o padrão de acesso dos usuários que utilizam tais serviços. Apesar de haver alguns esforços na tentativa de entender características de sistemas de compartilhamento de vídeos [10, 14, 6], nenhum trabalho provê tal entendimento do ponto de vista do servidor. Este trabalho visa preencher essa lacuna. Através da análise da carga de trabalho do serviço de vídeos do Universo OnLine (UOL) [3], maior provedor de conteúdo da América Latina [1], apresentamos uma caracterização da carga de trabalho de sessões e requisições ao servidor. Além disso, realizamos uma análise do perfil de navegação dos usuários desse serviço. Tais análises são importantes por dois motivos. O primeiro está relacionado à necessidade de entendimento e criação de modelos que descrevem características da carga de trabalho que chega aos servidores de compartilhamento de vídeos, o que é essencial para o planejamento da capacidade de tais servidores e para geração de carga sintética. O segundo está relacionado ao entendimento do padrão de navegação dos usuários. Tal entendimento é importante não só para geração de carga sintética, mas também para a personalização de serviços de acordo com perfil de navegação usuário, para a criação de mecanismos de controle de qualidade de serviço (QoS) e melhoria da usabilidade do sistema. O restante do trabalho está organizado da seguinte forma. A seção 2 descreve trabalhos relacionados. A seção 3 apresenta esta-

tísticas sobre a carga de trabalho do serviço de vídeos do UOL. A seção 4 explica a caracterização das requisições e sessões dos usuários. Na seção 5, apresentamos uma análise do perfil de navegação dos usuários do sistema. Finalmente, a seção 6 oferece conclusões e direções para trabalhos futuros.

2. TRABALHOS RELACIONADOS Caracterização de carga é fundamental para o entendimento e aprimoramento de sistemas Web. Há vários estudos que apresentam caracterizações de carga de trabalho de diferentes tipos, tais como servidores Web [5], de comércio eletrônico [17, 21], de blogs [12], de vídeo sob demanda [11] e de vídeo ao vivo [23]. Dentre as várias contribuições desses trabalhos, destacamos a criação de valiosos modelos capazes de descrever a carga que chega nesses servidores, essenciais para a geração de carga sintética que, por sua vez, possibilita a realização de experimentação e simulação baseadas em distribuições realistas. Em particular, Costa et al. [11] analisaram as requisições de dois servidores de vídeos em um contexto educacional. Eles mostram que o tempo entre requisições segue uma distribuição Pareto e que a popularidade de objetos de multimídia pode ser modelada pela concatenação de duas distribuições do tipo Zipf. Diferentemente, em nosso trabalho, apresentamos uma caracterização da carga de um servidor de vídeos no qual os usuários criam e publicam seus próprios conteúdos. Não estamos cientes de nenhum outro trabalho que aborda este tipo de caracterização do ponto de vista do servidor. Complementar ao nosso esforço, existem vários trabalhos que caracterizam diferentes aspectos de sistemas de compartilhamento de vídeos gerados pelos usuários, especialmente do YouTube. Em [10], os autores analisam a distribuição de popularidade, evolução, e características dos vídeos do YouTube, além de avaliarem diferentes abordagens para a distribuição de vídeos, como caches e compartilhamento P2P. Gill et al. apresentam uma caracterização do tráfego do YouTube do ponto de vista do campus de uma universidade e compara suas propriedades com propriedades do tráfego da Web e de servidores de vídeos [14]. Em [15], os autores analisam as características das sessões dos usuários do YouTube, analisando as requisições que partem de uma universidade. Entretanto, os autores avaliam apenas aspectos como o tamanho e chegada de sessões, diferentemente do nosso trabalho, o qual investiga as diferentes ações dos usuários dentro de uma sessão. Em [25], os autores realizam simulações que mostram que cache de vídeos, tanto no cliente quanto no proxy, e distribuição P2P podem reduzir tráfego de rede e permitir acesso mais rápido a vídeos em sistemas de compartilhamento de vídeos. Com relação ao comportamento dos usuários nesses sistemas de compartilhamento de vídeos, a referência [6] mostra a existência de usuários maliciosos e oportunistas, enquanto as referências [8, 7] abordam o problema de identificar tais usuários. Diferentemente de todos esses esforços, nosso trabalho visa não só caracterizar e entender como as requisições chegam a um servidor de vídeos criados pelos usuários, mas também investigar e identificar o perfil dos usuários que acessam tais sistemas.

3. CARGA DE TRABALHO Em nosso estudo, analisamos uma carga de trabalho do serviço de vídeos do UOL [3], um provedor de conteúdo muito popular no Brasil [1]. Os logs correspondem a um período de quase um mês, de 12/12/2007 a 07/01/2008, contabilizando um total de 3.681.232 de requisições, vindas de mais de 1.127.537 diferentes IPs. Cada registro da carga de trabalho representa uma requisição enviada por um usuário ao serviço de vídeos. As seguintes informa-

ções estão disponíveis para cada requisição: máquina, data, requisição, status, tamanho, origem e agente. O campo máquina é o endereço IP anonimizado que gerou a requisição. O campo data é o momento em que a requisição foi recebida pelo servidor. O campo status mostra o código de resposta do protocolo HTTP para a requisição. O campo tamanho indica o tamanho da requisição em Bytes. O campo origem mostra a URL de onde se originou a requisição do visitante. Por exemplo, se um usuário estiver na página A de um sítio qualquer e acessar um elo que direciona para um vídeo B, o campo requisição conterá a requisição para o vídeo B e o campo origem conterá a página A. O último campo, agente, identifica o navegador e o sistema operacional utilizado. Os campos origem e agente podem estar em branco, visto que um usuário pode removê-los para aumentar sua privacidade. Além disso, o campo origem pode não ocorrer se o usuário digitar diretamente a URL no navegador. Grupo 1:Visualização 2:Usuário

3:Listas

4:Interações

5:Busca

6:Outros

Tipo de Requisição Visualizações de vídeos Listagem de vídeos de certo usuário Listagem de vídeos de certo usuário com certa tag Listagem de "top"vídeos Listagem de relacionados de um vídeo Avaliações de vídeos Postagem de comentário para vídeo Adição de vídeo como favorito Busca Listagem de vídeos com certa tag Página principal Requisições de erro ou mal formatadas

#Requisições 2.758.883 218.335

Porcentagem 74,94 % 5,93%

75.583

2,05%

55.307 32.838

1,50% 0,89 %

22.038 14.131

0,60% 0,38%

10.774 1.625 421.700

0,29% 0,04% 11,46%

2.679 67.339

0,07% 1,82%

Tabela 1: Tipos de Requisições Em nossa carga de trabalho, existem vários tipos de requisições, que organizamos em seis grupos, conforme a tabela 1. As requisições do grupo 1 são de visualização de vídeos. No grupo 2, temos requisições de listagem e navegação no perfil de um determinado usuário. O terceiro grupo reúne as requisições de usuários para as listas de vídeos relacionados a outro vídeo e para listas de top vídeos. No grupo 4 estão todas as requisições relacionadas a avaliação ou interação do usuário com um vídeo. O grupo 5 corresponde a requisições de busca por determinado assunto através da máquina de busca do sistema ou através da escolha de uma tag a partir de uma lista de tags fornecidas pelo sistema. Ao selecionar uma tag dessa lista, o sistema exibe uma lista de vídeos que possuem a tag escolhida. Requisições de erro foram identificadas através dos números do campo status, segundo as definições apresentadas em [13]. Para as análises das próximas seções essas requisições foram desconsideradas. Com exceção do grupo 6, todos os grupos da tabela 1 são utilizados na análise de perfil de navegação dos usuários na seção 5.

4. CARACTERIZAÇÃO DA CARGA DE TRABALHO Nesta seção, apresentamos uma caracterização da carga de trabalho do serviço de vídeos do UOL sob diferentes perspectivas, modelando vários aspectos e distribuições.

4.1 Popularidade dos Objetos Primeiramente avaliamos a popularidade dos objetos, com o intuito de verificar se a popularidade de vídeos e tags segue uma

10

6

10

5

10

4

10

3

10

2

10

1

10

0

de compartilhamento de vídeos requer uma análise específica dos tempos entre requisições a fim de medir a inatividade do usuário, uma vez que a maioria das sessões não apresenta um registro explícito de operações de login e logout. Portanto, é necessário realizar uma análise para identificar um valor limite de tempo entre requisições para que sejam consideradas como sendo de uma mesma sessão. Assim, duas requisições consecutivas são consideradas da mesma sessão se o tempo entre elas é menor do que esse limite, denominado tempo de expiração da sessão.

2

α = 1.156, R = 0.979

10

0

10

1

2

3

10 10 10 Ranking dos Vídeos

4

10

5

Numero de Sessões (x 10000)

# de Visualizações

lei de potência. Leis de potência estabelecem a seguinte relação: P (En ) ∝ n−α , onde P (En ) é a probabilidade de referência ao n-ésimo elemento mais popular. Para verificar a acurácia dos modelos propostos, medimos o fator R2 da regressão linear [22] para cada distribuição analisada. Em todos os modelos apresentados no trabalho, os valores de R2 estão acima de 0,97, sendo quando o valor de R2 é igual a 1 significa que não há diferenças entre o modelo e a carga de trabalho real.

240

220

200

180

160 0

(a) Ranking do Número de Visualizações

10 20 30 40 50 60 70 80 90 100 Tempo de Expiração da Sessão (min)

5

10

4

10

3

10

2

10

1

10

0

2

α = 0.863, R = 0.983

10

0

10

1

2

3

10 10 Ranking de Tags

10

4

10

5

(b) Ranking do Número de Acessos a Tags

P(Número de Sessões/Usuário T)

(a) Número de Requisições em intervalos de 1h 0

10

−1

10

−2

10

−3

10

−4

10

−5

10

−6

10

0

1

2

10 10 10 Tempo entre Requisições T (segundos)

(b) Intervalos de tempo entre requisições - CCDF 0

(b) Ranking Usuários x Número de Sessões

P(Tempo entre Sessões > T)

10

−1

10

−2

10

−3

10

−4

10

−5

10

−6

10

0

10

1

2

3

10 10 10 Tempo entre Sessões T (segundos)

Figura 3: Nível de Atividade dos Usuários

(c) Intervalos de tempo entre sessões - CCDF

Em termos das sessões criadas no servidor, a análise dos dados mostrou que a função de distribuição exponencial é a que melhor modela esses dados. O ranking de sessões é melhor aproximado (com R2 = 0.997) por uma distribuição exponencial do tipo f (x) = αeβx , com α = 175, 2 e β = −0, 002681. Esse resultado enfatiza o comportamento de que poucos usuários possuem muitas sessões, enquanto muitos possuem poucas sessões.

Figura 4: Padrões Temporais do Acesso Para analisarmos a participação dos usuários visitantes do sistema, caracterizamos o intervalo de tempo entre chegadas de requisições e sessões ao sistema. Apresentamos nas figuras 4(b) e 4(c) a probabilidade acumulada complementar (CCDF) para os intervalos

de tempo entre requisições e sessões, respectivamente. Podemos notar que a probabilidade do intervalo de tempo entre requisições ser maior do que 5 segundos é menor do que 1%, sendo que 57% das requisições chegam ao servidor com intervalos menores do que 1 segundo. Da mesma forma, cerca de 96% dos intervalos entre sessões são menores do que 5 segundos. As duas distribuições são melhores aproximadas por uma distribuição exponencial do tipo f (x) = αeβx . Para a distribuição do tempo entre requisições obtivemos um α = 0, 424 e β = −1, 298 com R2 = 0.996, e para a distribuição do tempo entre sessões encontramos um α = 0, 5518 e β = −0, 7309 com R2 = 0.989.

4.5 Origem das Requisições e Sessões Domínio uol.com.br videos.uol.com.br .br outros

Porcentagem dos Acessos 50,46% 39,58% 7,26% 2,69%

Porcentagem das Sessões 75,71% 12,10% 7,89% 4,30%

Tabela 2: Origem das Requisições e das Sessões A seguir, analisamos a origem das requisições e dos usuários que acessam o sistema. Para investigar como usuários chegam ao sistema, analisamos a origem da primeira requisição de cada sessão. Cerca de 50% das sessões não possuem o campo origem para a primeira requisição e, por esse motivo, não foram utilizadas. Da mesma forma, 40% das requisições não possuem o campo de origem e não foram utilizadas. A tabela 2 mostra a origem das sessões e das requisições que chegam ao sistema. Podemos observar que grande parte das sessões e requisições acessam o sistema através do próprio UOL. Acreditamos que muitos usuários acessam o serviço de vídeos do UOL através de vídeos vinculados a reportagens ou outros serviços do UOL. Entretanto, uma parcela significativa das requisições vem do próprio serviço de vídeos (quase 40% das requisições), correspondendo a usuários que interagem com vídeos ou outros usuários do sistema. Apenas uma pequena parcela das requisições e sessões são oriundas de sítios externos.

5. MODELANDO PERFIS DE NAVEGAÇÃO DO USUÁRIO Para entendermos o padrão de navegação de usuários dentro de sessões, construímos um grafo probabilístico direcionado, onde os vértices representam os possíveis tipos de requisições dos usuários (ex., busca, visualização, etc.) e as arestas representam a probabilidade de navegação de um tipo de requisição para outra. Chamamos esse grafo de UBMG (User Behavior Model Graph). O UBMG é baseado no conceito de Customer Behavior Model Graph (CBMG) [17], uma forma de representar o comportamento dos usuários em serviços de comércio eletrônico. Note que os vértices do UBMG correspondem aos grupos de requisições definidos na tabela 1. Os vértices inicial e final representam, respectivamente, as primeiras e as últimas requisições das sessões dos usuários. A figura 5 ilustra o UBMG típico, considerando todos os usuários de nossa carga de trabalho. Podemos notar que a grande maioria dos usuários iniciam suas sessões visualizando vídeos (85,6%), enquanto os demais visitam páginas de usuários ou realizam algum tipo de busca por conteúdo. Em seguida, existe uma tendência de visualizar novamente um vídeo ou mesmo encerrar a sessão. Visitas às páginas de informações dos usuários, acessos a listas de vídeos, busca e avaliação de conteúdo, são ações mais raras. Apesar de importante para determinar o padrão de navegação típico no sistema, o UBMG da figura 5 oferece apenas uma visão generalizada da navegação dos usuários. A seguir, propomos uma

forma de separar usuários em grupos de acordo com seus diferentes perfis de navegação. Inicialmente, calculamos o UBMG individual de cada usuário, considerando todas as suas sessões. Em seguida aplicamos uma técnica de mineração de dados, denominada agrupamento (clustering) [9], para identificar grupos com características similares baseadas em seus atributos. Como atributos de cada usuário, utilizamos as probabilidades das 35 possíveis arestas de seus respectivos UBMGs, que representam as transições válidas entre funcionalidades do sistema de compartilhamento de vídeo. Como algoritmo de clusterização adotamos o X-means [20], que é um eficiente algoritmo que estende o popular K-means [16]. Sua grande vantagem em relação ao K-means é que o X-means estima o melhor número de grupos k a partir do conjunto de dados a ser avaliado. Ele adota o conceito de centróide, que é um ponto imaginário no espaço n-dimensional que reúne as propriedades médias de um determinado grupo. Além disso, o X-means adota conceitos de distorção e BIC (Bayesian Information Criterion) para atribuição das amostras aos grupos [20]. A implementação utilizada está disponível na ferramenta Weka [24]. Essa análise indicou 15 grupos distintos como melhor escolha para nosso estudo de caso. Sessões com apenas 1 requisição foram desconsideradas por acrescentarem pouco a nossas análises, pois suas representações no UBMG só acrescentam arestas que envolvem ou o estado inicial ou o final. No total foram desconsiderando 779.384 sessões, restando 345.152 usuários com 348.153 sessões para nossas análises. A tabela 3 apresenta os grupos de usuários identificados a partir da mineração de dados de suas sessões típicas. Nela estão apresentados as transições iniciais e finais predominantes em cada grupo, a quantidade de usuários em cada grupo e as respectivas freqüências de ocorrência desses em cada grupo. Grupo 0 1 2 3 4 5 6 7 8 9 10 11 12 13 14

Estado Predominante Inicial Final 1 1 2 2e1 1 1 3 1e3 4 1e4 5 1 1 2e4 1 5 5 5 5 2e1 2e1 3e1 1 1 1 1 e outros 1e5 1e5 1e2 1 Total

Quantidade de Usuários 195.028 15.102 11.424 1.352 273 13211 28562 8427 9296 803 366 33137 3726 6722 20723 345.152

Frequência (%) 55,64 4,38 3,31 0,39 0,08 3,83 8,28 2,44 2,69 0,23 0,11 9,60 1,08 1,95 6,00 100,00

Tabela 3: Perfis de Sessões de Usuários - Grupos Os grupos mais freqüentes são os identificados como 0, 6, 11, 14, 1 e 5 em ordem de popularidade. Esses seis grupos correspondem a quase 88% dos usuários. Já era esperado, pela análise do UBMG geral que as requisições de visualização predominassem nos grupos, porém isso varia de acordo com o perfil. A seguir exibimos e analisamos os UBMGs dos principais grupos em ordem de popularidade. Arestas dos UBMGs com probabilidades menores que 1% não são exibidas nas figuras. A figura 6(a) apresenta o grafo de acesso às funcionalidades ou navegação do grupo de usuários do grupo 0, o mais freqüente de todos, com 55,64% dos usuários. Esse tipo de usuário sempre inicia sua sessão assistindo a um conteúdo multimídia. Após assistir ao conteúdo, 58,5% deles assistem a outros vídeos, os demais saem do sistema. É interessante notar que tais usuários não realizam busca

Figura 5: Grafo de Comportamento do Usuário pelo conteúdo ou acessam informações dos donos do conteúdo antes. Isso pode ser explicado pelo grande volume de requisições que são oriundas de publicação de elos para os próprios vídeos, conforme mostrado na lista de origem de requisições (ver tabela 1). A figura 6(b) mostra o perfil típico de navegação dos usuários do grupo 6. Similar ao grupo de usuários anterior, esse grupo também inicia sua sessão através da visualização de um vídeo, porém grande parte deles visita a página com informações do usuário dono do vídeo após ver o conteúdo (42,4%) ou avaliam o conteúdo (40,2%). Os demais vêem outros vídeos ou encerram sua sessão. A figura 6(c) mostra o perfil típico de navegação dos usuários do grupo 11. Esse grupo apresenta um comportamento inicial similar ao apresentado pelo grupo 0, porém a reincidência em visualizar outro vídeo é menor (apenas 30,8%) e um maior número deles encerra sua sessão. Entretanto, a diferença maior reside no fato de que existem acessos com baixa freqüência às demais funcionalidades, como página do usuário dono do conteúdo, avaliação do conteúdo do vídeo e listagem de vídeos por tags ou lista de top vídeos. Assim, podemos classificá-los como uma diversificação do comportamento apresentado pelo grupo 0. Esse grupo é o terceiro mais freqüente, englobando 9,6% dos usuários. A figura 6(d) ilustra o perfil típico de acesso às funcionalidades de compartilhamento de vídeo do grupo 14. Esse perfil de usuários apresenta uma diversificação na forma como inicia suas sessões. Alguns começam visualizando conteúdo (55,8%), outros acessam a página de informações de um determinado usuário (43,6%), indicando algum tipo de relacionamento entre ambos. Após acessar a página do usuário, quase em sua totalidade ocorre visualização de algum vídeo. Existe ainda em pouca quantidade requisições de avaliação de conteúdo (2,2%) e busca (1,3%) após ver o vídeo.

A figura 6(e) mostra o perfil típico de navegação dos usuários do grupo 1. Tais usuários demonstram um alto grau de relacionamento com outros usuários da rede, uma vez que iniciam suas sessões em 95,2% das vezes visitando a página de algum usuário, bem como reincidem nas requisições de página de informações de usuário, vendo listagem de vídeos deste, por exemplo. Esse perfil difere completamente dos outros mais populares já apresentados. A figura 6(f) ilustra o perfil típico de acesso às funcionalidades de compartilhamento de vídeo do grupo 5. Esse tipo de usuário inicia suas sessões realizando quase sempre uma busca por conteúdo (97,6%) antes de visualizar o vídeo. É interessante notar que suas sessões se resumem a busca e visualização, não sendo identificadas requisições de listagem e nem de avaliação de conteúdo. Como pode ser visto nas explicações dos perfis de usuário identificados, conseguimos isolar diferentes perfis, mostrando a riqueza de comportamentos dos usuários de redes de compartilhamento de vídeo, bem como mostrando que o UBMG geral pouco representa da realidade dos perfis de usuários existentes nessa aplicação real da Web 2.0. Existem ainda outros nove diferentes perfis encontrados, porém que ocorrem com menor freqüência. Em particular, podemos destacar o grupo 4, que inicia suas sessões predominantemente com acessos às funcionalidades de avaliação de conteúdo. Tal comportamento sugere algum tipo de atividade oportunista. A análise do UBMG pode ser útil em vários sentidos. Por exemplo, podemos notar que existe vários reincidências (self-loops) com probabilidade alta, o que possibilita realizar antecipação de conteúdo nesse tipo de contexto. Se, ao assistir um vídeo, há uma grande chance do usuário assistir outro, existe um potencial para pré-carregar esse conteúdo.

(a) Grupo 0

(b) Grupo 6

(c) Grupo 11

(d) Grupo 14

(e) Grupo 1

(f) Grupo 5 Figura 6: Grafos do Comportamento do Usuário

6. CONCLUSÃO Neste trabalho utilizamos uma carga de trabalho real e representativa para caracterizar os padrões de acesso a servidores de compartilhamento de vídeos e estudar os perfis dos usuários que acessam esse sistema. Como resultados, fornecemos modelos estatísticos para várias características de acesso, como popularidade dos vídeos, dos usuários e de tags, tempo entre chegada de requisições e sessões, etc. As análises apresentadas são inovadoras no que diz respeito a análise de um serviço de compartilhamento de vídeos sob o ponto de vista do servidor, e são úteis não só para a geração de carga sintética, mas também para o projeto e criação de novas infra-estruturas para esse tipo de serviço.

A seguir, sumarizamos as principais conclusões desta pesquisa. • As distribuições de popularidade de acesso a objetos do sistema (vídeos e tags) seguem distribuições de cauda longa. • Uma sessão de usuários típica de sistemas de compartilhamento de vídeos dura cerca de 40 minutos, correspondendo a um valor bem maior do que o obtido para sessões de sistemas tradicionais da Web. • Os rankings de atividade dos usuários em termos do número de requisições enviadas ao sistema e em termos do número de sessões criadas no sistema seguem distribuições de cauda longa e exponencial, respectivamente.

• A taxa de chegada de requisições ao sistema apresenta um padrão periódico, com maior intensidade de acessos durante o dia e menor intensidade durante a noite. • As distribuições do tempo entre chegadas de requisições e do tempo entre chegada de sessões ao sistema podem ser modeladas por distribuições exponenciais. • A origem da maior parte das requisições e dos usuários que acessam o serviço de vídeos do UOL são do próprio sítio do UOL, sendo que uma parcela significativa dos acessos é vinda do próprio serviço de vídeos do UOL. • Nossas análises revelam os diferentes perfis de usuários que acessam o sistema, o que pode ser utilizado de diversas formas pelo sistema, como por exemplo, para prover serviços personalizados aos usuários. Através da modelagem do padrão de navegação dos usuários com o UBMG, e utilizando agrupamento, identificamos e analisamos grupos de usuários com diferentes padrões de acesso, o que é fundamental para o projeto de novas políticas de personalização ou recomendação para usuários. O conhecimento dos perfis típicos de acesso aos serviços em redes de compartilhamento de vídeo pode possibilitar melhor gerência de recursos computacionais, seja através de políticas de controle de qualidade de serviço (QoS) ou planejamento de capacidade, além de permitir a identificação de práticas comuns e oferecer serviços personalizados aos usuários, como forma de fidelização. Como trabalhos futuros, planejamos caracterizar novas cargas de trabalho do serviço de vídeos do UOL, contendo aspectos como o processo de criação de conteúdo e as relações sociais estabelecidas entre os usuários. Algo ainda mais importante que pretendemos realizar é investigar quais aspectos dos usuários influenciam na popularidade de seus vídeos, essencial para um emergente nicho de mercado que é a associação de propagandas a vídeos.

7. AGRADECIMENTOS Este trabalho foi parcialmente patrocinado pelo Universo OnLine S. A. - UOL (www.uol.com.br) e parcialmente financiado pelas agências de fomento CNPq, CAPES, Finep e Fapemig. Em particular, agradecemos ao UOL pela disponibilização dos dados que possibilitaram a realização dessa pesquisa.

8. REFERÊNCIAS [1] Alexa. http://www.alexa.com. [2] comscore: Americans viewed 12 billion videos online in may 2008. http://www.comscore.com/press/ release.asp?press=2324. [3] Serviço de vídeos do uol. http://videos.uol.com.br/. [4] M. Arlitt. Characterizing web user sessions. SIGMETRICS Performance Evaluation Review, 28(2):50–63, 2000. [5] M. Arlitt and C. Williamson. Web server workload characterization: the search for invariants. SIGMETRICS Performance Evaluation Review, 24(1):126–137, 1996. [6] F. Benevenuto, F. Duarte, T. Rodrigues, V. Almeida, J. Almeida, and K. Ross. Understanding video interactions in youtube. In ACM Int’l Conf. on Multimedia (MM), 2008. [7] F. Benevenuto, T. Rodrigues, V. Almeida, J. Almeida, and M. Gonçalves. Detecting spammers and content promoters in online video social networks. In Proc. of Int’l ACM SIGIR, 2009.

[8] F. Benevenuto, T. Rodrigues, V. Almeida, J. Almeida, C. Zhang, and K. Ross. Identifying video spammers in online social networks. In Int’l Workshop on Adversarial Information Retrieval on the Web (AIRWeb), 2008. [9] H. Bock. Data mining tasks and methods: Classification: the goal of classification. 2002. [10] M. Cha, H. Kwak, P. Rodriguez, Y. Ahn, and S. Moon. I tube, you tube, everybody tubes: Analyzing the world’s largest user generated content video system. In Proc. Internet Measurement Conference (IMC), 2007. [11] C. Costa, I. Cunha, A. Vieira, C. Ramos, M. Rocha, J. Almeida, and B. Ribeiro-Neto. Analyzing client interactivity in streaming media. In World Wide Web Conference (WWW), 2004. [12] F. Duarte, B. Mattos, A. Bestavros, V. Almeida, and J. Almeida. Traffic characteristics and communication patterns in blogosphere. In Proc. Int’l Conference on Weblogs and Social Media (ICWSM), 2007. [13] R. Fielding, J. Gettys, J. Mogul, H. Frystyk, L. Masinter, P. Leach, and T. Berners-Lee. RFC 2616: Hypertext Transfer Protocol – HTTP/1.1. The Internet Society, 1999. [14] P. Gill, M. Arlitt, Z. Li, and A. Mahanti. Youtube traffic characterization: a view from the edge. In ACM SIGCOMM conference on Internet measurement (IMC), 2007. [15] P. Gill, M. Arlitt, Z. Li, and A. Mahanti. Characterizing user sessions on youtube. In IEEE Multimedia Computing and Networking (MMCN), 2008. [16] J. Hartigan. Clustering Algorithms. John Wiley and Sons, Inc., New York, NY,EUA, 1975. [17] D. Menasce and V. Almeida. Scaling for E Business: Technologies, Models, Performance, and Capacity Planning. Prentice Hall PTR, Upper Saddle River, NJ, USA, 2000. [18] D. Menascé, V. Almeida, R. Fonseca, and M. Mendes. A methodology for workload characterization of e-commerce sites. In ACM Conf. on Electronic Commerce (EC), 1999. [19] A. Oke and R. Bunt. Hierarchical workload characterization for a busy web server. In Int’l Conf. on Computer Performance Evaluation, Modelling Techniques and Tools (TOOLS), 2002. [20] D. Pelleg and A. Moore. X-means: Extending k-means with efficient estimation of the number of clusters. In Int’l Conf. on Machine Learning (ICML), 2000. [21] A. Pereira, L. Silva, and W. Meira, Jr. Evaluating the impact of reactive workloads on the performance of web applications. In Proceedings of the 25th IEEE International Performance, Computing, and Communications Conference (IPCCC), Phoenix, Arizona, USA, 2006. IEEE CS. [22] K. S. Trivedi. Probability and statistics with reliability, queuing and computer science applications. John Wiley and Sons Ltd., 2002. [23] E. Veloso, V. Almeida, W. M. Jr., A. Bestavros, and S. Jin. A hierarchical characterization of a live streaming media workload. IEEE/ACM Transactions on Network, 14(1), 2006. [24] I. Witten and E. Frank. Data Mining: Practical machine learning tools and techniques. Morgan Kaufmann, 2005. [25] M. Zink, K. Suh, Y. Gu, and J. Kurose. Watch global, cache local: Youtube network traces at a campus network measurements and implications. In IEEE Multimedia Computing and Networking (MMCN), 2008.

Lihat lebih banyak...

Comentários

Copyright © 2017 DADOSPDF Inc.