Análise de Redes na Construção de Corpora de Pesquisa: a seleção de imagens

August 26, 2017 | Autor: Luciano De Sampaio | Categoria: Research Methodology, Network Analysis, Social Network Analysis (SNA), Image Studies, Corpus-based Research
Share Embed


Descrição do Produto

Análise de Redes na Construção de Corpora de Pesquisa: a seleção de imagens Luciano de Sampaio Soares Universidade Tuiuti do Paraná [email protected]

Resumo: Ao se pesquisar imagens, a seleção de um corpus de pesquisa é tarefa necessária para a obtenção de resultados devidamente válidos cientificamente. Em especial ao se trabalhar com uma quantidade relativamente alta de material imagético, a decisão sobre quais imagens passarão por análises mais aprofundadas se torna essencial ao estudo. O presente artigo oferece uma opção metodológica baseada em análise de redes para a seleção de imagens de corpora de pesquisa, visando um embasamento criterioso e fundamentado das opções feitas no recorte, associando também etapas qualitativas à análise estatística do material coletado.

Palavras-chave: Metodologia; corpora de pesquisa; análise de redes; Estudos da Imagem.

Introdução Na proposição do estudo das imagens pelas Ciências Sociais, a definição do material específico a ser avaliado nas etapas empíricas da investigação se torna crucial na determinação dos rumos da pesquisa, além de influenciar diretamente na validade dos resultados posteriormente obtidos (GOLDENBERG, 2004). Enquanto amostragens estatísticas tradicionais são frequentemente utilizadas como referência para a delimitação do material a ser estudado, pesquisadores como Bauer; Aarts (2003) elencam diversos problemas que tal procedimento apresenta em termos de distorções das amostras obtidas estatisticamente, principalmente

quanto à representatividade da amostra em relação ao

universo estudado. Especificamente no caso de imagens Este artigo pretende então descrever um processo alternativo para a construção de corpora de pesquisa, utilizando para isso uma combinação de abordagens quantitativas e qualitativas

tratadas por meio de técnicas e conceitos das Ciências de Dados (Data Science) (STANTON, 2012) e da Ciência de Redes (Network Science) (BARABÁSI, 2012). Para ilustrar o desenvolvimento do método aqui discutido serão utilizadas imagens obtidas em Páginas 1 (fanpages) do Facebook, ainda que outros objetos de estudo – inclusive materialidades não imagéticas – sejam igualmente passíveis de receber este tipo de tratamento. O método aqui descrito, aplicado à amostra de exemplo, faz parte de uma pesquisa de mestrado ainda em curso, com previsão de conclusão no ano de 2015.

Espera-se que a sequência aqui apresentada demonstre ao pesquisador a validade da opção por tal procedimento e por ferramentas que reforcem a representatividade de um corpus em relação as perguntas de pesquisa que se pretende responder, bem como o embasamento metodológico sólido para a justificativa dos objetos que comporão o corpus.

Coleta e definição inicial Para exemplificar o procedimento de análise de redes na construção e corpora de pesquisa, será utilizado um universo de 2.000 imagens coletadas em Páginas do Facebook 2 entre 19 e 30 de julho de 2013. A obtenção dos dados referentes às publicações foi realizada pelo aplicativo Netvizz3 considerando as últimas 1.000 publicações de cada fonte selecionada.

1

2

3

"As Páginas do Facebook são semelhantes às linhas do tempo pessoais, mas oferecem ferramentas exclusivas para conectar as pessoas a um tópico pelo qual elas se interessam, como uma empresa, marca, organização ou celebridade. Além disso, as Páginas são gerenciadas por administradores proprietários de linhas do tempo pessoais. As Páginas não são separadas das contas do Facebook e não têm as informações de login separadas da sua linha do tempo. Você pode curtir uma página para ver as atualizações no Feed de notícias." (FACEBOOK, 2013) As páginas aqui mencionadas foram selecionadas a partir de critérios arbitrários utilizando ferramentas como a "Sugestão de Páginas" e "Páginas semelhantes". Os critérios adotados compreendem: 1) mais de 1 milhão de seguidores; 2) ausência de vínculo explícito com marcas, empresas e/ou celebridades; e 3) publicação frequente de material imagético. Ao total, 45 páginas, das quais algumas não mais estão ativas, foram selecionadas dessa forma. O Netvizz é uma ferramenta para recuperação de dados relevantes a diversos tipos de páginas do Facebook, incluindo perfis pessoais e Páginas e pode ser encontrado em:

Das 45.000 publicações cujos dados foram recuperados pelo aplicativo e obtidos em forma tabular, 6.339 entradas eram imagens estáticas. O passo seguinte deste procedimento, então, foi a obtenção dos arquivos destas imagens, cuja nomenclatura seguiu a ordem crescente de recompartilhamentos sofridos, realizada também a partir do arquivo fornecido pelo Netvizz, por meio da informação presente na coluna Picture. Assim, a imagem com maior quantidade de recompartilhamentos recebeu o nome de arquivo de 00001, enquanto a menos recompartilhada foi designada como 06339. Como forma de automatizar esse processo – download da imagem e nomenclatura –, um script na linguagem de programação Python4 foi desenvolvido. De posse dos arquivos, ferramentas de detecção automática de arquivos duplicados 5 foram utilizadas para remover do universo de imagens aqueles arquivos que apareceram mais de uma vez na coleta. Foram mantidos sempre os arquivos de numeração mais baixa (e portanto que apresentaram maior quantidade de recompartilhamentos) para cada arquivo duplicado encontrado. Além das imagens duplicadas, no estudo que idealizou esta metodologia também foram removidas da amostra imagens de conteúdo puramente textual, como por exemplo, a Figura 1. Este tipo de publicação é comumente encontrado no Facebook como alternativa à publicação de texto direto, devido às limitações de estilo tipográfico presentes na plataforma. FIGURA 1 – Exemplo de imagem puramente textual

4

5

Python é uma linguagem de programação de alto nível, orientada a objetos e que não requer compilação de código para que um programa ou script seja executado. (“What is Python? Executive Summary”, [s.d.]). O script coleta.py utilizado pode ser encontrado em: < https://copy.com/jhxKGI2ewTgHR4lp>. Os aplicativos MacPaw Gemini (disponível em: < http://macpaw.com/gemini> e dupeGuru Photo Edition (disponível em: < http://www.hardcoded.net/dupeguru_pe/> comparam metadados e informação binária de arquivos para encontrar identidades.

Fonte: Página Saudades

Excluídas as imagens duplicadas e textuais, reduziu-se o conjunto de imagens para análise a um total de 4428 arquivos.

Uma etapa opcional Em virtude de limitações da pesquisa, uma segunda etapa de filtros se fez necessária para o início da formação de uma rede de categorias. Ressalta-se que, dependendo das condições técncas disponíveis, a divisão aqui apresentada pode se mostrar desnecessária em outras aplicações desta metodologia. Porém, uma vez que a capacidade computacional disponível para o estudo se mostrou bastante limitada, fez-se necessário reduzir o conjunto total de análise ainda mais, e para tanto foram criados dois agrupamentos principais de imagens: 

Topo: grupo que reúne as 1000 imagens com maior contagem de recompartilhammentos após as exclusões de duplicatas e textuais; e



Baixo: compreendendo as 1000 imagens menos recompartilhadas da coleta, após as exclusões de duplicatas e textuais.

Com essa redução da amostra para 2000 imagens, foi-se então possível, dentro da limitação técnica da pesquisa, proceder com a composição da rede e subsequente análise e determinação do corpus imagético. Explicita-se também que, no estudo em questão, cada grupo foi analisado como uma rede diferente, ainda como forma de atender a reduzida capacidade computacional disponível para a pesquisa.

Redes de categorização Uma rede nada mais é do que um mapa, uma forma de representação de um conjunto de entidades e das relações estabelecidas entre estas entidades (BARABÁSI, 2012). Por convenção chamam-se as entidades representadas neste mapa de nós, enquanto as relações estabelecidas recebem a nomenclatura de arestas. Raquel Recuero (2009, p. 20), afirma que a representação de nós e arestas – o grafo – "pode ser utilizada como metáfora para diversos sistemas". Entre os exemplos possíveis para a utilização de redes, Alfred Lazlo-Barabási (2012, p. 11-16) cita o exame da interação de moléculas em organismos biológicos, padrões de distribuição e avanço de doenças contagiosas, círculos de amizades, estudos neurológicos e o combate ao terrorismo. Ainda que para cada uma dessas atividades, os elementos estudados sejam extremamente heterogêneos, a estrutura encontrada na composição destas redes é bastante semelhante. Dada esta diversidade em tamanho, escopo, história, e evolução, não se deveria causar surpresa se as redes por trás destes sistemas diferissem muito. Ainda assim, uma descoberta chave da ciência de redes é que a arquitetura e evolução de redes emergentes em vários domínios da ciência, natureza, e tecnologia são bastante similares entre si, permitindo que utilizemos um conjunto comum de ferramentas matemáticas para explorá-los. (BARABÁSI, 2012, p. 8)

Desta forma acredita-se que as ferramentas matemáticas oriundas da ciência de redes, devidamente adaptadas às necessidades do estudo em questão, podem oferecer uma alternativa válida à utilização apenas de dados estatísticos na definição de corpora de pesquisa com imagens. Além disso, a opção por uma metodologia que vá além apenas da estatística segue a premissa de Hadley Wickham (2014) de que A pesquisa estatística foca em coleta e modelagem de dados, com pouco trabalho no desenvolvimento de boas questões, no pensamento sobre a forma dos dados, ou na comunicação de resultados e construção de produtos de dados.

Construção da rede de categorização Após definir a opção pelo tratamento do conteúdo de ambos os grupos da amostra por meio da análise de redes, torna-se necessário identificar então os elementos que comporão a estrutura do grafo, ou seja, seus nós e arestas. No estudo ora apresentado, os nós da rede são as imagens presentes nos grupos, e as restas – as relações entre as imagens – são estabelecidas a partir de características comuns a cada imagem. Estas características foram atribuídas a cada arquivo por meio de uma análise baseada na metodologia descrita por Schlomo Lee Abrahmov (2008), considerando os três níveis de significado da imagem, quais sejam: 

o nível factual, compreendendo aspectos formais e elementares da imagem;



o nível interpretativo, aplicando significados aos diferentes elementos presentes na imagem; e



o nível conceitual, derivado da composição dos níveis anteriores para a obtenção de um tema universal para a imagem.

Foram atribuídas a cada imagem as seguintes classificações: 1) a presença ou não de texto no quadro da imagem, 2) a ocorrência de chamada à ação, e 3) o tipo de produção, que correspondem ao nível factual da análise. O nível interpretativo da imagem corresponde à classificação primária, enquanto o nível conceitual de análise é contemplado pela classificação secundária. Enquanto as duas primeiras classificações (texto e chamada à ação) receberam valores booleanos de verdadeiro ou falso, os valores correspondentes as demais classificações estão elencados. QUADRO 1 – Valores possíveis em cada classificação Tipo

Primária

Secundária

Primária

Secundária

Foto

Abstrato

Cenário

Fundo

Moda

Ilustração

Ação

Citação

Ícone

Nostalgia

Manipulação Misto

Alimentação Animais Arquitetura Arte Beleza Cidade Cotidiano

Comparação Cultura Ecologia Economia Educação Entretenimento Estilo de Vida

Local Meme Mídia Objeto Paisagem Publicidade Retrato

Personalidade Pet Promoção Relacionamentos Religião Saúde Sentimentos

Criança Esporte Evento

Gênero Jornalístico Marca

Tecnologia Vegetais

Sociedade Trânsito Trívia

Com estas classificações aplicadas, tornou-se então possível relacionar as diversas imagens existentes umas às outras, dentro de cada grupo. A obtenção dessa correlação – ou seja, a formação das arestas da rede – foi realizada pela utilização de um script criado na linguagem de programação estatística R6. Além de revelar as características individuais compartilhadas pelas diferentes imagens, o script também aplica uma medida numérica de peso (weight), evidenciando a quantidade de identidades entre cada par de imagens. Por 6

Mais informações a respeito da linguagem de programação R podem ser encontradas em: < http://www.rproject.org/>. O script Comparação-arestas.R está disponível em: < https://copy.com/lbj0lPdHrsXGq1a2>.

exemplo, o nó 00001 apresenta, em relação ao nó 00550, três valores idênticos nas classificações atribuídas e, portanto, a aresta relativa ao par 00001-00550 tem peso três. Esta medida é significativa na rede por afetar o cálculo de algumas métricas, além de definir a rede – acompanhada da falta de direção clara de uma aresta – como assimétrica (RECUERO, 2009, p. 177).

Uma alternativa automatizada Dependendo da natureza da investigação, o processo de classificação descrito anteriormente não é o mais indicado. Projetos como SelfieCity7, por exemplo, utilizam técnicas de leitura automatizada das imagens, em busca de valores objetivos como cores, luminância, etc. Além destes, o SelfieCity também utilizou ferramentas de reconhecimento facial para identificar estados de humor e outras características, como poses e similares, nas imagens por eles coletadas. Também se deve mencionar que, apesar da utilização de automação, o projeto de Manovich lançou mão de recursos humanos para validar os dados obtidos pelas ferramentas de software. Ainda assim, dependendo da natureza da investigação, a obtenção de classificações de forma automática por meio de software pode e deve ser utilizada de acordo com os critérios da pesquisa, bem como da disponibilidade do aparato técnico necessário.

Análise das redes de classificação A partir do momento que nós e arestas de uma rede estão definidos é possível proceder com a etapa quantitativa da análise. De cunho estatístico, este passo oferece uma série de 7

Projeto de pesquisa coordenado por Lev Manovich da universidade da cidade de Nova York que analisou as selfies (auto retratos normalmente publicados em sites de redes sociais) de 5 cidades em diferentes regiões do planeta: Bangkok, Berlin, Moscou, Nova York e São Paulo. O projeto pode ser acessado em: < http://selfiecity.net/>

escolhas ao pesquisador que são integralmente dependentes da natureza do estudo desenvolvido. No caso da pesquisa ora apresentada, o corpus pretendido deveria ser composto pelas imagens mais relevantes dentro da rede, aquelas que, a partir de métricas características desse tipo de estrutura, pudessem se consideradas como mais representativas na amostra. Para a montagem das redes e composição dos grafos foi utilizado o aplicativo de código livre Gephi8 (BASTIAN; HEYMANN; JACOMY, 2009), onde também se realizaram os cálculos necessários para a definição do corpus final. Uma vez que as redes aqui demonstradas podem ser consideradas praticamente completas (BARABÁSI, 2012) por apresentarem conexões entre quase todos os nós, os grafos9 destas estruturas não oferecem – ao contrário do que ocorre em redes com menores taxas de interligação – grandes percepções a respeito das redes. Portanto, não se dará aqui o destaque dado ao grafo como ferramenta de interpretação, preferindo-se trabalhar com uma hierarquia de métricas da rede diretamente. Para a definição do corpus da pesquisa que formulou esta metodologia foram elencadas – dentro de cada grupo – as imagens que apresentam primeiramente maior grau ponderado médio (ou seja, a medida da quantidade de conexões de um nó, relacionada ao peso médio dessas conexões), subsequentemente dispostas por PageRank, algoritmo desenvolvido por Sergey Brin e Larry Page (1998) para o motor de busca online Google baseado no conceito de navegação cega, que consiste em uma medida de proximidade dos diversos nós e a facilidade com que, partindo de um nó qualquer, é possível chegar a qualquer outro nó da

8

9

O Gephi é um aplicativo de manipulação e análise de redes gratuito e multiplataforma, disponível em: . Os arquivos de alta resolução dos grafos das redes podem ser encontrados em: grupo topo: < https://copy.com/ygH0M3S9GwLBSFQ1>; grupo baixo: < https://copy.com/Am0uEHqND1o3SQis>.

rede de forma aleatória. Enquanto o grau ponderado médio oferece uma visão da importância relativa de um nó dentro da rede de acordo com a quantidade e qualidade das identidades com outros nós, o PageRank permite inferir a relevância de um nó em relação a outros nós com os quais não necessariamente compartilha arestas. É importante ressaltar que ambas as métricas consideram o peso das arestas em seu cálculo. Assim, ao mesmo tempo em que nós com alto grau (grande número de conexões, independente do peso destas) podem se destacar devido à sua posição na rede, nós com grau reduzido mas com grande taxa de correlação em suas arestas (peso elevado) também se mostram relevantes na rede. Naturalmente, nós de alto grau e com arestas de peso elevado são os que mais se destacam neste conjunto de métricas.

Outras métricas possíveis Devido à natureza quase completa da rede, algumas métricas que forneceriam a classificação de relevância dos nós de forma mais direta se apresentaram bastante homogêneas em valor, dificultando o processo de seleção das imagens a partir da rede. Medidas comumente utilizadas em estudos de redes como as de centralidade (BONACICH, 1987; FREEMAN, 1979), neste caso, apresentaram uma distribuição homogênea e, portanto, não foram utilizadas como determinantes no processo de seleção das imagens do corpus, ainda que em redes de estruturas diferentes sejam uma opção bastante válida na determinação de elementos relevantes da rede. As diferentes medidas de centralidade se referem à posição assumida por um nó na estrutura geral da rede, e são derivadas do número de conexões, do comprimento do caminho entre dois nós, ou das arestas presentes nos vizinhos (i.e.: os nós com os quais o nó em questão compartilha arestas diretamente) do nó estudado (BRANDES, 2001).

Da mesma forma, medidas de agrupamento (clustering), que relacionam os nós dentro de subgrupos da rede, também foram descartadas neste estudo – ainda que possam ser aplicadas em outras amostras com maior sucesso – devido à baixa diferenciação de agrupamentos nas redes ora estudadas. Os clusters, ou conjuntos, de nós são classificados de acordo com a coesão demonstrada matematicamente por seus nós, e indicam a resiliência da rede contra influências externas.

O corpus definido A partir da hierarquia de métricas apresentada anteriormente, então, tornou-se possível obter um conjunto de 16 imagens para a análise final do corpus de pesquisa, a partir ainda de mais um critério arbitrário relacionado à classificação tipo da rede de imagens. Em cada um dos grupos foram selecionadas 2 imagens de cada classificação (Foto, Ilustração, Manipulação, e Mista), visando obter uma representatividade de cada um destes estilos imagéticos na análise final. Na tabela 1 estão dispostos os dados relativos a cada uma das imagens selecionadas para o corpus definitivo do trabalho. TABELA 1 – Classificação e métricas do corpus definitivo Imagem

Grupo

Texto

01175.jpg 01206.jpg 00140.jpg 00427.jpg 00495.jpg 00450.jpg 01302.jpg 00729.jpg 05018.jpg 04942.jpg 05024.jpg 06218.jpg 05496.jpg 05901.jpg 06241.jpg 05094.jpg

alto alto alto alto alto alto alto alto baixo baixo baixo baixo baixo baixo baixo baixo

V V V V V V V V V V V V V F V V

Chamada à ação F F F F F F F F F F F F F F F F

Categoria

Primária

Secundária

Foto Foto Ilustração Ilustração Manipulação Manipulação Misto Misto Foto Foto Ilustração Ilustração Manipulçãao Manipulçãao Misto Misto

Retrato Retrato Retrato Retrato Retrato Retrato Retrato Criança Retrato Retrato Retrato Retrato Midia Objeto Retrato Mídia

Citação Citação Citação Citação Citação Citação Personalidade Citação Estilo de Vida Estilo de Vida Estilo de Vida Moda Estilo de Vida Estilo de Vida Estilo de Vida Estilo de Vida

Grau P. Médio 3003.0 3003.0 2587.0 2587.0 2386.0 2386.0 2300.0 2176.0 2644.0 2644.0 2022.0 2001.0 1900.0 1826.0 1896.0 1874.0

PageRank

Shares

0.0011456 0.0011456 0.0010101 0.0010101 9.42620-4 9.42620-4 9.13269-4 8.72847-4 0.0011591 0.0011591 9.28273-4 9.195822-4 8.816520-4 8.426547-4 8.774337-4 8.711768-4

1291 1227 8327 3831 3430 3671 1077 2345 29 33 29 1 12 1 1 27

Em virtude do pouco espaço disponível para um artigo desta natureza, as imagens propriamente ditas não serão incluídas neste material10.

Considerações Finais A composição de um corpus é uma atividade essencial ao processo de pesquisa, em especial quando se pretende investigar uma grande quantidade de material. Os recortes feitos nas amostras permitem que o pesquisador, sem prejudicar a validade de sua pesquisa, concentre seus esforços analíticos no fenômeno estudado. Porém, independente da metodologia escolhida para a aplicação destes recortes, uma série de escolhas arbitrárias inevitavelmente se apresenta ao estudioso. Seja na decisão do teste estatístico a ser aplicado, ou na utilização ou não de determinada métrica, essas opções oferecem riscos à representatividade da amostra final componente dos corpora de investigação. Não se quer afirmar, com isso, que a metodologia aqui apresentada elimina estes riscos, mas que esta oferece um conjunto a mais de possibilidades e critérios embasados, visando a diminuição do impacto destas decisões na validade e representatividade do conjunto de objetos a serem estudados. Por meio de critérios já utilizados em outras áreas do conhecimento, devidamente adaptados à realidade da pesquisa com imagens, torna-se possível mais um passo em direção ao rigor esperado das ciências como um todo. Além disso, as técnicas computacionais envolvidas na metodologia aqui apresentada também permitem a utilização de conjuntos vastos de imagens de maneira prática, dependendo apenas da disponibilidade de recursos (materiais, tecnológicos e humanos) para a seleção de um corpus.

10

As imagens podem ser acessadas em .

Entende-se também que a proposta metodológica aqui apresentada é passível de aprimoramentos e espera-se, com este artigo, alavancar a discussão sobre a inclusão das técnicas de análise de redes para além da utilização dos grafos como produto final da pesquisa que lançar mão das práticas das Ciências de Dados e de Redes.

Referências ABRAHMOV, S. L. Media Literacy: Reading and Writing Images in a Digital Age. Educating Artists for the Future, Learning at the Intersections of Art, Science Technology and Culture, 2008. BARABÁSI, A.-L. Network Science. [s.l.] BarabásiLab, 2012. BASTIAN, M.; HEYMANN, S.; JACOMY, M. Gephi: an open source software for exploring and manipulating networks. ICWSM. Anais...2009Disponível em: BAUER, M. W.; AARTS, B. A Construção do Corpus: um princípio para a coleta de dados qualitativos. In: BAUER, M. W.; GASKELL, G. (Eds.). Pesquisa Qualitativa com Texto, Imagem e Som: um manual prático. 2. ed. Petrópolis: Vozes, 2003. BONACICH, P. Power and centrality: A family of measures. American journal of sociology, p. 1170–1182, 1987. BRANDES, U. A faster algorithm for betweenness centrality. Journal of Mathematical Sociology, v. 25, n. 2, p. 163–177, 2001. BRIN, S.; PAGE, L. The anatomy of a large-scale hypertextual Web search engine. Computer Networks and ISDN Systems, v. 30, n. 1-7, p. 107–117, abr. 1998. FACEBOOK. Informações Básicas sobre Páginas. 2013. FREEMAN, L. C. Centrality in social networks conceptual clarification. Social networks, v. 1, n. 3, p. 215–239, 1979. GOLDENBERG, M. A Arte de Pesquisar: como fazer pesquisa qualitativa em Ciências Sociais. 8. ed. Rio de Janeiro: Record, 2004. RECUERO, R. Redes sociais na internet. Porto Alegre: Sulina, 2009. STANTON, J. An Introduction to Data Science. Syracuse: Syracuse University, 2012.

What is Python? Executive Summary. Disponível . Acesso em: 2 out. 2014.

em:

WICKHAM, H. How is data science different to mainstream statistics? Communication and visualization are key features of analysis. Impact of Social Sciences, 2014. Disponível em: . Acesso em: 23 set. 2014

Lihat lebih banyak...

Comentários

Copyright © 2017 DADOSPDF Inc.