Uma rede social capturada na web [tradução]
Descrição do Produto
Resumo Uma rede social capturada na Web, por Lada A. Adamic, Orkut Buyukkokten e Eytan Adar Nós apresentamos uma análise do Club Nexus, uma comunidade on-line na Universidade de Stanford. Através do site Nexus, fomos capazes de estudar um reflexo da estrutura comunitária do mundo real no interior do corpo discente. Nós observamos e mensuramos fenômenos de redes sociais, como o efeito mundo pequeno, clustering e a força dos laços fracos. Utilizando os ricos dados de perfil fornecidos pelos usuários, fomos capazes de deduzir os atributos que contribuem para a formação de amizades e de determinar como a similaridade dos usuários decai conforme a distância entre eles, na rede, aumenta. Além disso, encontramos correlações entre as personalidades dos usuários e seus outros atributos, assim como interessantes correspondências entre como os usuários percebem a si mesmos e como eles são percebidos pelos outros.
Conteúdo Introdução Registro de usuário e dados Análise de rede Propriedades dos perfis individuais Associação por similaridade Similaridade e distância Karma do Nexus Conclusões e trabalhos futuros
Introdução Sites de comunidade estão se tornando cada vez mais populares – o que permite que seus usuários conversem, organizem eventos, compartilhem opiniões e fotografias, façam anúncios (announcements), e encontrem novos amigos. Diversos estudos anteriores focaram na caracterização dessas interações (Curtis, 1992; Yee, 2001) e outros tentaram medir os efeitos da Internet nas interações sociais da vida real (Wellman et al., 2002a e 2002b). Nosso estudo tem um foco, de certa forma, diferente: já que podemos aprender tanto sobre a própria comunidade on-line, estamos mais interessados em recolher dela insights sobre as redes sociais subjacentes no mundo real. A comunidade que escolhemos para o nosso estudo é a Club Nexus. O (site) Club Nexus foi apresentado à Universidade de Stanford no outono de 2001. É um sistema desenvolvido por estudantes para servir às necessidades de comunicação da comunidade on-line de Stanford. Alunos podem usar o Club Nexus para enviar e-mails e convites, conversar, publicar eventos, comprar e vender bens usados, buscar pessoas com interesses similares, publicar anúncios pessoais, exibir seus trabalhos artísticos ou publicar colunas editoriais. Poucos meses após o lançamento, o Club Nexus atraía mais de 2.000 graduandos e pós-graduandos, juntos abrangendo mais de 10% da população estudantil total. A natureza eletrônica da participação em comunidade on-line apresenta uma oportunidade de estudar comportamento e interação humana com grande detalhe e em uma escala sem precedentes. Os métodos tradicionais de coleta de informações sobre redes sociais requerem dos pesquisadores a realização de pesquisas demoradas e caras por correio, telefone ou ao vivo. Isso limita o tamanho dos conjuntos de dados e demanda tempo e esforço adicional da parte dos participantes. Ao estudar uma comunidade on-line, nossa capacidade de aprender mais sobre a rede social é apenas um efeito colateral dos usuários transmitindo informações digitalmente. Anteriormente fomos capazes de analisar uma parte da rede social de Stanford refletida nas páginas de alunos de Stanford e dos links entre elas (Adamic e Adar, in press). Nossa descoberta de que páginas pessoais podem criar uma ampla rede social foi uma inspiração para o Club Nexus. Como os usuários são explicitamente solicitados a nomear seus amigos, o Club Nexus é mais densamente conectado do que a rede de páginas em
que os usuários se conectam a seus amigos por conta própria. O formato estruturado dos perfis proporciona uma análise estatística mais fácil do que o texto livre das páginas pessoais. Os dados apresentam uma oportunidade de estudar, entre outras coisas, a estrutura da comunidade on-line, as interações sociais e como fatores como personalidade e interesses influenciam na escolha de amigos. Neste trabalho, nós damos o primeiro passo da análise da comunidade como uma rede social e comparamos perfis fornecidos pelos usuários para caracterizar conexões. Cadastro de usuário e dados Ao realizar o cadastro, os usuários inseriam seus nomes, endereços de e-mail, aniversários (para o envio de notificações com lembrete de aniversário aos seus amigos), área de especialização, nível acadêmico (pósgraduação ou graduação), ano que está cursando, endereço residencial e país e Estado de origem. Eles também poderiam, opcionalmente, listar o colégio onde estudaram (ou a universidade, para os alunos de pósgraduação), assim como seus números de telefone, cidade natal, página pessoal e foto. Os dados que usamos em todas as nossas análises foram tornados anônimos, com a substituição dos nomes dos usuários por identificadores únicos e apenas com a retenção, dentre as informações acima, do ano cursado, do nível acadêmico e do departamento ao qual pertenciam. Todos os resultados do nosso estudo são apresentados em conjunto, para garantir ainda mais a privacidade dos usuários.
Figura 1: Rede Nexus, como vista sob a perspectiva de um único usuário. Clicar em qualquer um dos nós recentraliza o gráfico em torno do usuário selecionado.
No segundo estágio do cadastro, os usuários eram solicitados a listar seus amigos e conhecidos em Stanford. Na linguagem do Nexus, essas pessoas são chamadas de “buddies” (camaradas). Os usuários identificavam seus camaradas buscando por eles no diretório da Stanford ou acrescentando seus nomes manualmente. Se um usuário adicionar um camarada que já está cadastrado, o camarada receberá uma notificação de que o usuário pediu para ser seu camarada e então pode aceitar ou rejeitar a solicitação. Se o camarada ainda não for cadastrado, ele receberá um convite para se juntar ao Club Nexus. Essa estratégia viral de inscrição resultou em uma rápida construção da base de usuários. Vários meses depois do lançamento do Club Nexus, os usuários tiveram a oportunidade de classificar o quão confiável, simpático (nice), legal (cool) e sensual cada um de seus companheiros era. Isto adicionou uma nova dimensão aos dados de interação.
Além das informações demográficas básicas, os usuários foram solicitados a adicionar uma lista de interesses e hobbies aos seus perfis através da marcação de tantas opções quanto quisessem em listas de atividades sociais, esportes e gêneros de cinema, música e livros. Essas escolhas poderiam, então, ser usadas pelo Club Nexus para combinar usuários com preferências similares. Em um estágio final, os usuários eram solicitados a selecionar três itens de listas de adjetivos para descrever suas personalidades, os tipos de pessoas nas quais procuram apoio, as maneiras como eles gostam de passar o tempo livre e o que eles buscam em amizade e romance. O conjunto de dados resultante foi uma rede social com perfis ricos para cada um dos membros. Nas próximas seções, analisamos primeiramente o Club Nexus a partir de uma perspectiva de rede e depois olhamos para as relações entre os atributos de usuários e suas escolhas de contatos.
Análise de Rede A Rede Nexus, uma rede social ampla, consiste de 2.469 usuários do Nexus e 10.119 conexões entre eles, sendo que dois indivíduos são considerados conectados quando um inclui o outro em sua lista de companheiros. Os usuários podem explorar a rede usando a interface visual mostrada na Figura 1 e podem contatar automaticamente seus vizinhos até certo raio de distância. Por exemplo, para organizar um evento, eles podem convidar apenas seus amigos ou os amigos de seus amigos. Como é típico, tanto em redes sociais gerais quanto em comunidades particularmente on-line, o número de camaradas que um usuário tem é distribuído de maneira altamente desigual. A Figura 2 mostra que os usuários listaram mais frequentemente apenas um camarada (mais de 200 não listaram qualquer camarada), mas alguns usuários individuais possuíam dúzias de conexões e um havia ultrapassado uma centena. Parte da assimetria na distribuição da conectividade é devida ao fato de que algumas pessoas são naturalmente mais sociáveis do que outras, mas também reflete uma ânsia variável da parte dos usuários por inserir seus contatos sociais em um serviço on-line. Em geral, esperamos que a maioria dos usuários do Club Nexus tenham mais amigos offline do que apenas aqueles que listaram como camaradas através do serviço.
Figura 2: Número de conexões que os usuários têm; um único camarada sendo o caso mais comum. A inserção mostra a mesma distribuição em escala log-log.
Ao analisar a rede social, observamos um efeito mundo pequeno (Migram, 1967; Watts e Strogatz, 1998), no qual a distância entre dois usuários, medida pelo número de saltos pela rede Nexus, é de, em média, apenas quatro (a distribuição completa é mostrada na Figura 3). Essa média pode inicialmente parecer baixa ao considerar que o Club Nexus representa um grupo diverso de usuários, tanto graduandos quanto pós-
graduandos em várias etapas de seus estudos, representando diversos departamentos. Esse é o aspecto contraditório do fenômeno do mundo pequeno: indivíduos tendem a socializar em “panelinhas” menores, frequentemente determinadas por fatores como ano cursado, departamento ou dormitório, ainda que quaisquer dois usuários estejam separados por apenas um pequeno número de saltos. É possível determinar em qual grau as “panelinhas” estão presentes através da mensuração da clusterização, por vezes também referida como transitividade (Newman, 2001). O coeficiente de clusterização nos diz quantos amigos de amigos de um usuário eram amigos dos próprios usuários. No caso do Club Nexus, o coeficiente de clusterização de 0,17 é 40 vezes maior do que seria em uma rede aleatória com o mesmo número de usuários e conexões. Isto nos mostra que há uma quantidade significativa de estrutura nas interações sociais reportadas no Club Nexus. O aparente conflito entre clusterização e trajetórias curtas foi resolvido por Watts e Strogatz (1998). Eles usaram um modelo simples de redes sociais para mostrar que, enquanto existe uma pequena fração de conexões aleatórias entre panelinhas, as redes sociais podem apresentar tanto alta clusterização quanto pequena média de trajetórias mais curtas.
Figura 3: Distribuição de distâncias entre dois usuários, com uma média de 4 saltos. A média é próxima dos 3,8 saltos de um gráfico aleatório equivalente, com o mesmo número de nós e arestas. Enquanto a análise acima, sobre a topologia de rede, é esclarecedora, as coisas ficam ainda mais interessantes quando os perfis de usuários são levados em conta. Nós vamos explorar esses recursos de perfil na próxima seção e posteriormente retornaremos ao seu impacto nas propriedades de rede.
Propriedades de perfis individuais
Dados de Perfil e ferramentas estatísticas No processo de cadastro, é solicitado aos usuários que selecionem três palavras de uma lista de 10 a 15, para descrever suas personalidades, o que buscam em amizade e romance, como aproveitam o tempo livre e em que tipo de pessoas buscam apoio. Todos os usuários completaram essa seção, já que era necessário para o cadastro inicial. Os usuários também foram convidados a expressar opcionalmente suas preferências sobre gêneros de livros e filmes, esportes e outras atividades. Os 418 (dos 2.469) usuários que não fizeram uma seleção em qualquer categoria foram omitidos da análise a respeito das preferências. Nós usamos Z-scores para caracterizar os relacionamentos entre diferentes atributos escolhidos pelos usuários. Z-scores indicam o quão provável é encontrar uma conexão entre dois atributos ao acaso. Especificamente, a probabilidade de um Z-score ser acima de 2 ou abaixo de -2 é de 5 por cento. Portanto, podemos dizer que qualquer correlação com um Z-score absoluto maior do que 2 é significante ao nível de p = 0,05. Por exemplo, se estamos interessados em saber se pessoas que se consideram engraçadas gostam de assistir comédias,
contamos o número de pessoas (518, ao todo) que selecionaram “engraçado” como uma das três palavras descritivas sobre eles mesmos. Então contamos o número de usuários (1.511 dos 2.051 que especificaram seus interesses) que selecionaram comédia como gênero de filmes que gostam. Isso dá uma probabilidade de p = 0,74 de que um usuário escolhido aleatoriamente goste de comédias. Então daí resulta que, dos 518 usuários “engraçados”, um esperado p*518 = 382 gostariam de comédias, com um desvio padrão de 10. Nós observamos que, na realidade, 416 usuários que se consideram “engraçados” também gostam de comédias. Isso nos dá um Z-score de [(número observado)-(número esperado)]/(variação padrão) = 3,43. A probabilidade de que isso ocorra ao acaso, isto é, sem que haja qualquer conexão entre os usuários se considerarem engraçados e gostarem de comédias, é de 0,0003. Assim, apesar da diferença ser pequena (cerca de 10 por cento mais usuários engraçados gostam de comédias do que se esperaria de uma amostra aleatória), o efeito é significativo. Daqui em diante, quando escrevermos que “os usuários que possuem a qualidade A tendem a gostar de B”, simplesmente queremos dizer que a proporção de usuários tendo A e gostando de B é significativamente diferente da proporção de usuários em geral que gostam de B. De forma alguma queremos dizer que todos os usuários que tenham A sejam de uma certa maneira. Sempre que possível, incluímos a diferença entre as quantidades observadas e as esperadas nos resultados tabulados dos apêndices. Também gostaríamos de lembrar ao leitor que os resultados pertencem apenas a essa comunidade on-line em particular, o que não necessariamente representa a população em geral.
Personalidade e preferências Nós usamos esse tipo de análise para encontrar correlações entre as personalidades dos usuários e suas preferências. Devido ao grande número de pares de personalidades e preferências, algumas das relações podem ser consideradas estatisticamente significativas por acaso. Mas como tantos pares foram considerados estatisticamente significativos, a maioria deles representa tendências verdadeiras que pintam retratos razoáveis dos tipos de personalidade. Usando essa técnica, descobrimos que os usuários tenderam a ser consistentes em como eles se descrevem e no que eles buscam em outras pessoas. Por exemplo, aqueles que se descreveram como sensuais foram mais propensos a buscar por sexo tanto nas amizades quanto no romance. Aqueles que se descreveram como atraentes consideraram aparência e visual como importantes. Aqueles que se julgam engraçados buscaram sorrisos tanto nas amizades quanto no romance. Correlações estatísticas entre personalidades e preferências se mostraram alinhadas, em sua maior parte, com os estereótipos relativos às personalidades. Indivíduos que se rotularam como “esquisitos” apresentaram tendência a ter amigos “esquisitos” e eram mais propensos a aproveitar o tempo livre sozinhos e ficando em casa, sem fazer qualquer coisa interessante ou atividades fisicamente desafiadoras. Eles estavam mais propensos a gostar de livros e filmes sobre ficção científica e fantasia, heavy metal e jogos de computador. Eles não valorizam prioritariamente aparência nos relacionamentos e não tendem a se descrever como divertidos, atraentes ou bem-sucedidos. Por outro lado, aqueles que se descreveram como “bem-sucedidos” aproveitavam seu tempo livre cumprindo compromissos e recuperando o atraso em tarefas. Eles também puseram ênfase em aparência e sexo nos relacionamentos românticos e amizades, e demonstraram gostar de passar o tempo livre fazendo atividades fisicamente desafiadoras, incluindo levantamento de peso, tênis, passeios de barco, jet ski e esqui aquático. Eles também são três vezes mais propensos a ler livros de negócios. Para uma lista completa de todas as relações significativas entre personalidade e preferências, o leitor pode consultar o Apêndice A. O Apêndice também lista algumas correlações interessantes que apareceram entre a ausência de uma característica e as escolhas da pessoa. Por exemplo, os usuários que não selecionaram a palavra “responsável” para se descrever incluíam indivíduos que gostavam de livros sobre sexo, erotismo, gay e lésbico; de filmes independentes; de escutar funk music, jungle, reggae e trance; e que gostavam de praticar skate e de frequentar festas rave.
Área de Estudo e Personalidade Também examinamos a relação entre a área de estudo ou departamento de uma pessoa e quais adjetivos (três de uma lista de dezesseis) eles selecionaram para se descrever. Como existem muitos cursos diferentes, os dados estavam distribuídos entre fatias estreitas. Ainda assim pudemos encontrar algumas tendências significativas, mostradas na Tabela 1. Estudantes de física, matemática e engenharia eletrônica permaneceram fiéis ao estereótipo nerd, sendo aproximadamente duas vezes mais propensos a aproveitar seu tempo livre aprendendo e descrevendo a si próprios como “esquisitos”.
Tabela 1: Traços de personalidade e correlações positivas às áreas de estudo.
personalidade (porcentagem do total)
tempo livre
você
área de estudo
aprendendo (17%)
Física (46%), Filosofia (37%), Matemática (31%), Engenharia Elétrica (26%) e Ciência da Computação (24%)
lendo (26%)
Letras (Língua Inglesa) (55%)
ficando em casa (8%)
História (24%)
fazendo qualquer coisa estimulante (52%)
indeciso/não declarado (62%)
cumprindo compromissos (16%)
Psicologia (27%)
assistindo TV (17%)
Relações Internacionais (26%)
inteligente (32%)
Filosofia (59%) e Ciência da Computação (42%)
bem-sucedido (4%)
Ciência da Computação (7%)
socialmente adaptável (14%)
Ciência, Tecnologia e Sociedade (46%)
atraente (16%)
Ciência Política (29%) e Relações Internacionais (25%)
adorável (12%)
Ciência Política (24%)
bondoso (25%)
Políticas Públicas (45%)
esquisito (12%)
Física (34%), Matemática (28%) e Engenharia Elétrica (18%)
diverdido (26%)
Biologia Humana (38%)
criativo (22%)
Design de Produto (62%) e Letras (Língua Inglesa) (42%)
sensual (8%)
Letras (Língua Inglesa) (18%)
Treze dos 29 estudantes de Políticas Públicas (duas vezes a proporção média) se descreveram como “gentis”, enquanto uma grande quantidade dos 62 estudantes de Ciências Políticas se considerou “atraente” (29% contra 16%) e “adorável” (24% contra 12%). Aqueles que ainda não haviam declarado uma área de estudo (presumivelmente calouros) eram mais chegados a “fazer qualquer coisa estimulante” (209 de 337). Por outro lado, os 46 estudantes de história eram três vezes mais propensos a gostar de passar o tempo livre em casa. Previsivelmente, os 74 estudantes de Língua Inglesa eram duas vezes mais propensos a gostar de passar o tempo livre lendo e a se considerar “criativo”. Eles também eram duas vezes mais propensos a se descrever como “sensual” (18%), enquanto, por outro lado, apenas três dos 136 estudantes de Engenharia Elétrica escolheram se descrever dessa forma.
Diferenças de Gênero Examinamos, na sequência, o quanto o gênero influencia a personalidade e as preferências. Enquanto a maioria das diferenças era pequena (como mostrado no Apêndice B), normalmente na faixa de 5 a 10%, algumas eram bastante acentuadas, como o fato de o dobro de mulheres, em relação aos homens, gostarem de ler livros de romance. Embora não seja possível afirmar que todas as mulheres ou todos os homens são de certa maneira, a maioria dessas pequenas tendências se apresentou conforme os estereótipos existentes de diferenças de gênero. Mais homens do que mulheres gostam de livros sobre computador, ficção científica, temas profissionais, temas técnicos, ciência e negócios. Mais mulheres do que homens gostam de romances e livros sobre saúde, mente e corpo; culinária; e arte e fotografia. Mais homens preferem futebol americano, frisbee golf, tênis de mesa e
golfe, enquanto mais mulheres preferem ginástica, hóquei de campo e softball. Mais homens gostam de filmes de ficção científica, guerra e ação, ao contrário dos filmes de romance, família e drama que as mulheres gostam de assistir. Mais homens indicaram que gostam de passar o tempo livre aprendendo e fazendo atividades fisicamente desafiadoras, enquanto mais mulheres disseram que gostam de botar as tarefas em dia e socializar. Homens preferiam amigos com conhecidos e interesses em comum, enquanto mulheres valorizavam sorriso, honestidade e confiança. As mulheres procuravam pelas mesmas características em parceiros românticos, mas os homens estavam mais propensos do que as mulheres a valorizar aparência, sexo e atração física. Ao buscar apoio em alguém, alguns homens se deslocaram a extremos, buscando “eternos otimistas” ou “pessoas que me dão logo o que eu quero”. Mulheres buscavam apoio de um tipo mais emocional, buscando “pessoas que me aceitam incondicionalmente” e “ouvintes”. Por fim, mais homens do que mulheres se descreveram como inteligentes, enquanto mais mulheres do que homens se consideraram divertidas, adoráveis e amigáveis. Isso pode ser mais um indicativo da propensão masculina a se vangloriar do que de inteligência em si, já que não existe nenhuma relação confirmada entre inteligência e gênero (Halpern, 2000).
Associação por semelhança Muitos estudos têm confirmado a tendência das pessoas a compartilhar interesses em comum com seus contatos sociais (Lazarsfeld e Merton, 1954; Touhey, 1974; Feld, 1981). Tiramos proveito da riqueza do conjunto de dados do Club Nexus para averiguar quais interesses ou traços em comum mais influenciaram as amizades. Para esse fim, usamos a quantidade que chamamos de “taxa de associação” para medir a homofilia da rede. Para um determinado traço, a taxa de associação é a proporção de contatos feitos entre pessoas compartilhando um traço e a proporção de indivíduos na população possuindo aquele traço. Por exemplo, 329 ou 16% dos usuários indicaram que gostavam de dança de salão e eles possuíam 2.727 conexões com camaradas. Se a seleção de amigos de uma pessoa fosse independente do fato de gostarem de dança de salão, então 16% ou 437 conexões seriam com outros dançarinos de salão. No entanto, um total de 704 conexões ficou dentro do grupo de dançarinos de salão. Isso nos dá uma taxa de 1,61 como força de associação entre dançarinos de salão. Também calculamos um Z-score para confirmar que a taxa não possa ter ocorrido por acaso. Aproximadamente todos os interesses apresentaram uma tendência estatisticamente significativa de os indivíduos que os compartilhavam se associarem uns com os outros (para resultados detalhados, veja o Apêndice C). Também descobrimos, ainda, que, de forma geral, as atividades ou interesses que eram compartilhados por um subconjunto menor de pessoas apresentaram taxas de associação mais fortes do que atividades muito genéricas ou interesses que poderiam ser apreciados por muitos. Por exemplo, frequentar raves (1,64), praticar dança de salão (1,61) e praticar dança latina (1,49) apresentaram associação mais forte do que fazer churrasco (1,20), ir a festas (1,18) ou acampar (1,11), na categoria de atividades sociais, embora todas tenham apresentado Z-scores muito altos. Em esportes, particularmente os esportes coletivos e os esportes de nicho foram melhores indícios de contatos sociais do que os esportes que possam ser praticados individualmente ou casualmente. Entre os esportes aquáticos, nado sincronizado, mergulho livre, remo e wakeboarding foram melhores indícios do que navegação, pesca, natação ou windsurfe. Na categoria de esportes terrestres, esportes coletivos, particularmente os esportes coletivos femininos, como lacrosse e hóquei em campo foram melhores indícios do que futebol (frequentemente praticado casualmente, em oposição aos times universitários competitivos), tênis ou raquetebol. Na categoria “outro esporte”, esportes de nicho ou extremos como ciclismo freestyle, skate, freestyle frisbee, ultimate frisbee e paraquedismo foram mais indicativos do que esportes com um apelo mais amplo, como caminhada (backpacking), levantamento de peso, aeróbica, corrida, caminhada, esqui na neve, artes marciais ou andar de bicicleta. Observamos que gêneros de livros, filmes e música de nichos eram melhores indícios de amizade do que os genéricos. Livros de temática homossexual, lidos por 63 usuários, apresentam taxa de 4,37, seguidos por livros sobre profissões e livros técnicos, livros adolescentes e livros sobre computadores. Em contraste, a categoria genérica “ficção e literatura” apresentava uma taxa de 1,09. Gêneros específicos de filmes, como os de temática homossexual, os de artes performáticas, os de religião e os de erotismo e pornô suave apresentaram pontuações mais altas do que os gêneros que apelam para uma audiência mais ampla, como os de ação, drama, mistério, documentário ou comédia. Gêneros musicais fora do mainstream, como gospel, jungle, bluegrass/rural e heavy metal foram melhores indícios do que jazz, pop, música clássica e rock. Também checamos a homofilia nas personalidades auto-descritas pelos usuários (veja Apêndice D). Usuários que se descreviam como sensuais, talentosos, divertidos, esquisitos ou adoráveis gostavam de se associar àqueles que se descreviam do mesmo modo. Sabemos, a partir da análise anterior, que aqueles que se descrevem como sensuais são mais propensos a valorizar sexo nas amizades e no romance. Portanto faz sentido que eles queiram se relacionar com outras pessoas sensuais. No entanto, não observamos homofilia nos indivíduos que se descreviam como “inteligente”, “responsável”, “bondoso”, “competente” e “bemsucedido”. Não foi surpresa que aqueles que gostam de passar seus tempos livres cumprindo compromissos e
socializando se associem preferencialmente a outros que gostem de fazer o mesmo. Em contraste, usuários que gostam de ficar em casa ou de ficar sozinhos não se associam preferencialmente a outros solitários. Uma observação que fizemos sobre a relação entre um perfil de usuário e sua rede social é que listar mais preferências e interesses está levemente correlacionado (r = 0,2) ao número de camaradas listados através do Club Nexus. Existem duas possíveis explicações: 1) Usuários que dedicam mais tempo para inserir seus amigos no banco de dados também passariam mais tempo listando mais de seus interesses e atividades; e 2) Usuários mais ativos mantêm mais contatos sociais. Infelizmente, a forma como os dados foram coletados não nos permite diferenciar entre as duas. Por fim, pudemos utilizar os perfis de usuários e suas posições na rede para testar a hipótese das conexões fracas (Granovetter, 1973). Ela afirma que as conexões entre indivíduos dissimilares são importantes para a criação de conexões entre comunidades. Nós calculamos a intermediação de uma aresta: quantos caminhos (dos mais curtos possíveis) passam por ela (Freeman, 1977; Wasserman e Faust, 1994). Então comparamos a intermediação da aresta a quão similares os dois indivíduos compartilhando essa aresta eram, baseados na sobreposição de seus perfis. Encontramos um coeficiente de correlação negativo r = -0,2, o que significa que as interações entre pessoas dissimilares têm o papel de reduzir a distância média entre dois usuários quaisquer da comunidade. Também não se deve subestimar o papel dos indivíduos altamente conectados. Existe uma correlação muito forte (r = 0,77) entre a intermediação de um indivíduo e o número de camaradas que ele tem. Usuários com muitos amigos naturalmente servem como ponte social e seus amigos são menos propensos a que todos formem uma panelinha social, o que é indicado por uma correlação negativa (r = -0,12) entre a pontuação de intermediação individual e o coeficiente de clustering para seus amigos.
Similaridade e distância Até agora, estabelecemos que pessoas que compartilham interesses ou características são mais propensas a serem amigas do que aquelas que não os compartilham. Levamos isso a um passo adiante ao examinarmos quão similares as pessoas eram, em média, em função da sua separação na rede Nexus. Na Figura 4, comparamos qual fração dos (primeiros, segundos, terceiros, quartos, etc) vizinhos compartilha com o indivíduo o mesmo atributo, como o departamento ou o ano cursado. Descobrimos que a similaridade despenca rapidamente na maioria das categorias. Ou seja, existe uma probabilidade muito maior de compartilharmos uma característica com um amigo ou com o amigo de um amigo do que com alguém a 4 passos de distância. Especificamente, descobrimos que o ano cursado é muito mais importante para estudantes de graduação do que para estudantes de pós-graduação, mas que o departamento é mais importante para os pós-graduandos do que a área de estudo é para os graduandos. Isso pode ser explicado pela observação de que estudantes de graduação frequentam muitas aulas obrigatórias com outros alunos de sua turma, mas alunos de pósgraduação geralmente passam a maior parte do tempo interagindo com indivíduos de seus grupos de pesquisa e às vezes colaboram com outros em seu departamento. Os cursos que realizam tendem a ser mais especializados e geralmente vão expô-los primeiramente a outros estudantes de pós-graduação eu sua própria área. Finalmente, descobrimos que atributos como gosto para livros e filmes também apresentam declínio em semelhança com o aumento da distância na rede. O efeito é muito menor, possivelmente porque essas variáveis não influenciem na mesma proporção o modo como e a companhia com quem os estudantes passam o tempo.
O Nexus Karma Vários meses após o lançamento do Club Nexus, o Nexus Karma foi anunciado por e-mail como um novo recurso. Foi dada aos usuários a o oportunidade de classificar o quão “confiáveis”, “simpáticos”, “legais” e “sensuais” seus camaradas eram, em uma escala de 1 a 4. Não era possível escolher quais camaradas classificar, mas foi necessário classificar todos de uma vez só. Depois de uma semana, os usuários que haviam sido classificados por um mínimo de três camaradas recebiam um convite por e-mail para classificar seus camaradas de volta. Houve uma tremenda resposta, com 446 usuários classificando 1.735 amigos diferentes. Esses dados nos permitiram avançar além das percepções pessoais dos usuários e integrar as percepções de uns sobre os outros aos dados da rede.
Figura 4: Fração média de usuários com uma característica comum (ano cursado, status acadêmico: graduando ou pós-graduando, etc) em função da distância em relação a um usuário com aquela característica. O material está truncado em 8 saltos porque menos de 0,03% dos pares são separados por mais de 8 saltos. Descobrimos que os usuários tinham uma tendência a dar, para um camarada, uma pontuação similar em todas as categorias. Ou seja, usuários tenderam a classificar seus amigos como “3, 3, 3, 3” em vez de “1, 4, 2, 3”. Isto resultou em um alto coeficiente de correlação entre os diferentes atributos. Contudo, ainda houve diferenças perceptíveis nas pontuações dadas. Em média, os usuários receberam as pontuações mais altas para a simpatia (3,37) e a confiabilidade (3,22), seguidas pela “legalzice” (3,13) e pela sensualidade (2,83). Enquanto pares de atributos discordantes, como “confiável-sensual” ou “simpático-sensual”, tiveram o baixo coeficiente de correlação de 0,4, os pares de atributos “confiável-simpático” e “legal-sensual” tiveram os coeficientes de correlação de 0,7 (mais altos). Isto indica que, embora os usuários tivessem uma opinião generalizada sobre os seus camaradas, eles tendiam a associar confiabilidade com simpatia e “legalzice” com sensualidade. Encontramos correlações leves ou desprezíveis entre a pontuação média de uma pessoa em cada categoria e o número de camaradas que elas têm. Isto nega a hipótese de que as pessoas percebidas como legais ou simpáticas tenham mais amigos. Interessantemente, encontramos uma ligeira relação negativa (r ~ -0,1) entre o número de camaradas que uma pessoa tinha e a pontuação média dos itens “confiável”, “simpático” e “legal” que essa pessoa dava a eles. A interpretação simples é a de que aqueles que listam, no Club Nexus, apenas um pouco dos seus amigos tendem a listar os mais próximos, aqueles que eles classificariam com pontuações mais altas. Usuários que listam uma extensa quantidade de amigos estão mais propensos a incluir aqueles sobre os quais não possuem a melhor opinião. Encontramos correlações interessantes entre as avaliações que os usuários receberam e os adjetivos que escolheram para descrever a si próprios. Usamos um teste para duas médias amostrais de forma a avaliar se a pontuação média em uma categoria diferia no nível de 1% de significância entre aqueles que escolheram e os que não escolheram um adjetivo em particular para se descrever. Alguns adjetivos apresentaram uma leve, mas significativa, diferença. Por exemplo, aqueles que se descreveram como responsáveis receberam, em média, pontuações mais altas quanto à confiabilidade (média de 3,36 contra os 3,23 daqueles que não se descreveram como responsáveis), mas receberam pontuação levemente mais baixa nas categorias “legal” (3,02 contra 3,13) e “sensual” (2,67 contra 2,85). O inverso ocorreu com aqueles que se descreveram como “atraentes” ou “sensuais”. Eles foram classificados em posições mais altas na categoria “sensual”, mas se saíram pior nas categorias “confiável” e “simpático”. Como esperado, usuários “amigáveis” e “bondosos” receberam pontuações mais altas na categoria “simpático”, enquanto pessoas “bondosas” também foram classificadas como mais “confiáveis”. Usuários que se descreveram como “esquisitos” receberam pontuações mais baixas na categoria “sensual”, enquanto pessoas “engraçadas” foram percebidas como menos “simpáticas”. Isto não apenas demonstra uma clara correspondência entre a maneira como os indivíduos se percebem e como são percebidos por outros, mas também uma interessante dicotomia entre qualidades
desejáveis, tais como ser engraçado ou atraente, e se as pessoas que possuem essas características são percebidas como simpáticas. Também estávamos interessados nas razões pelas quais os indivíduos decidiram atribuir tais pontuações. Podese esperar que pessoais mais simpáticas sejam mais generosas em seus julgamentos. De fato, quanto mais alta a pontuação de “simpático” de um usuário, mais altas eram as pontuações de “confiável”, “simpático e “legal” (r = 0,14-0,17) que eles atribuíam aos seus amigos. De maneira similar, quanto mais alta a pontuação de “confiável”, mais altas eram as pontuações de “confiável”, “simpático” e “sensual” que esses usuários atribuíam aos outros (r = 0,14-0,20). Também encontramos evidências de que algumas amizades são mais próximas que outras. Por exemplo, usuários que compartilham amigos (e, portanto, pertencem à mesma “panelinha”) são mais propensos a dar, uns aos outros, pontuações mais altas (r = 0,10-0,13). Ainda descobrimos que usuários tendem a ser recíprocos em suas pontuações de “confiável” e “simpático”, o que significa que se um usuário A atribuir a um usuário B uma pontuação mais alta que a média, então o usuário B é (de alguma forma) mais propenso a fazer o mesmo pelo usuário A. Note que as pontuações de um usuário sobre os outros são independentes, já que as pontuações que cada um de seus amigos lhe atribuíram não são publicadas, exceto pelo resultado geral. No entanto, os usuários não pareceram recíprocos quanto às suas opiniões de “legal” e “sensual”. Esses são apenas alguns dos insights que puderam ser obtidos do conjunto de dados do Nexus Karma. Esperamos estudá-lo em mais detalhe em trabalhos futuros.
Conclusões e trabalhos futuros Apresentamos uma análise preliminar de rede social da comunidade on-line Club Nexus. Em muitos aspectos, a comunidade on-line parece refletir a estrutura da comunidade subjacente da Universidade de Stanford. O tamanho da rede nos permitiu estudar fenômenos como o “efeito mundo pequeno” e a força dos laços fracos, enquanto a riqueza dos perfis nos permitiu caracterizar laços sociais e identificar quais fatores influenciam as amizades. Nossa análise foi capaz de detectar muitas tendências esperadas (por exemplo, estudantes de Letras gostando de passar seu tempo livre lendo, ou pessoas que compartilham interesses restritos ou incomuns se tornando amigas), enquanto simultaneamente encontramos relações não-óbvias (por exemplo, pessoas “responsáveis” sendo percebidas como menos “legais”). O que torna o Club Nexus especial é a possibilidade de se observar esses padrões em larga escala, com muitas variáveis diferentes. A riqueza dessas informações pode ser usada para modelar dinâmicas como a disseminação de ideias em rede ou a maneira como as pessoas podem encontrar umas às outras através de seus contatos. Os dados de classificação do Nexus Karma podem nos ajudar a entender melhor os mecanismos de reputação utilizados atualmente pelos varejistas on-line (Resnick e Zeckhauser, 2002). Conforme a comunidade do Club Nexus evoluir, haverá a oportunidade de se estudar as mudanças na rede ao longo do tempo, assim como de analisar dinâmicas sociais como a adoção de um novo recurso introduzido no site. Enquanto rastrear redes sociais ao longo do tempo por métodos tradicionais (como telefone ou entrevistas ao vivo) é muito caro e demorado, o estudo de comunidades on-line é relativamente simples e pode proporcionar novos e valiosos insights.
Sobre os Autores Lada Adamic é uma pesquisadora do Information Dynamics Group, no Hewlett-Packard Labs (Palo Alto, Califórnia). Orkut Buyukkokten é um pesquisador do Google Labs, em Mountain View, Califórnia. Durante o último ano de seu PhD em Ciência da Computação em Stanford, ajudou a criar o Club Nexus, a comunidade on-line que é o assunto deste artigo. Ele também co-fundou a Affinity Engines, uma empresa que ajuda organizações a construir comunidades on-line. Eytan Adar é um pesquisador do Information Dynamics Group, no Hewlett-Packard Labs (Palo Alto, Califórnia).
Agradecimentos Gostaríamos de agradecer a Rajan Lukose, Mette Huberman, T.J. Giuli e Kresimir Adamic, por seus valiosos comentários.
Referências L.A. Adamic and E. Adar, in press. "Friends and neighbors on the Web," Social Networks. P. Curtis, 1992. "Mudding: Social phenomena in text-based virtual realities," In: Proceedings of the 1992 Conference on the Directions and Implications of Advanced Computing, Berkeley, Calif. (May). S.L. Feld, 1981. "The focused organization of social ties," American Journal of Sociology, volume 86, number 5 (March) pp. 1015-1035. http://dx.doi.org/10.1086/227352 L.C. Freeman, 1977. "A set of measures of centrality based upon betweenness," Sociometry, volume 40, number 1 (March), pp. 35-41. http://dx.doi.org/10.2307/3033543 M. Granovetter, 1973. "The strength of weak ties," American Journal of Sociology, volume 78, number 6 (May), pp. 1360-1380. http://dx.doi.org/10.1086/225469 D.F. Halpern, 2000. Sex differences in cognitive abilities. Mahwah, N.J.: Lawrence Erlbaum. P. Lazarsfeld and R.K. Merton, 1954. "Friendship as a social process: A substantive and methodological analysis," In: M. Berger, T. Abel, and C.H. Page (editors). Freedom and control in modern society. New York: Van Nostrand, pp. 18-66. M.E.J. Newman, S.H. Strogatz, and D.J. Watts, 2001, "Random graphs with arbitrary degree distributions and their applications," Physical Review E, Third Series, volume 64, parts 1 and 2 (August), 026118. P. Resnick and R. Zeckhauser, 2002. "Trust among strangers in Internet transactions: Empirical analysis of eBay's reputation system," In: Michael R. Baye (editor). The economics of the Internet and ecommerce. Advances in Applied Microeconomics, volume 11. Amsterdam, Elsevier. J.C. Touhey, 1974. "Situated identities, attitude similarity, and interpersonal attraction," Sociometry, volume 37, number 3 (September), pp. 363-374. http://dx.doi.org/10.2307/2786388 S. Wasserman and K. Faust, 1994. Social network analysis. Cambridge: Cambridge University Press, pp. 188191. D.J. Watts and S.H. Strogatz, 1998. "Collective dynamics of small-world networks," Nature, volume 393, number 6684 (4 June), pp. 440-442. B. Wellman, A. Quan-Haase, J. Boase, and W. Chen, 2002a. "Examining the Internet in everyday life," Keynote address to the Euricom Conference on e-Democracy, Nijmegen, Netherlands (October). B. Wellman, J. Boase, and W. Chen, 2002b. "The networked nature of community online and offline," IT & Society, volume 1, number 1 (Summer), pp. 151-165. N. Yee, 2001. "The Norrathian Scrolls: A study of Everquest," at http://www.nickyee.com/eqt/report.html, accessed 5 February 2003.
Apêndice A
Tabela A1: Correlações entre a personalidade de um usuário e suas preferências
personalidade
preferência/ atividade livros
negócios (4,34; 48; 26,5)
cinema
erótico e softcore (3,09; 48; 31,5)
música
disco music (3,04; 51; 34,1)
outra
levantamento de peso (4,64; 102; 67,8)
social
pular de bar em bar (5,43; 154; 107,4), frequentar casas noturnas (5,83; 190; 137,3), dançar hip hop (4,20; 121; 87,2), banho coletivo em banheira quente (5,14; 157; 112,4), ir a festas (5,55; 246; 195,4)
esporte aquático
remo (3,99; 30; 14,9), mergulho livre (3,32; 20; 9,8), jet ski (3,41; 68; 46,4), mergulho autônomo - scuba diving (3,18; 62; 42,6)
livros
arte e fotografia (6,47; 143; 88,7), filosofia (3,42; 120; 91,0), ficção e literatura (3,26; 282; 248,6), clássicos (2,75; 164; 137.4)
música
folk (4,80; 83; 50,9), bluegrass/rural (3,26; 57; 37,8), jazz (3,16; 164; 133,6)
cinema
arte (6,95; 141; 83,8), documentário (2,79; 129; 104,2), independente (5,04; 206; 155,7)
livro
filosofia (3,19; 297; 252,1), sexo (3,22; 169; 133,9)
cinema
erótico e softcore (2,83; 139; 110,6), independente (2,93; 480; 431,4)
música
funk music (2,93; 194; 159,5)
social
banho coletivo em banheira quente (3,03; 444; 394,7), frequentar raves (2,80; 181; 149,0)
livro
entretenimento (3,04; 137; 108,8)
esporte terrestre
vôlei de praia (2,87; 127; 101,1), futebol americano (2,86; 123; 97,5)
cinema
aventura (3,16; 305; 268,8), drama (3,45; 325; 285,7), terror (2,53; 108; 86,5), romance (2,98; 200; 168,2)
música
rap/hip hop (4,20; 282; 234,2), soul/R&B (2,60; 193; 165,4)
outra
patinação no gelo (2,69; 100; 78,1)
social
ir a festas (5,93; 369; 301,8), frequentar casas noturnas (4,99; 268; 211,9), dançar hip hop (4,43; 179; 134,6), pular de bar em bar (3,02; 198; 165,9), banho coletivo em banheira quente (2,92; 205; 173,5)
esportes aquáticos
surfe (2,78; 68; 49,4), wakeboarding (3,31; 54; 35,1), esqui aquático (2,91; 89; 66,8)
atraente
criativo(a)
NÃO* amigável
divertido(a)
item (Z score; número de indivíduos que selecionaram ambos – traço e item; e o número esperado randomicamente)
engraçado(a)
inteligente bondoso(a)
adorável
NÃO* responsável
sensual
esporte terrestre
tênis de mesa (2,51; 153; 128,3)
cinema
comédia (3,43; 416; 381,6)
música
rap/hip hop (2,73; 262; 231,1), rock (3,05; 377; 344,2)
outras
boliche (3,04; 179; 147,7), levantamento de controle remoto (3,16; 204; 170,2)
livros
filosofia (2,90; 169; 138,7), política (2,81; 141; 113,7), ciências (3,99; 151; 112,4), ficção científica (2,88; 213; 180,0)
outras
jogos de computador (2,74; 134; 108,0)
cinema
ficção científica (2,67; 201; 172,3)
livros
culinária (2,53; 38; 25,8), entretenimento (3,27; 73; 52,0), romance (2,89; 35; 22,0)
cinema
aventura (2,59; 149; 128,5), mistério (2,92; 93; 72,1), romance (5,63; 122; 80,4)
música
easy listening (3,13; 48; 31,6), latina (2,81; 71; 52,9), rap/hip hop (2,80; 134; 112,0), soul/R&B (4,20; 110; 79,1), trip-hop (2,52; 40; 27,5)
outra
aeróbica (2,58; 36; 24,0)
social
dançar hip hop (4,43; 95; 64,4)
esporte aquático
natação (2,82; 121; 99,1)
livros
sexo (3,88; 149; 110,6)
cinema
erótico e softcore (3,15; 120; 91,3), gay e lésbico (3,11; 55; 36,5), independente (3,70; 412; 356,2)
música
funk music (3,11; 165; 131,7), jungle (3,15; 99; 73,1), reggae (2,87; 199; 165,4), trance (2,86; 231; 195,2)
outra
andar de skate (2,54; 63; 46,2)
social
frequentar raves (4,14; 166; 123,1)
livros
sexo (7,71; 51; 19,2); juvenil (5,26; 19; 6,2); saúde, corpo e mente (3,06; 29; 17,0)
esporte terrestre
luta (3,05; 14; 6,4)
cinema
erótico e softcore (9,80; 53; 15,8), faroeste (4,40; 28; 12,8), gay e lésbico (4,32; 17; 6,3), terror (2,64; 41; 28,2)
música
funk music (4,98; 45; 22,8), house (3,88; 47; 28,2), disco music (3,52; 31; 17,2), jungle (3,31; 24; 12,7), trip-hop (2,75; 30; 18,8), reggae (2,73; 42; 28,7)
outras
levantamento de peso (4,19; 56; 34,1), bungee jumping (3,26; 20; 10,0), andar de skate (2,89; 16; 8,0)
social
banho coletivo em banheira quente (6,58; 97; 56,5), pular de bar em bar (4,60; 82; 54,0), frequentar raves (4,78; 42; 21,3), ir a festas (4,29; 126; 98,3), dançar hip hop (3,88; 66; 43,9),
dança folclórica (3,62; 15; 6,2), frequentar casas noturnas (3,58; 92; 69,0)
NÃO* sensual
socialmente adaptável
esportes aquáticos
jet ski (3,26; 38; 23,3), surfe (2,86; 27; 16,1)
livros
ficção científica (2,61; 305; 268,5)
livros
sociologia (3,41; 39; 23,2)
música
house (2,75; 65; 47,6), rap/hip hop (2,97; 154; 128,9)
outra
snowboarding (2,55; 65; 48,8)
social
pular de bar em bar (3,63; 120; 91,3), frequentar casas noturnas (2,92; 141; 116,7), frequentar raves (2,83; 52; 36,1)
esportes aquáticos
polo aquático (3,56; 23; 11,3)
NÃO* socialmente cinema adaptável outra
talentoso(a)
negócios (5,88; 21; 6,6)
esportes terrestres
tênis (3,41; 43; 28,2)
NÃO* ímpar
levantamento de peso (4,16; 32; 16,8)
social
churrasco (3,05; 41; 27,8)
esportes aquáticos
navegação (2,85; 22; 12,7), jet ski (4,30; 25; 11,5), esqui aquático (3,05; 20; 10,7)
livros
fantasia (3,03; 222; 186,0), ficção científica (2,66; 246; 212,9)
cinema
arte (3,43; 189; 151,2), fantasia (2,74; 198; 166,7), gay e lésbico (2,70; 43; 28,8), artes performáticas (3,02; 115; 88,3)
livros
profissionais e técnicos (3,17; 22; 11,6)
cinema
artes performáticas (4,20; 37; 19,5)
outra
andar de skate (2,87; 16; 8,1)
livros
fantasia (3,37; 184; 148,2), ficção científica (3,01; 203; 169,6)
NÃO* talentoso(a) cinema
ímpar
jogos de laser (2,67; 99; 76,8)
livros
bem-sucedido(a) outra
NÃO* bemsucedido(a)
arte (3,01; 185; 151,7), fantasia (2,59; 197; 167,3), artes performáticas (2,64; 112; 88,6)
arte (2,80; 148; 120,4), fantasia (2,96; 163; 132,8), independente (2,79; 257; 223,6)
outra
jogos de laser (2,97; 83; 61,0)
esportes terrestres
atletismo (2,58; 74; 55,9)
cinema
independente (2,52; 191; 165,1)
livros
ficção científica (4,59; 82; 53,4), fantasia (3,75; 69; 46,7)
esportes terrestres
esgrima (2,90; 14; 6,7)
cinema
fantasia (3,34; 61; 41,8), arte (3,27; 56; 37,9), ficção científica (3,05; 84; 64,0)
esquisito(a)
livros
fantasia (3,32; 78; 56,3), ficção científica (3,75; 90; 64,4)
cinema
arte (3,01; 64; 45,7), fantasia (3,27; 71; 50,4), ficção científica (2,90; 98; 77,1)
música
heavy metal (2,56; 39; 26,6)
outra
jogos de computador (3,24; 57; 38,6)
*Nota: Os traços de personalidade precedidos por “NÃO” (por exemplo, “NÃO amigável”) não significam que os usuários se descreveram como tendo tal traço. Ao contrário, eles elegeram não selecionar uma certa característica (por exemplo, “amigável”). O “NÃO” simplesmente significa a ausência de uma característica autodescrita.
Apêndice B
Tabela B1: Preferências dos usuários masculinos.
preferência/atividade
item (Z score; número observado; número estimado)
livros
computadores (5,74; 172; 113,3), ficção científica (5,65; 430; 338,6), profissionais e técnicos (4,72; 125; 83,1), ciências (4,49; 272; 211,5), negócios (3,85; 133; 96,4), política (3,33; 259; 213,9), filosofia (3,08; 306; 260,9), esportes (3,07; 179; 144,0), aventura (2,35; 337; 300,7)
esportes terrestres
futebol americano (5,92; 312; 229,6), golfe com disco (5,16; 195; 137,4), tênis de mesa (5,00; 384; 306,1), golfe (4,72; 258; 196,4), beisebol (4,70; 199; 145,2), basquete (4,02; 442; 374,8), críquete (2,88; 54; 36,8), esgrima (2,32; 57; 42,2), raquetebol (3,67; 94; 65,1), squash (2,32; 82; 63,9), tênis (2,94; 466; 415,1), futebol (2,10; 382; 347,6), luta (2,03; 60; 46,4)
filmes
ficção científica (7,42; 533; 405,5), guerra (6,98; 395; 288,6), ação (4,03; 771; 693,5), espionagem (3,59; 450; 389,2), erótico e softcore (3,26; 148; 114,5), aventura (2,69; 684; 632,6), anime (2,88; 202; 166,9), esporte (2,98; 262; 221,1), faroeste (3,02; 121; 92,8)
música
heavy metal (4,55; 191; 139,8)
outras
jogos de computador (7,02; 296; 203,0), levantamento de peso (5,55; 326; 246,4), sinuca (4,57; 432; 356,7), ultimate frisbee (4,53; 246; 188,0), ciclismo de montanha (4,51; 175; 126,5), paintball (4,35; 241; 185,6), jogos de laser (2,30; 146; 121,7), andar de bicicleta (2,15; 257; 227,1)
sociais
churrasco (3,04; 462; 409,7), frequentar festas rave (2,45; 183; 154,2), banho coletivo em banheira quente (2,06; 444; 408,5)
esportes aquáticos
pesca (2,23; 183; 156,7), iatismo (2,03; 205; 179,5)
personalidade
traços (Z score, observado, estimativa)
(passar o) tempo livre
aprendendo (4,21; 314; 253,1), fazendo atividades fisicamente desafiadoras (4,07; 414; 347,6)
(critérios para) amizades
amigos em comum (3,51; 217; 173,5), interesses em comum (3,33; 875; 811,0), aparência/visual (3,05; 92; 67,5), sexo (2,65; 72; 53,0)
(critérios para) romance
aparência/visual (5,09; 293; 222,9), sexo (3,41; 239; 194,6), atração física (2,93; 686; 630,2)
(pessoas nas quais buscam) apoio
eternos otimistas (3,88; 325; 267,5), pessoas que me dão logo o que eu quero (3,08; 872; 812,8), pessoas que dizem que também passam por maus momentos de vez em quando (2,12; 414; 378,4)
você
inteligente (2,99; 523; 469,4)
Tabela B2: Preferências das usuárias femininas.
preferência/atividade
item (Z score; número observado; número estimado)
livros
romance (8,28; 139; 71,5); ficção e literatura (5,55; 557; 470,2); saúde, mente e corpo (4,86; 123; 81,1); culinária (4,35; 122; 83,9); arte e fotografia (4,26; 218; 167,7); entretenimento (3,05; 205; 168,9); mistério e suspense (2,99; 209; 173,3); psicologia (2,52; 145; 119,2); clássicos (2,17; 290; 260,0)
esportes terrestres
ginástica (4,31; 53; 29,8), hóquei em campo (4,08; 35; 17,9), softbol (2,70; 84; 63,2)
filmes
romance (11,48; 420; 261,1), para a família (5,61; 135; 85,5), drama (5,16; 524; 443,6), musical (5,09; 230; 169,7), artes performáticas (3,54; 125; 92,6), comédia (2,38; 637; 600,6), independentes (2,12; 325; 294,5)
música
soul/R&B (5,39; 331; 256,8), pop (4,49; 442; 373,6), country (4,08; 121; 85,1), rap/hip-hop (3,06; 410; 363,7), folk (2,34; 118; 96,2), música latina (2,46; 201; 171,7)
outras
aeróbica (9,69; 160; 77,9), patinação no gelo (4,93; 172; 121,2), corrida (3,92; 262; 211,5)
sociais
dançar hip-hop (6,62; 294; 209,1), dança latina (3,94; 165; 124,0), frequentar casas noturnas (3,44; 380; 329,1)
esportes aquáticos
natação (2,79; 363; 322,0)
personalidade
traços (Z score; observado; estimativa)
(passar o) tempo livre
recuperando o atraso em tarefas e atividades (3,80; 244; 196,4), socializando (3,75; 715; 659,8)
(critérios para) amizades
risada (6,66; 791; 696,4), honestidade/confiança (3,95; 736; 678,9), comunicação (2,24; 514; 479,0)
(critérios para) romance risada (7,18; 579; 466,7), honestidade/confiança (2,92; 685; 641,5) (pessoas nas quais buscam) apoio
aceitadores incondicionais (5,99; 355; 271,1), ouvintes (3,43; 596; 542,6), pessoas que me mimam quando estou mal (2,95; 156; 125,2)
você
divertido (4,05; 307; 251,6), adorável (2,56; 142; 116,1), amigável (2,53; 446; 407,0)
Apêndice C: Preferências individuais e taxas de associação
Tabela C1: Gêneros de livros e taxas de associação.
gênero
taxa de associação
Z score
número de usuários
número de conexões
número estimado
gay e lésbico
4,37
15,35 63
88
20
profissionais e técnicos
1,75
6,61
138
128
73
computadores
1,65
8,52
188
256
154
juvenil
1,64
3,04
74
36
22
sexo
1,41
6,82
230
340
240
esportes
1,39
5,91
239
288
207
negócios
1,37
4,20
160
162
118
romance
1,32
3,63
180
158
120
religião e espiritualidade
1,31
5,63
258
376
286
política
1,31
7,80
355
700
535
arte e fotografia
1,29
9,29
422
1.056
819
sociologia
1,28
3,24
165
156
121
fantasia
1,26
9,80
491
1.356
1.075
entretenimento
1,26
8,46
425
1.064
845
saúde, mente e corpo
1,23
3,11
204
202
164
psicologia
1,21
4,69
300
496
408
ciências
1,21
4,91
351
572
474
gastronomia
1,20
3,03
211
236
195
ficção científica
1,20
8,54
562
1.610
1.343
biografias
1,19
4,89
337
630
527
viagens
1,17
3,71
306
450
382
não-ficção
1,16
4,79
419
868
750
filosofia
1,15
4,56
433
882
769
mistério e suspense
1,14
4,63
436
968
848
aventura
1,14
5,18
499
1.198
1.051
terror
1,13
1,32
144
102
89
clássicos
1,13
6,88
654
2.096
1.851
história
1,10
3,62
483
1.068
969
ficção e literatura
1,09
11,17 1.183
6.568
6.004
-1,13
68
77
natureza e atividades ao 0,88 ar-livre
140
Tabela C2: Gêneros de filmes e taxas de associação.
gênero
taxa de associação
Z score
número de usuários
número de conexões
número estimado
gay e lésbico
5,65
24,75
76
154
27
artes performáticas
1,76
13,22
233
472
268
religião
1,46
2,89
92
54
36
erótico e softcore 1,44
5,57
190
208
144
esportes
1,38
9,95
367
760
548
anime
1,37
6,82
277
408
298
musical
1,36
11,66
427
1.154
851
faroeste
1,32
3,33
154
136
103
para a família
1,26
3,85
215
252
200
fantasia
1,25
8,40
440
1.078
859
arte
1,25
7,48
399
898
718
policial
1,24
7,58
421
952
765
independente
1,24
14,70
741
3.056
2.471
biográfico
1,18
3,12
245
304
257
guerra
1,17
6,12
479
1.132
965
suspense
1,16
9,82
744
2.850
2.461
romance
1,15
7,49
657
1.984
1.727
histórico
1,15
4,21
398
754
657
ficção científica
1,14
7,52
673
2.192
1.921
terror
1,12
3,08
338
576
512
aventura
1,11
11,20
1.050
5.372
4.828
espionagem
1,11
5,62
646
1.974
1.777
ação
1,11
12,39
1.151
6.250
5.633
drama
1,10
11,39
1.116
5.996
5.429
mistério
1,08
3,63
589
1.554
1.437
documentário
1,06
2,20
496
1.060
999
comédia
1,05
9,34
1.511
10.002
9.533
Tabela C3: Gêneros musicais e taxas de associação.
gênero
taxa de associação
Z score
número de usuários
número de conexões
número estimado
gospel
2,06
6,76
105
80
38
jungle
1,78
8,67
152
202
113
bluegrass/rural 1,48
5,70
180
188
126
heavy metal
1,48
7,83
232
354
239
trance
1,44
13,92
406
1.158
804
funk music
1,42
8,14
274
454
318
música latina
1,42
13,71
432
1.212
855
house
1,40
10,08
338
758
543
folk
1,38
6,27
242
332
240
trip-hop
1,33
5,18
225
298
224
soul/R&B
1,31
16,43
646
2.498
1.904
techno
1,30
14,56
588
2.152
1.652
rap/hip-hop
1,30
24,99
915
5.004
3.850
new age
1,30
3,28
157
146
112
easy listening
1,29
5,05
258
344
266
reggae
1,25
6,26
344
640
510
blues
1,23
5,93
348
664
538
country
1,23
3,16
214
212
172
disco music
1,22
3,15
206
234
192
jazz
1,19
9,70
636
2,124
1.783
world music
1,18
5,01
384
724
612
pop
1,18
15,50
940
4.668
3.951
música clássica
1,12
6,87
716
2.372
2.116
rock
1,10
15,54
1.363
8.670
7.871
Tabela C4: Esportes terrestres e taxas de associação.
esporte
taxa de associação
Z score
número de usuários
número de conexões
número estimado
rugby de toque
33,08
N/A
4
2
0
lacrosse
3,12
7,09
54
34
10
hóquei em campo
2,64
5,00
45
24
9
luta
2,29
6,73
77
60
26
críquete
2,24
4,44
61
28
12
esgrima
2,14
4,77
70
36
16
golfe com disco 1,99
16,59
228
494
247
squash
1,79
5,21
106
74
41
atletismo
1,72
12,93
251
482
279
ginástica
1,66
3,55
75
46
27
softbol
1,64
6,87
159
176
107
beisebol
1,59
9,98
241
400
251
badminton
1,56
8,76
221
336
214
futebol americano
1,56
15,50
381
970
621
golfe
1,33
7,43
326
582
439
vôlei
1,22
6,18
388
764
624
vôlei de praia
1,20
5,71
395
804
670
basquete
1,15
6,95
622
1.758
1.530
tênis de mesa
1,14
5,29
508
1.232
1.081
futebol
1,13
5,53
577
1.506
1.334
tênis
1,05
2,52
689
1.924
1.835
raquetebol
0,80
-1,34
108
34
42
Tabela C5: Esportes aquáticos e taxas de associação.
esporte
taxa de associação
Z score
número de usuários
número de conexões
número estimado
nado sincronizado
3,25
5,91
45
22
6
mergulho livre
2,42
4,72
59
26
10
remo
2,24
6,97
90
68
30
wakeboarding
1,64
6,01
137
136
83
jet ski
1,38
7,28
280
442
320
surfe
1,33
4,16
193
190
142
mergulho autônomo (scuba diving)
1,33
5,93
257
376
282
esqui aquático
1,29
5,10
261
354
274
canoagem
1,24
5,36
309
538
434
polo aquático
1,18
0,97
80
32
27
iatismo
1,13
2,72
298
406
358
caiaque
1,13
2,93
309
472
416
navegação
1,10
2,11
309
418
380
natação
1,08
5,30
810
2.968
2.751
pesca
1,08
1,36
260
294
273
windsurfe
0,87
-1,12
135
56
64
Tabela C6: Outros esportes e taxas de associação.
esporte
taxa de associação
Z score
número de usuários
número de conexões
número estimado
ciclismo freestyle
2,11
3,46
48
20
9
skate
1,60
4,15
96
74
46
freestyle frisbee
1,58
4,06
96
74
46
ultimate frisbee
1,46
10,66 312
662
453
paraquedismo
1,45
5,18
174
119
minigolfe
1,41
14,01 426
1.296
918
jogos de computador
1,40
9,78
337
702
501
jogos de laser
1,31
4,59
202
264
202
ciclismo de montanha
1,30
4,13
210
220
169
boliche
1,28
13,45 585
2.060
1.604
escalada em rocha
1,28
6,22
302
554
434
ciclismo de estrada
1,27
2,15
124
76
59
levantamento de controle remoto
1,26
14,64 674
2.770
2.206
paintball
1,25
5,55
308
538
431
patinação
1,24
3,89
228
280
224
sinuca
1,23
10,79 592
1.908
1.549
triatlo
1,23
0,78
54
14
11
snowboard
1,22
5,34
346
594
486
bungee jumping
1,19
1,54
120
76
64
patinação no gelo
1,19
4,06
305
476
400
levantamento de peso
1,16
4,49
409
758
655
caminhada (backpacking)
1,16
5,40
477
1.062
918
aeróbica
1,12
1,62
196
172
152
corrida
1,10
3,83
532
1.284
1.171
caminhada
1,08
4,30
690
2.094
1.939
esqui na neve
1,08
2,91
517
1.196
1.112
artes marciais
1,05
0,65
211
182
173
andar de bicicleta
1,04
0,97
377
564
543
165
Tabela C7: Atividades sociais e taxas de associação.
atividade
taxa de associação
Z score
número de usuários
número de conexões
número estimado
frequentar raves 1,64
12,00
256
502
305
dança de salão
1,61
13,91
329
704
437
dança latina
1,49
10,80
312
620
416
pular de bar em bar
1,34
17,24
648
2.312
1.720
dança folclórica 1,34
1,51
74
26
19
dançar hip hop
1,33
13,62
526
1.652
1.238
banho coletivo em banheira quente
1,32
17,74
678
2.790
2.121
frequentar casas 1,24 noturnas
17,27
828
3.814
3.074
churrasco
1,20
10,93
680
2.364
1.967
ir a festas
1,18
22,31
1.179
7.372
6.224
acampar
1,11
6,83
745
2.618
2.353
Apêndice D: Personalidades e Taxas de Associação
Tabela D1: Como os usuários se descreveram e que tipo de pessoas procuravam outras como elas.
personalidade
taxa de associação
Z score
número de usuários
número de conexões
número estimado
sensual
1,46
5,47
204
192
131
talentoso
1,40
5,17
213
210
149
divertido
1,25
11,22
633
1.852
1.479
esquisito
1,25
4,32
286
332
265
adorável
1,22
4,20
292
406
333
ímpar
1,11
4,15
547
1.194
1.074
engraçado
1,10
4,06
619
1.474
1.345
amigável
1,10
7,55
1.024
4.024
3.674
socialmente adaptável
1,09
2,12
342
482
440
atraente
1,07
1,76
406
522
486
criativo
1,04
1,48
541
982
941
inteligente
1,01
0,42
779
1.848
1.833
responsável
0,99
-0,28
500
686
692
bondoso
0,99
-0,44
625
1.226
1.239
competente
0,92
-1,40
294
226
246
bem-sucedido
0,70
-1,57
99
18
25
Tabela D2: Como os usuários aproveitam o tempo livre e se os que passam o tempo livre da mesma maneira são mais propensos a serem amigos.
atividade no tempo livre
taxa de associação
Z score
cumprindo compromissos
1,34
9,30
socializando
1,12
recuperando o atraso em tarefas e atividades
número de usuários 398
número de conexões
número estimado
826
614
21,12 1.660
11.374
10.156
1,09
2,71
494
850
782
aprendendo
1,07
1,82
420
536
498
fazendo qualquer coisa empolgante
1,07
8,05
1.280
6.278
5.850
assistindo TV
1,07
1,85
415
602
561
lendo
1,02
0,66
631
1.186
1.166
ficando fora de casa
1,01
0,97
940
2.882
2.841
ficando em casa
0,97
-0,32
209
126
129
sozinho
0,96
-0,93
380
398
415
fazendo atividades fisicamente desafiadoras
0,96
-1,46
577
878
916
Histórico Editorial Artigo recebido em 1º de Abril de 2003; Aceito em 16 de Maio de 2003.
A social network caught in the Web by Lada A. Adamic, Orkut Buyukkokten, and Eytan Adar We present an analysis of Club Nexus, an online community at Stanford University. Through the Nexus site we were able to study a reflection of the real world community structure within the student body. We observed and measured social network phenomena such as the small world effect, clustering, and the strength of weak ties. Using the rich profile data provided by the users we were able to deduce the attributes contributing to the formation of friendships, and to determine how the similarity of users decays as the distance between them in the network increases. In addition, we found correlations between users' personalities and their other attributes, as well as interesting correspondences between how users perceive themselves and how they are perceived by others.
Contents Introduction User registration and data Network analysis Properties of individual profiles Association by similarity Similarity and distance Nexus Karma Conclusions and future work
Introduction Community Web sites are becoming increasingly popular — allowing users to chat, organize events, share opinions and photographs, make announcements, and meet new friends. Several prior studies have focused on characterizing these online interactions (Curtis, 1992; Yee, 2001), and others have attempted to measure the effect of the Internet on real life social interactions (Wellman et al., 2002a and 2002b). Our study has a somewhat different focus: While we can learn much about the online community itself, we are more interested in gleaning from it insights about the underlying real world social networks. The community we chose for our study is Club Nexus. Club Nexus was introduced at Stanford in the fall of 2001. It is a system devised by students to serve the communication needs of the Stanford online community. Students can use Club Nexus to send e-mail and invitations, chat, post events, buy and sell used goods, search for people with similar interests, place personals, display their artwork or post editorial columns. Within a few months of its introduction, Club Nexus attracted over 2,000 undergraduates and graduates, together comprising more than 10 percent of the total student population. The electronic nature of online community participation presents an opportunity to study human behavior and interactions with great detail and on an unprecedented scale. Traditional methods of gathering information on social networks require researchers to conduct time consuming and expensive mail, phone, or live surveys. This limits the size of the data sets and requires additional time and effort on the part of the participants. When studying an online community, our ability to learn more about the social network is simply a side effect of users transmitting information digitally. Previously we were able to analyze a portion of the Stanford social network reflected in the homepages of Stanford students and the hyperlinks between them (Adamic and Adar, in press). Our finding that personal homepages can create a large social network was an inspiration for Club Nexus. Because users are explicitly asked to name their friends, Club Nexus is more densely connected than the homepage network where users link to their friends of their own accord. The structured format of the profiles lends itself to easier statistical analysis than the free-form text of personal homepages. The data presents an opportunity to study, among
other things, the online community's structure, social interactions and how factors such as personality and interests influence one's choice of friends. In this paper we take the first step of analyzing the community as a social network, and compare profiles supplied by the users to characterize connections.
User registration and data Upon registering, users entered their names, e-mail addresses, birthdays (for birthday reminder notifications to their friends), major, graduate or undergraduate status, year in school, residence, and home country and state. They could also optionally list the high school (and college if they are graduate students) that they attended, as well as their phone number, hometown, homepage and picture. The data that we used in all of our analysis was anonymized, with user names replaced by unique ID's and only year, graduate or undergraduate status, and department retained from the above information. All results of our study are presented in aggregate to further ensure the users' privacy.
Figure 1: Nexus Net as seen from a single user perspective. Clicking on any of the nodes re-centers the graph around that user. In the second registration step, users were asked to list their friends and acquaintances at Stanford. In 'Nexusspeak' these people are called 'buddies'. Users identified their buddies by searching for them in the Stanford directory or by entering their names manually. If a user adds a buddy who is already registered, the buddy will get a notification that the user has requested to be their buddy and can accept or decline the request. If the 'buddy' is not yet registered, they will get an invitation to join Club Nexus. This viral sign-up strategy resulted in a rapid build-up of the user base. Several months after Club Nexus was introduced, users were given the opportunity to rank how 'trusty', 'nice', 'cool', and 'sexy' their buddies were. This added a new dimension to the interaction data. In addition to basic demographic information users were asked to add a list of interests and hobbies to their profile by checking off as many choices as they liked from listings of social activities, sports, and movie, music, and book genres. These choices could then be used by Club Nexus to match up users with similar preferences. In a final step, users were asked to select three items from lists of adjectives to describe their personalities, the
kinds of people they turn to for support, the ways they like to spend their free time, and what they look for in friendship and romance. The resulting dataset was a social network with rich profiles for each of the members. In the following sections we first analyze Club Nexus from a network perspective and then look at the relationship between the user attributes and their choices in contacts.
Network analysis The 'Nexus Net', a large social network, consists of 2,469 Nexus users and 10,119 links between them, two individuals being linked if they include each other on their buddy lists. Users can browse the network using the visual interface shown in Figure 1 and can automatically contact their neighbors out to some radius. For example, to organize an event, they can invite just their friends or their friends' friends. As is typical of both social networks in general and online communities in particular, the number of buddies a user has is distributed highly unevenly. Figure 2 shows that users most frequently listed just one buddy (over 200 listed no buddies), but some individual users had dozens of connections, and one had even exceeded a hundred. Part of the skewness in the connectivity distribution is due to the fact that some people are naturally more social than others, but it also reflects a varying eagerness on the part of users to enter their social contacts into an online service. In general, we expect that most Club Nexus users have more friends offline than just those that they list as their buddies with the service.
Figure 2: The number of connections users have; a single buddy being the most common case. The inset shows the same distribution on a log-log scale. In analyzing the social network we observed a small world effect (Migram, 1967; Watts and Strogatz, 1998), where the distance between any two users, measured in the number of hops along the Nexus Net, is only four on average (the full distribution is shown in Figure 3). This average might at first seem low in view of the fact that Club Nexus represents a diverse group of users, both undergraduates and graduates at various stages in their studies representing many departments. This is the counterintuitive aspect of the small world phenomenon: individuals tend to socialize in smaller cliques, often determined by factors such as year in school, department or dorm, yet any two users are separated by only a small number of hops. One can determine to what degree cliques are present by measuring the amount of clustering, also sometimes referred to as transitivity (Newman, 2001). The clustering coefficient tells us how many of a user's friends' friends were friends of the user themselves. In the case of Club Nexus the clustering coefficient of 0.17 is 40 times higher than it would be for a random network with the same number of users and connections. This tells us that there
is a significant amount of structure in the social interactions reported in Club Nexus. The apparent conflict between clustering and short paths was resolved by Watts and Strogatz (1998). They used a simple model of social networks to show that as long as there is a small fraction of 'random' connections between cliques, social networks could display both high clustering and small average shortest paths.
Figure 3: Distribution of user to user distances, with an average of 4 hops. The average is close to the 3.8 hops of an equivalent random graph with the same number of nodes and edges. While the above analysis of the network topology is insightful, things become even more interesting when user profiles are taken into account. We will explore these profile features in the next section and will later return to their impact on network properties.
Properties of individual profiles
Profile data and statistical tools In the process of registering users were asked to select three words out of a choice of 10 to 15 describing their personalities, what they look for in friendship and romance, how they spend their free time and what kind of people they turn to for support. All users completed this section as it was required for initial registration. Users were also asked to optionally express their preferences about book and movie genres, indoor, outdoor and water sports, and other activities. The 418 (of the 2,469) users who did not make a selection in any category were omitted from the analysis regarding preferences. We used Z-scores to characterize the relationships between different attributes the users chose. Z-scores indicate how likely it is to find a connection between two attributes by chance. Specifically, the probability that a Z-score falls above 2 or below -2 is five percent. So we can say that any correlation with an absolute Z-score greater than 2 is significant at the p = .05 level. For example, if we are interested in whether people who consider themselves funny enjoy watching comedies, we count the number of people (518 in all) who selected 'funny' as one of the three descriptive words for themselves. We then count the number of users (1,511 out of 2,051 that specified their interests) who selected comedies as a movie genre they liked. This gives a probability p = 0.74 that a randomly chosen user likes comedies. It then follows that of the 518 'funny' users, an expected p*518 = 382 would enjoy comedies with a standard deviation of 10. We observe that in actuality, 416 users who think they are 'funny' also enjoy comedies. This gives us a Z score of ((number observed)-(number expected))/(standard deviation) = 3.43. The probability that this occurs by chance, that is, that there is no connection between whether users consider themselves funny and whether they like comedies is 0.0003. Hence, although the difference is slight (about 10 percent more funny users like comedies than one would
expect from a random sample), the effect is significant. From here on, when we write that 'users possessing quality A tend to like B', we simply mean that the proportion of users having A and liking B is significantly different than the proportion of users overall who like B. In no way do we mean to say that all users having A are a certain way. Wherever practical, we've included the difference between observed and expected quantities in the tabulated results in the appendices. We would also like to remind the reader that the results pertain only to this particular online community, which is not necessarily representative of the population overall.
Personality and preferences We used this kind of analysis to find correlations between users' personalities and their preferences. Due to the large number of pairings of personality and preference, a few of the relationships may be found statistically significant by chance. But since so many pairings were found to be statistically significant, a majority of them represent true tendencies that paint reasonable portraits of personality types. Using this technique we found that users tended to be consistent in how they described themselves and what they looked for in others. For example, those who described themselves as sexy were more likely to look for sex in both friendship and romance. Those who described themselves as attractive thought appearance and looks were important. Those who thought themselves to be funny sought laughter both in friendship and romance. Statistical correlations between personalities and preferences aligned for the most part with stereotypes pertaining to those personalities. Individuals labeling themselves as 'weird' tended to have 'weird' friends and were more likely to prefer spending their free time alone and staying at home, not 'doing anything exciting' or 'doing physically challenging activities'. They are more likely to enjoy science fiction and fantasy books and movies, heavy metal, and computer gaming. They don't especially value looks in relationships and don't tend to describe themselves as fun, attractive or successful. On the other hand, those who described themselves as 'successful' spent their free time fulfilling commitments and catching up on chores. They also placed an emphasis on appearance and sex in romantic relationships and friendships and liked to spend their time doing physically challenging activities, including weightlifting, tennis, boating, jet and water skiing. They are also three times more likely to read business books. For a complete list of all significant relationships between personality and preferences the reader may consult Appendix A. The Appendix also lists some interesting correlations that appear between an absence of a characteristic and the person's choices. For example, those users who did not select the word 'responsible' to describe themselves include individuals who enjoy books on sex, erotic, gay and lesbian, and independent movies, listen to funk, jungle, reggae, and trance, and enjoy skateboarding and raving.
Academic Major and Personality We also examined the relationship between a person's academic major or department and what adjectives (three from a list of sixteen) they selected to describe themselves. Because there are many different majors, the data were spread out thinly. We were still able to glean a few statistically significant trends, shown in Table 1. Physics, math, and electrical engineering majors stayed true to a 'nerdy' stereotype, being approximately twice as likely to spend their free time learning and to describe themselves as 'weird'.
Table 1: Personality traits and positive correlations to majors.
personality (percent of total)
free time
major
learning (17%)
Physics (46%), Philosophy (37%), Math (31%), Electrical Engineering (26%), and Computer Science (24%)
reading (26%)
English (55%)
staying at home (8%) History (24%) doing anything exciting (52%)
undecided/undeclared (62%)
fulfilling
Psychology (27%)
commitments (16%)
you
watching TV (17%)
International Relations (26%)
intelligent (32%)
Philosophy (59%) and Computer Science (42%)
successful (4%)
Computer Science (7%)
socially adaptable (14%)
Science, Technology, and Society (46%)
attractive (16%)
Political Science (29%) and International Relations (25%)
lovable (12%)
Political Science (24%)
kind (25%)
Public Policy (45%)
weird (12%)
Physics (34%), Math (28%), and Electrical Engineering (18%)
fun (26%)
Human Biology (38%)
creative (22%)
Product Design (62%) and English (42%)
sexy (8%)
English (18%)
Thirteen of the 29 Public Policy majors (double the average proportion) described themselves as 'kind', while a high number of the 62 Political Science majors thought they were 'attractive' (29 vs. 16 percent) and 'lovable' (24 vs. 12 percent). Those who had not yet declared a major (presumably freshmen) were most amiable to 'doing anything exciting' (209 out of 337). On the other hand, the 46 history majors were three times as likely to enjoy spending their free time at home. Unsurprisingly, the 74 English majors were twice as likely to enjoy spending their free time reading and to consider themselves 'creative'. They were also twice as likely to describe themselves as 'sexy' (18 percent), while on the other hand, only three of the 136 Electrical Engineering majors chose to describe themselves in that way.
Gender Differences We next examined how gender influences personality and preferences. While most differences were slight (as shown in Appendix B), typically in the range of 5-10 percent, some were quite marked such as the fact that twice as many women as men liked to read romance novels. Although one cannot say that all women or all men are a certain way, for the most part these slight tendencies conformed to existing stereotypes of gender differences. More men than women enjoy computer, science fiction, professional, technical, science, and business books. More women than men enjoy romance novels, fiction, books about health, mind and body, cooking and art and photography. More men favor football, frisbee golf, table tennis, and golf, while more women prefer gymnastics, field hockey, and softball. More men enjoy science fiction, war, and action movies, as opposed to the romance, family and drama movies women like to watch. More men indicated that they like to spend their free time learning and doing physically challenging activities, while more women said that they like to catch up on chores and socialize. Men preferred friends with mutual acquaintances and common interests, while women valued laughter, honesty and trust. Women looked for the same characteristics in romantic partners, but men were more likely than women to appreciate appearance, sex, and physical attraction. When turning to someone for support, some men gravitated to extremes, turning to 'eternal optimists' or the 'give-it-to-you-straight' people. Women sought support of a more emotional kind and turned to the 'unconditional accepters' and the 'listeners'. Finally, more men than women described themselves as intelligent, while more women than men thought they were fun, lovable and friendly. This may be more indicative of the men's propensity to boast than true intelligence, because there is no confirmed relationship between overall intelligence and gender (Halpern, 2000).
Association by similarity
Many studies have confirmed the tendency of people to share common interests with their social contacts (Lazarsfeld and Merton, 1954; Touhey, 1974; Feld, 1981). We took advantage of the richness of the Club Nexus dataset to see what common interests or traits most influenced friendship. To this end, we used a quantity we termed 'association ratio' to measure network homophily. For a given trait, the association ratio is the proportion of contacts made between people sharing a trait to the proportion of individuals in the population possessing the trait. For example, 329 or 16 percent of the users indicated that they liked ballroom dancing and they had 2,727 buddy links. If one's selection of friends were independent of their enjoyment of ballroom dancing, then 16 percent or 437 of the links would be to other ballroom dancers. However, a full 704 of the links stay within the group of ballroom dancers. This gives us a ratio of 1.61 as the strength of association between ballroom dancers. We also calculate a Z score to confirm that the ratio is not likely to have occurred by chance. Nearly all interests showed a statistically significant tendency of those individuals sharing them to associate with one another (for detailed results see Appendix C). We found further that, in general, activities or interests that are shared by a smaller subset of people showed stronger association ratios than very generic activities or interests that could be enjoyed by many. For example, raving (1.64), ballroom dancing (1.61), and Latin dancing (1.49) showed stronger association in the social activity category than barbecuing (1.20), partying (1.18), or camping (1.11), although all had very high Z-scores. In sports in particular, multi-player team or niche sports were better predictors of social contacts than sports that could be pursued individually or casually. Among water sports, synchronized swimming, diving, crew, and wake boarding were better predictors than boating, fishing, swimming or windsurfing. In the land sports category, team sports, in particular women's team sports such as lacrosse and field hockey were better predictors than soccer (often played casually as opposed to in a competitive college team), tennis, or racquetball. In the 'other sport' category, niche or extreme sports such as freestyle biking, skateboarding, freestyle frisbee, ultimate frisbee, and sky diving are more predictive than sports that have wider appeal such as backpacking, weightlifting, aerobics, jogging, hiking, snow skiing, martial arts, or bicycling. We observed that niche book, movie, and music genres were more predictive of friendship than generic ones. Gay and lesbian books, read by 63 users, had a ratio of 4.37, followed by professional and technical, teen, and computer books. In contrast, the general category of 'fiction & literature' had a ratio of 1.09. Specific movie genres such as gay and lesbian, performing arts, religion and erotic & softcore had higher scores than genres that appeal to a wider audience such as action, drama, mystery, documentary or comedy. Nonmainstream music genres like gospel, jungle, bluegrass/rural and heavy metal were more predictive than jazz, pop, classical and rock. We also checked for homophily in the users' self-described personalities (see Appendix D). Users who described themselves as 'sexy', 'talented', 'fun', 'weird', or 'lovable' liked to associate with those who described themselves likewise. We know from the previous analysis that those who describe themselves as 'sexy' are more likely to value sex in friendships and romance. It makes sense therefore that they would like to associate with other sexy people. We did not, however, observe homophily for individuals who described themselves as 'intelligent', 'responsible', 'kind', 'competent' and 'successful'. Unsurprisingly, those who like to spend their free time fulfilling commitments and socializing preferentially associate with others who like to do the same. In contrast, users who like to stay at home or be alone do not preferentially associate with other loners. One observation we made concerning the relationship between a users' profile and their social network is that listing more preferences and interests correlates slightly (r = 0.2) to the number of buddies listed with Club Nexus. There are two possible explanations: 1) Users who invested the time to enter their friends into the database would also take the time to list more of their interests and activities; and, 2) More active users also maintain more social contacts. Unfortunately, the manner in which the data were collected does not allow us to differentiate between the two. Finally, we were able to use the user's profiles and their positions in the network to test the weak link hypothesis (Granovetter, 1973). It states that connections between dissimilar individuals are important in creating cross-community links. We calculated the betweenness of an edge: how many shortest paths pass through it (Freeman, 1977; Wasserman and Faust, 1994). We then compared the betweenness of the edge to how similar the two individuals sharing the edge were, based on the overlap of their profiles. We found a negative correlation coefficient r = -0.2, meaning that interactions between dissimilar people play a role in making the average distance between any two users in the community shorter. One should also not underestimate the role of highly connected individuals. There is a very strong correlation (r = 0.77) between the betweenness of an individual and the number of buddies they have. Users with many friends naturally serve as a social bridge, and their friends are less likely to all form one social clique, which is indicated by a negative correlation (r = -0.12) between an individual's betweenness score and the clustering coefficient for their friends.
Similarity and distance So far we have established that people who share interests or characteristics are more likely to be friends than those who don't. We take this a step further by examining how similar people are on average to each other as a function of their separation in the Nexus Net. In Figure 4 we compare what fraction of an individuals' first, second, third, fourth, etc. neighbors share the same attribute such as department and year in school as the individual. We find that the similarity drops off rapidly for most categories, that is, there is a much higher likelihood that we share a characteristic with a friend or a friend's friend than that we share it with someone four steps removed. Specifically, we find that the year of study is much more important for undergraduate students than for graduate students, but that the department is more important for graduates than a major is for undergraduates. This can be explained by the observation that undergraduate students take many required classes with others in their class, but graduate students usually spend most of their time interacting with individuals in their research group and sometimes collaborate with others in their department. The courses that they take tend to be more specialized and will usually expose them primarily to other graduate students in their own field. Finally, we find that attributes such as tastes in books and movies also show a decay in similarity with increasing distance in the network. The effect is much smaller, possibly because these variables do not influence to the same extent how and with whom students spend their time.
Nexus Karma Several months after Club Nexus was launched, Nexus Karma was announced by e-mail as a new feature. Users were given the opportunity to rank how 'trusty', 'nice', 'cool', and 'sexy' their buddies were on a scale of 1 to 4. One could not pick and choose which buddies to rank, but rather had to rank all of them at once. After a week, users who had been ranked by at least three buddies were themselves sent an e-mail asking them to rank their buddies in turn. There was a tremendous response to this, with 446 users ranking 1,735 different friends. This data allowed us to step beyond users' self-perceptions and allowed us to integrate users' perceptions of each other into the network data.
Figure 4: Average fraction of users with a common trait (year, undergraduate or graduate status, etc.) as a function of the distance from a user having that trait. The plot is truncated at eight hops because less than .03% of the pairs are separated by more than eight hops. We found that users had a tendency to give a similar score to a buddy across all categories. That is, users tended to rank their friends as '3, 3, 3, 3' as opposed to '1, 4, 2, 3'. This resulted in a high correlation
coefficient between the different attributes. There were still, however, perceptible differences in the scores given. Users on average received the highest scores for niceness (3.37) and trustiness (3.22), followed by coolness (3.13) and sexiness (2.83). While pairs of dissimilar attributes such as 'trusty-sexy' or 'nice-sexy' had a lower correlation coefficient of 0.4, the pairs of attributes 'trusty-nice' and 'cool-sexy' had higher correlation coefficients of 0.7. This indicates that although users had an overall opinion about their buddies, they tended to associate trustiness with niceness and coolness with sexiness. We found mild or negligible correlation between a person's average ranking in each category and the number of buddies that they have. This negates the hypothesis that people perceived as cool or nice have more friends. Interestingly, we found a slight negative relationship (r ~ -0.1) between the number of buddies a person has and the average 'trusty', 'nice', and 'cool' scores that they gave them. A simple interpretation is that those who list only a few of their friends with Club Nexus tend to list their closest ones, those they would rate most highly. Users who list a large number of friends are more likely to include those that they don't have the highest opinion of. We did find interesting correlations between the ratings users received from others and the adjectives that they chose to describe themselves. We used a t test for two sample means to see if the average ranking in a category differed at the one percent significance level between those who did and did not choose a particular adjective to describe themselves. A few adjectives displayed a slight, but significant, difference. For example, those who described themselves as responsible received higher (3.36 on average vs. 3.23 for those not describing themselves as responsible) 'trusty' scores on average, but scored slightly lower in the 'cool' (3.02 vs. 3.13) and 'sexy' (2.67 vs. 2.85) categories. The reverse was true of those who described themselves as 'attractive' or 'sexy'. They were ranked more highly on average in the 'sexy' category, but fared worse in the 'trusty' and 'nice' categories. As one would expect, 'friendly' and 'kind' users received higher scores in the 'nice' category, while 'kind' people were also ranked as more 'trusty'. Users who described themselves as 'weird' received lower 'sexy' scores, while 'funny' people were perceived as less 'nice'. This not only demonstrates a clear correspondence between the way that individuals perceive themselves and the way that they are perceived by others, but also an interesting dichotomy between desirable qualities such being funny or attractive and whether people possessing those qualities are perceived as nice. We were also interested in the reasons why individuals gave the rankings that they did. One might expect that nicer people are more generous with their judgments. Indeed, the higher a user's 'nice' score, the higher the 'trusty', 'nice', and 'cool' scores (r = 0.14-0.17) they give to their friends. Similarly, the higher a user's 'trusty' score, the higher the 'trusty', 'nice', 'cool', and 'sexy' scores that user gives to others (r = 0.14-0.20). We also found evidence that some friendships are closer than others. For example, users who share friends (and hence belong to the same clique) are more likely to give each other high scores (r = 0.10-0.13). We further found that users tend to reciprocate their 'trusty' and 'nice' scores, meaning that if user A gives user B a higher than average score, then user B is somewhat more likely to do the same for user A. Note that users' ratings of one another are independent because they are not told, except in aggregate, what score their friends have given them. Users did not however seem to reciprocate on their 'cool' and 'sexy' opinions. These are only some of the insights that can be gleaned from the Nexus Karma data set. We hope to study it in greater detail in future work.
Conclusions and future work We have presented a preliminary social network analysis of the Club Nexus online community. The online community in many respects appears to reflect the underlying community structure at Stanford University. The size of the network allowed us to study phenomena such as the small world effect and the strength of weak ties, while the richness of the profiles allowed us to characterize social ties and identify what factors influence friendships. Our analysis was able to detect many expected trends (e.g. English majors liking to spend their free time reading or people sharing a narrow or unusual interest becoming friends), while at the same time finding nonobvious relationships (e.g. 'responsible' people being perceived as slightly less 'cool'). What makes Club Nexus special is that one is able to observe these patterns on a large scale with many different variables. The richness of this information can be used to model dynamics such as the spread of ideas on a network or the way that people can find each other through their contacts. The ranking data from Nexus Karma can help us better understand reputation mechanisms now used by online retailers (Resnick and Zeckhauser, 2002). As the Club Nexus community evolves, there will be opportunity to study the changes in the network over time, as well as to analyze social dynamics such as the adoption of a new feature introduced at the Web site. Whereas tracking social networks over time by traditional methods such as telephone or live interviews is very
expensive and time consuming, studying online communities is relatively effortless but may provide new and valuable insights.
About the Authors Lada Adamic is a researcher in the Information Dynamics Group at Hewlett-Packard Labs in Palo Alto, Calif. Orkut Buyukkokten is a researcher at Google Labs in Mountain View, Calif. During the last year of his PhD in Computer Science at Stanford he helped create Club Nexus, the online community that is the subject of this paper. He also co-founded Affinity Engines, a company that helps organizations build online communities. Eytan Adar is a researcher in the Information Dynamics Group at Hewlett-Packard Labs in Palo Alto, Calif.
Acknowledgments We would like to thank Rajan Lukose, Mette Huberman, T.J. Giuli, and Kresimir Adamic for their valuable comments.
References L.A. Adamic and E. Adar, in press. "Friends and neighbors on the Web," Social Networks. P. Curtis, 1992. "Mudding: Social phenomena in text-based virtual realities," In: Proceedings of the 1992 Conference on the Directions and Implications of Advanced Computing, Berkeley, Calif. (May). S.L. Feld, 1981. "The focused organization of social ties," American Journal of Sociology, volume 86, number 5 (March) pp. 1015-1035. http://dx.doi.org/10.1086/227352 L.C. Freeman, 1977. "A set of measures of centrality based upon betweenness," Sociometry, volume 40, number 1 (March), pp. 35-41. http://dx.doi.org/10.2307/3033543 M. Granovetter, 1973. "The strength of weak ties," American Journal of Sociology, volume 78, number 6 (May), pp. 1360-1380. http://dx.doi.org/10.1086/225469 D.F. Halpern, 2000. Sex differences in cognitive abilities. Mahwah, N.J.: Lawrence Erlbaum. P. Lazarsfeld and R.K. Merton, 1954. "Friendship as a social process: A substantive and methodological analysis," In: M. Berger, T. Abel, and C.H. Page (editors). Freedom and control in modern society. New York: Van Nostrand, pp. 18-66. M.E.J. Newman, S.H. Strogatz, and D.J. Watts, 2001, "Random graphs with arbitrary degree distributions and their applications," Physical Review E, Third Series, volume 64, parts 1 and 2 (August), 026118. P. Resnick and R. Zeckhauser, 2002. "Trust among strangers in Internet transactions: Empirical analysis of eBay's reputation system," In: Michael R. Baye (editor). The economics of the Internet and ecommerce. Advances in Applied Microeconomics, volume 11. Amsterdam, Elsevier. J.C. Touhey, 1974. "Situated identities, attitude similarity, and interpersonal attraction," Sociometry, volume 37, number 3 (September), pp. 363-374. http://dx.doi.org/10.2307/2786388 S. Wasserman and K. Faust, 1994. Social network analysis. Cambridge: Cambridge University Press, pp. 188191. D.J. Watts and S.H. Strogatz, 1998. "Collective dynamics of small-world networks," Nature, volume 393, number 6684 (4 June), pp. 440-442. B. Wellman, A. Quan-Haase, J. Boase, and W. Chen, 2002a. "Examining the Internet in everyday life," Keynote address to the Euricom Conference on e-Democracy, Nijmegen, Netherlands (October).
B. Wellman, J. Boase, and W. Chen, 2002b. "The networked nature of community online and offline," IT & Society, volume 1, number 1 (Summer), pp. 151-165. N. Yee, 2001. "The Norrathian Scrolls: A study of Everquest," at http://www.nickyee.com/eqt/report.html, accessed 5 February 2003.
Appendix A
Table A1: Correlations between a user's personality and their preferences.
personality
preference/activity book
business (4.34, 48, 26.5)
movie
erotic & softcore (3.09, 48, 31.5)
music
disco (3.04, 51, 34.1)
other
weightlifting (4.64, 102, 67.8)
social
bar-hopping (5.43, 154, 107.4), clubbing (5.83, 190, 137.3), hip-hop dancing (4.20, 121, 87.2), hot tubbing (5.14, 157, 112.4), partying (5.55, 246, 195.4)
watersport
crew (3.99, 30, 14.9), diving (3.32, 20, 9.8), jet skiing (3.41, 68, 46.4), scuba diving (3.18, 62, 42.6)
book
art & photography (6.47, 143, 88.7), philosophy (3.42, 120, 91.0), fiction & literature (3.26, 282, 248.6), classics (2.75, 164, 137.4)
music
folk (4.80, 83, 50.9), bluegrass/rural (3.26, 57, 37.8), jazz (3.16, 164, 133.6)
movie
art (6.95, 141, 83.8), documentary (2.79, 129, 104.2), independent (5.04, 206, 155.7)
book
philosophy (3.19, 297, 252.1), sex (3.22, 169, 133.9)
movie
erotic & softcore (2.83, 139, 110.6), independent (2.93, 480, 431.4)
music
funk (2.93, 194, 159.5)
social
hot tubbing (3.03, 444, 394.7), raving (2.80, 181, 149.0)
book
entertainment (3.04, 137, 108.8)
landsport
beach volleyball (2.87, 127, 101.1), football (2.86, 123, 97.5)
movie
adventure (3.16, 305, 268.8), drama (3.45, 325, 285.7), horror (2.53, 108, 86.5), romance (2.98, 200, 168.2)
music
rap/hip-hop (4.20, 282, 234.2), soul/R&B (2.60, 193, 165.4)
other
ice skating (2.69, 100, 78.1)
attractive
creative
not* friendly
fun
item (Z score, number of individuals who selected both the personality trait and the item, the number expected if random)
funny
intelligent
kind
lovable
not* responsible
sexy
social
partying (5.93, 369, 301.8), clubbing (4.99, 268, 211.9), hip-hop dancing (4.43, 179, 134.6), bar-hopping (3.02, 198, 165.9), hot tubbing (2.92, 205, 173.5)
watersport
surfing (2.78, 68, 49.4), wake boarding (3.31, 54, 35.1), water skiing (2.91, 89, 66.8)
landsport
table tennis (2.51, 153, 128.3)
movie
comedy (3.43, 416, 381.6)
music
rap/hip-hop (2.73, 262, 231.1), rock (3.05, 377, 344.2)
other
bowling (3.04, 179, 147.7), couch potatoing (3.16, 204, 170.2)
book
philosophy (2.90, 169, 138.7), politics (2.81, 141, 113.7), science (3.99, 151, 112.4), science fiction (2.88, 213, 180.0)
other
computer gaming (2.74, 134, 108.0)
movie
science fiction (2.67, 201, 172.3)
book
cooking (2.53, 38, 25.8), entertainment (3.27, 73, 52.0), romance (2.89, 35, 22.0)
movie
adventure (2.59, 149, 128.5), mystery (2.92, 93, 72.1), romance (5.63, 122, 80.4)
music
easy listening (3.13, 48, 31.6), latin (2.81, 71, 52.9), rap/hip-hop (2.80, 134, 112.0), soul/R&B (4.20, 110, 79.1), trip-hop (2.52, 40, 27.5)
other
aerobics (2.58, 36, 24.0)
social
hip-hop dancing (4.43, 95, 64.4)
watersport
swimming (2.82, 121, 99.1)
book
sex (3.88, 149, 110.6)
movie
erotic & softcore (3.15, 120, 91.3), gay & lesbian (3.11, 55, 36.5), independent (3.70, 412, 356.2)
music
funk (3.11, 165, 131.7), jungle (3.15, 99, 73.1), reggae (2.87, 199, 165.4), trance (2.86, 231, 195.2)
other
skateboarding (2.54, 63, 46.2)
social
raving (4.14, 166, 123.1)
book
sex (7.71, 51, 19.2), teen (5.26, 19, 6.2), health mind & body (3.06, 29, 17.0)
landsport
wrestling (3.05, 14, 6.4)
movie
erotic & softcore (9.80, 53, 15.8), western (4.40, 28, 12.8), gay & lesbian (4.32, 17, 6.3), horror (2.64, 41, 28.2)
music
funk (4.98, 45, 22.8), house (3.88, 47, 28.2), disco (3.52, 31, 17.2), jungle (3.31, 24, 12.7), trip-hop (2.75, 30, 18.8), reggae (2.73, 42, 28.7)
other
weightlifting (4.19, 56, 34.1), bungee jumping (3.26, 20,
10.0), skateboarding (2.89, 16, 8.0)
not* sexy
socially adaptable
not* socially adaptable
successful
social
hot tubbing (6.58, 97, 56.5), bar-hopping (4.60, 82, 54.0), raving (4.78, 42, 21.3), partying (4.29, 126, 98.3), hip-hop dancing (3.88, 66, 43.9), folk dancing (3.62, 15, 6.2), clubbing (3.58, 92, 69.0)
watersport
jet skiing (3.26, 38, 23.3), surfing (2.86, 27, 16.1)
book
science fiction (2.61, 305, 268.5)
book
sociology (3.41, 39, 23.2)
music
house (2.75, 65, 47.6), rap/hip-hop (2.97, 154, 128.9)
other
snowboarding (2.55, 65, 48.8)
social
bar-hopping (3.63, 120, 91.3), clubbing (2.92, 141, 116.7), raving (2.83, 52, 36.1)
watersport
water polo (3.56, 23, 11.3)
movie
art (3.01, 185, 151.7), fantasy (2.59, 197, 167.3), performing arts (2.64, 112, 88.6)
other
laser gaming (2.67, 99, 76.8)
book
business (5.88, 21, 6.6)
landsport
tennis (3.41, 43, 28.2)
other
weightlifting (4.16, 32, 16.8)
social
barbecuing (3.05, 41, 27.8)
watersport
boating (2.85, 22, 12.7), jet skiing (4.30, 25, 11.5), water skiing (3.05, 20, 10.7)
book
fantasy (3.03, 222, 186.0), science fiction (2.66, 246, 212.9)
movie
art (3.43, 189, 151.2), fantasy (2.74, 198, 166.7), gay & lesbian (2.70, 43, 28.8), performing arts (3.02, 115, 88.3)
book
professional & technical (3.17, 22, 11.6)
movie
performing arts (4.20, 37, 19.5)
other
skateboarding (2.87, 16, 8.1)
book
fantasy (3.37, 184, 148.2), science fiction (3.01, 203, 169.6)
movie
art (2.80, 148, 120.4), fantasy (2.96, 163, 132.8), independent (2.79, 257, 223.6)
other
laser gaming (2.97, 83, 61.0)
landsport
track & field (2.58, 74, 55.9)
movie
independent (2.52, 191, 165.1)
book
science fiction (4.59, 82, 53.4), fantasy (3.75, 69, 46.7)
landsport
fencing (2.90, 14, 6.7)
movie
fantasy (3.34, 61, 41.8), art (3.27, 56, 37.9), science fiction (3.05, 84, 64.0)
not* successful
talented
not* talented
unique
not* unique
weird
book
fantasy (3.32, 78, 56.3), science fiction (3.75, 90, 64.4)
movie
art (3.01, 64, 45.7), fantasy (3.27, 71, 50.4), science fiction (2.90, 98, 77.1)
music
heavy metal (2.56, 39, 26.6)
other
computer gaming (3.24, 57, 38.6)
*Note: Personality traits preceded by "not" (for example, "not friendly") do not mean that individuals described themselves as having that trait. Rather, they elected not to select a certain characteristic (e.g. friendly). "Not" simply means the absence of a self-described characteristic.
Appendix B
Table B1: Preferences of male users.
preference/activity
item (Z score, number observed, number expected)
book
computers (5.74, 172, 113.3), science fiction (5.65, 430, 338.6), professional & technical (4.72, 125, 83.1), science (4.49, 272, 211.5), business (3.85, 133, 96.4), politics (3.33, 259, 213.9), philosophy (3.08, 306, 260.9), sports (3.07, 179, 144.0), adventure (2.35, 337, 300.7)
landsport
football (5.92, 312, 229.6), frisbee golfing (5.16, 195, 137.4), table tennis (5.00, 384, 306.1), golf (4.72, 258, 196.4), baseball (4.70, 199, 145.2), basketball (4.02, 442, 374.8), cricket (2.88, 54, 36.8), fencing (2.32, 57, 42.2), racquetball (3.67, 94, 65.1), squash (2.32, 82, 63.9), tennis (2.94, 466, 415.1), soccer (2.10, 382, 347.6), wrestling (2.03, 60, 46.4)
movie
science fiction (7.42, 533, 405.5), war (6.98, 395, 288.6), action (4.03, 771, 693.5), spy film (3.59, 450, 389.2), erotic & softcore (3.26, 148, 114.5), adventure (2.69, 684, 632.6), anime (2.88, 202, 166.9), sports (2.98, 262, 221.1), western (3.02, 121, 92.8)
music
heavy metal (4.55, 191, 139.8)
other
computer gaming (7.02, 296, 203.0), weightlifting (5.55, 326, 246.4), billiards (4.57, 432, 356.7), ultimate frisbee (4.53, 246, 188.0), mountain biking (4.51, 175, 126.5), paintballing (4.35, 241, 185.6), laser gaming (2.30, 146, 121.7), bicycling (2.15, 257, 227.1)
social
barbecuing (3.04, 462, 409.7), raving (2.45, 183, 154.2), hot tubbing (2.06, 444, 408.5)
watersport
fishing (2.23, 183, 156.7), sailing (2.03, 205, 179.5)
personality
trait (Z score, observed, expected)
free time
learning (4.21, 314, 253.1), doing physical challenging activities (4.07, 414, 347.6)
friendship
mutual friends (3.51, 217, 173.5), common interests (3.33, 875, 811.0), appearance/look (3.05, 92, 67.5), sex (2.65, 72, 53.0)
romance
appearance/look (5.09, 293, 222.9), sex (3.41, 239, 194.6), physical attraction
(2.93, 686, 630.2) support
eternal optimists (3.88, 325, 267.5), give-it-to-you-straight people (3.08, 872, 812.8), I've-been-down-and-dirty-a-few-times-myself people (2.12, 414, 378.4)
you
intelligent (2.99, 523, 469.4)
Table B2: Preferences of female users.
preference/activity
item (Z score, number observed, number expected)
book
romance (8.28, 139, 71.5), fiction & literature (5.55, 557, 470.2), health mind & body (4.86, 123, 81.1), cooking (4.35, 122, 83.9), art & photography (4.26, 218, 167.7), entertainment (3.05, 205, 168.9), mystery & thriller (2.99, 209, 173.3), psychology (2.52, 145, 119.2), classics (2.17, 290, 260.0)
landsport
gymnastics (4.31, 53, 29.8), field hockey (4.08, 35, 17.9), softball (2.70, 84, 63.2)
movie
romance (11.48, 420, 261.1), family (5.61, 135, 85.5), drama (5.16, 524, 443.6), musical (5.09, 230, 169.7), performing arts (3.54, 125, 92.6), comedy (2.38, 637, 600.6), independent (2.12, 325, 294.5)
music
soul/R&B (5.39, 331, 256.8), pop (4.49, 442, 373.6), country/western (4.08, 121, 85.1), rap/hip-hop (3.06, 410, 363.7), folk (2.34, 118, 96.2), latin (2.46, 201, 171.7)
other
aerobics (9.69, 160, 77.9), ice skating (4.93, 172, 121.2), jogging (3.92, 262, 211.5)
social
hip-hop dancing (6.62, 294, 209.1), latin dancing (3.94, 165, 124.0), clubbing (3.44, 380, 329.1)
watersport
swimming (2.79, 363, 322.0) trait (Z score, observed, expected)
personality free time
catching up on chores and things (3.80, 244, 196.4), socializing (3.75, 715, 659.8)
friendship
laughter (6.66, 791, 696.4), honesty/trust (3.95, 736, 678.9), communication (2.24, 514, 479.0)
romance
laughter (7.18, 579, 466.7), honesty/trust (2.92, 685, 641.5)
support
unconditional accepters (5.99, 355, 271.1), listeners (3.43, 596, 542.6), chicken-soup people (2.95, 156, 125.2)
you
fun (4.05, 307, 251.6), lovable (2.56, 142, 116.1), friendly (2.53, 446, 407.0)
Appendix C: Individual preferences and association ratios
Table C1: Book genres and association ratios.
genre
association ratio
Z score
number of users
number of connections
number expected
gay & lesbian
4.37
15.35
63
88
20
professional & technical
1.75
6.61
138
128
73
computers
1.65
8.52
188
256
154
teen
1.64
3.04
74
36
22
sex
1.41
6.82
230
340
240
sports
1.39
5.91
239
288
207
business
1.37
4.20
160
162
118
romance
1.32
3.63
180
158
120
religion & spirituality
1.31
5.63
258
376
286
politics
1.31
7.80
355
700
535
art & photography
1.29
9.29
422
1,056
819
sociology
1.28
3.24
165
156
121
fantasy
1.26
9.80
491
1,356
1,075
entertainment
1.26
8.46
425
1,064
845
health, mind & body 1.23
3.11
204
202
164
psychology
1.21
4.69
300
496
408
science
1.21
4.91
351
572
474
cooking
1.20
3.03
211
236
195
science fiction
1.20
8.54
562
1,610
1,343
biography
1.19
4.89
337
630
527
travel
1.17
3.71
306
450
382
nonfiction
1.16
4.79
419
868
750
philosophy
1.15
4.56
433
882
769
mystery & thriller
1.14
4.63
436
968
848
adventure
1.14
5.18
499
1,198
1,051
horror
1.13
1.32
144
102
89
classics
1.13
6.88
654
2,096
1,851
history
1.10
3.62
483
1,068
969
fiction & literature
1.09
11.17
1,183
6,568
6,004
outdoor & nature
0.88
-1.13
140
68
77
Table C2: Movie genres and association ratios.
genre gay & lesbian
association ratio
Z score
number of users
number of connections
number expected
5.65
24.75
76
154
27
performing arts 1.76
13.22
233
472
268
religion
1.46
2.89
92
54
36
erotic & softcore
1.44
5.57
190
208
144
sports
1.38
9.95
367
760
548
anime
1.37
6.82
277
408
298
musical
1.36
11.66
427
1,154
851
western
1.32
3.33
154
136
103
family
1.26
3.85
215
252
200
fantasy
1.25
8.40
440
1,078
859
art
1.25
7.48
399
898
718
crime
1.24
7.58
421
952
765
independent
1.24
14.70
741
3,056
2,471
biography
1.18
3.12
245
304
257
war
1.17
6.12
479
1,132
965
thriller
1.16
9.82
744
2,850
2,461
romance
1.15
7.49
657
1,984
1,727
history
1.15
4.21
398
754
657
science fiction
1.14
7.52
673
2,192
1,921
horror
1.12
3.08
338
576
512
adventure
1.11
11.20
1,050
5,372
4,828
spy film
1.11
5.62
646
1,974
1,777
action
1.11
12.39
1,151
6,250
5,633
drama
1.10
11.39
1,116
5,996
5,429
mystery
1.08
3.63
589
1,554
1,437
documentary
1.06
2.20
496
1,060
999
comedy
1.05
9.34
1,511
10,002
9,533
Table C3: Music genres and association ratios.
genre
association ratio
Z score
number of users
number of connections
number expected
gospel
2.06
6.76
105
80
38
jungle
1.78
8.67
152
202
113
bluegrass/rural
1.48
5.70
180
188
126
heavy metal
1.48
7.83
232
354
239
trance
1.44
13.92
406
1,158
804
funk
1.42
8.14
274
454
318
latin
1.42
13.71
432
1,212
855
house
1.40
10.08
338
758
543
folk
1.38
6.27
242
332
240
trip-hop
1.33
5.18
225
298
224
soul/R&B
1.31
16.43
646
2,498
1,904
techno
1.30
14.56
588
2,152
1,652
rap/hip-hop
1.30
24.99
915
5,004
3,850
new age
1.30
3.28
157
146
112
easy listening
1.29
5.05
258
344
266
reggae
1.25
6.26
344
640
510
blues
1.23
5.93
348
664
538
country/western 1.23
3.16
214
212
172
disco
1.22
3.15
206
234
192
jazz
1.19
9.70
636
2,124
1,783
world music
1.18
5.01
384
724
612
pop
1.18
15.50
940
4,668
3,951
classical
1.12
6.87
716
2,372
2,116
rock
1.10
15.54
1,363
8,670
7,871
Table C4: Land sports and association ratios.
sport
association ratio
Z score
number of users
number of connections
number expected
touch rugby
33.08
N/A
4
2
0
lacrosse
3.12
7.09
54
34
10
field hockey
2.64
5.00
45
24
9
wrestling
2.29
6.73
77
60
26
cricket
2.24
4.44
61
28
12
fencing
2.14
4.77
70
36
16
16.59
228
494
247
frisbee golfing 1.99
squash
1.79
5.21
106
74
41
track & field
1.72
12.93
251
482
279
gymnastics
1.66
3.55
75
46
27
softball
1.64
6.87
159
176
107
baseball
1.59
9.98
241
400
251
badminton
1.56
8.76
221
336
214
football
1.56
15.50
381
970
621
golf
1.33
7.43
326
582
439
volleyball
1.22
6.18
388
764
624
beach volleyball
1.20
5.71
395
804
670
basketball
1.15
6.95
622
1,758
1,530
table tennis
1.14
5.29
508
1,232
1,081
soccer
1.13
5.53
577
1,506
1,334
tennis
1.05
2.52
689
1,924
1,835
racquetball
0.80
-1.34
108
34
42
Table C5: Water sports and association ratios.
sport
association ratio
Z score
number of users
number of connections
number expected
synchronized swimming
3.25
5.91
45
22
6
diving
2.42
4.72
59
26
10
crew
2.24
6.97
90
68
30
wake boarding
1.64
6.01
137
136
83
jet skiing
1.38
7.28
280
442
320
surfing
1.33
4.16
193
190
142
scuba diving
1.33
5.93
257
376
282
water skiing
1.29
5.10
261
354
274
canoeing
1.24
5.36
309
538
434
water polo
1.18
0.97
80
32
27
sailing
1.13
2.72
298
406
358
kayaking
1.13
2.93
309
472
416
boating
1.10
2.11
309
418
380
swimming
1.08
5.30
810
2,968
2,751
fishing
1.08
1.36
260
294
273
windsurfing
0.87
-1.12
135
56
64
Table C6: Other sports and association ratios.
sport
association ratio
Z score
number of users
number of connections
number expected
freestyle biking 2.11
3.46
48
20
9
skateboarding
1.60
4.15
96
74
46
freestyle frisbee 1.58
4.06
96
74
46
ultimate frisbee 1.46
10.66
312
662
453
ski diving
1.45
5.18
165
174
119
miniature golfing
1.41
14.01
426
1,296
918
computer gaming
1.40
9.78
337
702
501
laser gaming
1.31
4.59
202
264
202
mountain biking 1.30
4.13
210
220
169
bowling
1.28
13.45
585
2,060
1,604
rock climbing
1.28
6.22
302
554
434
road biking
1.27
2.15
124
76
59
couch potatoing 1.26
14.64
674
2,770
2,206
paintballing
1.25
5.55
308
538
431
rollerblading
1.24
3.89
228
280
224
billiards
1.23
10.79
592
1,908
1,549
triathlon
1.23
0.78
54
14
11
snowboarding
1.22
5.34
346
594
486
bungee jumping 1.19
1.54
120
76
64
ice skating
1.19
4.06
305
476
400
weightlifting
1.16
4.49
409
758
655
backpacking
1.16
5.40
477
1,062
918
aerobics
1.12
1.62
196
172
152
jogging
1.10
3.83
532
1,284
1,171
hiking
1.08
4.30
690
2,094
1,939
snow skiing
1.08
2.91
517
1,196
1,112
martial arts
1.05
0.65
211
182
173
bicycling
1.04
0.97
377
564
543
Table C7: Social activities and association ratios.
activity
association ratio
Z score
number of users
number of connections
number expected
raving
1.64
12.00
256
502
305
ballroom dancing
1.61
13.91
329
704
437
latin dancing
1.49
10.80
312
620
416
bar hopping
1.34
17.24
648
2,312
1,720
folk dancing
1.34
1.51
74
26
19
hip-hop dancing
1.33
13.62
526
1,652
1,238
hot tubbing
1.32
17.74
678
2,790
2,121
clubbing
1.24
17.27
828
3,814
3,074
barbecuing
1.20
10.93
680
2,364
1,967
partying
1.18
22.31
1,179
7,372
6,224
camping
1.11
6.83
745
2,618
2,353
Appendix D: Personalities and association ratios
Table D1: How users describe themselves and what kind of people seek out others like them.
personality
association ratio
Z score
number of users
number of connections
number expected
sexy
1.46
5.47
204
192
131
talented
1.40
5.17
213
210
149
fun
1.25
11.22
633
1,852
1,479
weird
1.25
4.32
286
332
265
lovable
1.22
4.20
292
406
333
unique
1.11
4.15
547
1,194
1,074
funny
1.10
4.06
619
1,474
1,345
friendly
1.10
7.55
1,024
4,024
3,674
socially adaptable
1.09
2.12
342
482
440
attractive
1.07
1.76
406
522
486
creative
1.04
1.48
541
982
941
intelligent
1.01
0.42
779
1,848
1,833
responsible
0.99
-0.28
500
686
692
kind
0.99
-0.44
625
1,226
1,239
competent
0.92
-1.40
294
226
246
successful
0.70
-1.57
99
18
25
Table D2: How users spend their free time and whether those who spend their free time in the same way are more likely to be friends.
free time activity
association ratio
Z score
fulfilling commitments
1.34
9.30
socializing
1.12
catching up on chores and things
number of users
number expected
826
614
21.12 1,660
11,374
10,156
1.09
2.71
494
850
782
learning
1.07
1.82
420
536
498
doing anything exciting
1.07
8.05
1,280
6,278
5,850
watching TV
1.07
1.85
415
602
561
reading
1.02
0.66
631
1,186
1,166
getting outside
1.01
0.97
940
2,882
2,841
staying at home
0.97
-0.32
209
126
129
alone
0.96
-0.93
380
398
415
doing physical challenging activities
0.96
-1.46
577
878
916
Editorial history Paper received 1 April 2003; accepted 16 May 2003.
398
number of connections
Lihat lebih banyak...
Comentários