Uma rede social capturada na web [tradução]

May 25, 2017 | Autor: Michelle Modesto | Categoria: Cibercultura, CIÊNCIA DA INFORMAÇÃO, Analise de Redes Sociais
Share Embed


Descrição do Produto

Resumo Uma rede social capturada na Web, por Lada A. Adamic, Orkut Buyukkokten e Eytan Adar Nós apresentamos uma análise do Club Nexus, uma comunidade on-line na Universidade de Stanford. Através do site Nexus, fomos capazes de estudar um reflexo da estrutura comunitária do mundo real no interior do corpo discente. Nós observamos e mensuramos fenômenos de redes sociais, como o efeito mundo pequeno, clustering e a força dos laços fracos. Utilizando os ricos dados de perfil fornecidos pelos usuários, fomos capazes de deduzir os atributos que contribuem para a formação de amizades e de determinar como a similaridade dos usuários decai conforme a distância entre eles, na rede, aumenta. Além disso, encontramos correlações entre as personalidades dos usuários e seus outros atributos, assim como interessantes correspondências entre como os usuários percebem a si mesmos e como eles são percebidos pelos outros.

Conteúdo Introdução Registro de usuário e dados Análise de rede Propriedades dos perfis individuais Associação por similaridade Similaridade e distância Karma do Nexus Conclusões e trabalhos futuros

Introdução Sites de comunidade estão se tornando cada vez mais populares – o que permite que seus usuários conversem, organizem eventos, compartilhem opiniões e fotografias, façam anúncios (announcements), e encontrem novos amigos. Diversos estudos anteriores focaram na caracterização dessas interações (Curtis, 1992; Yee, 2001) e outros tentaram medir os efeitos da Internet nas interações sociais da vida real (Wellman et al., 2002a e 2002b). Nosso estudo tem um foco, de certa forma, diferente: já que podemos aprender tanto sobre a própria comunidade on-line, estamos mais interessados em recolher dela insights sobre as redes sociais subjacentes no mundo real. A comunidade que escolhemos para o nosso estudo é a Club Nexus. O (site) Club Nexus foi apresentado à Universidade de Stanford no outono de 2001. É um sistema desenvolvido por estudantes para servir às necessidades de comunicação da comunidade on-line de Stanford. Alunos podem usar o Club Nexus para enviar e-mails e convites, conversar, publicar eventos, comprar e vender bens usados, buscar pessoas com interesses similares, publicar anúncios pessoais, exibir seus trabalhos artísticos ou publicar colunas editoriais. Poucos meses após o lançamento, o Club Nexus atraía mais de 2.000 graduandos e pós-graduandos, juntos abrangendo mais de 10% da população estudantil total. A natureza eletrônica da participação em comunidade on-line apresenta uma oportunidade de estudar comportamento e interação humana com grande detalhe e em uma escala sem precedentes. Os métodos tradicionais de coleta de informações sobre redes sociais requerem dos pesquisadores a realização de pesquisas demoradas e caras por correio, telefone ou ao vivo. Isso limita o tamanho dos conjuntos de dados e demanda tempo e esforço adicional da parte dos participantes. Ao estudar uma comunidade on-line, nossa capacidade de aprender mais sobre a rede social é apenas um efeito colateral dos usuários transmitindo informações digitalmente. Anteriormente fomos capazes de analisar uma parte da rede social de Stanford refletida nas páginas de alunos de Stanford e dos links entre elas (Adamic e Adar, in press). Nossa descoberta de que páginas pessoais podem criar uma ampla rede social foi uma inspiração para o Club Nexus. Como os usuários são explicitamente solicitados a nomear seus amigos, o Club Nexus é mais densamente conectado do que a rede de páginas em

que os usuários se conectam a seus amigos por conta própria. O formato estruturado dos perfis proporciona uma análise estatística mais fácil do que o texto livre das páginas pessoais. Os dados apresentam uma oportunidade de estudar, entre outras coisas, a estrutura da comunidade on-line, as interações sociais e como fatores como personalidade e interesses influenciam na escolha de amigos. Neste trabalho, nós damos o primeiro passo da análise da comunidade como uma rede social e comparamos perfis fornecidos pelos usuários para caracterizar conexões. Cadastro de usuário e dados Ao realizar o cadastro, os usuários inseriam seus nomes, endereços de e-mail, aniversários (para o envio de notificações com lembrete de aniversário aos seus amigos), área de especialização, nível acadêmico (pósgraduação ou graduação), ano que está cursando, endereço residencial e país e Estado de origem. Eles também poderiam, opcionalmente, listar o colégio onde estudaram (ou a universidade, para os alunos de pósgraduação), assim como seus números de telefone, cidade natal, página pessoal e foto. Os dados que usamos em todas as nossas análises foram tornados anônimos, com a substituição dos nomes dos usuários por identificadores únicos e apenas com a retenção, dentre as informações acima, do ano cursado, do nível acadêmico e do departamento ao qual pertenciam. Todos os resultados do nosso estudo são apresentados em conjunto, para garantir ainda mais a privacidade dos usuários.

Figura 1: Rede Nexus, como vista sob a perspectiva de um único usuário. Clicar em qualquer um dos nós recentraliza o gráfico em torno do usuário selecionado.

No segundo estágio do cadastro, os usuários eram solicitados a listar seus amigos e conhecidos em Stanford. Na linguagem do Nexus, essas pessoas são chamadas de “buddies” (camaradas). Os usuários identificavam seus camaradas buscando por eles no diretório da Stanford ou acrescentando seus nomes manualmente. Se um usuário adicionar um camarada que já está cadastrado, o camarada receberá uma notificação de que o usuário pediu para ser seu camarada e então pode aceitar ou rejeitar a solicitação. Se o camarada ainda não for cadastrado, ele receberá um convite para se juntar ao Club Nexus. Essa estratégia viral de inscrição resultou em uma rápida construção da base de usuários. Vários meses depois do lançamento do Club Nexus, os usuários tiveram a oportunidade de classificar o quão confiável, simpático (nice), legal (cool) e sensual cada um de seus companheiros era. Isto adicionou uma nova dimensão aos dados de interação.

Além das informações demográficas básicas, os usuários foram solicitados a adicionar uma lista de interesses e hobbies aos seus perfis através da marcação de tantas opções quanto quisessem em listas de atividades sociais, esportes e gêneros de cinema, música e livros. Essas escolhas poderiam, então, ser usadas pelo Club Nexus para combinar usuários com preferências similares. Em um estágio final, os usuários eram solicitados a selecionar três itens de listas de adjetivos para descrever suas personalidades, os tipos de pessoas nas quais procuram apoio, as maneiras como eles gostam de passar o tempo livre e o que eles buscam em amizade e romance. O conjunto de dados resultante foi uma rede social com perfis ricos para cada um dos membros. Nas próximas seções, analisamos primeiramente o Club Nexus a partir de uma perspectiva de rede e depois olhamos para as relações entre os atributos de usuários e suas escolhas de contatos.

Análise de Rede A Rede Nexus, uma rede social ampla, consiste de 2.469 usuários do Nexus e 10.119 conexões entre eles, sendo que dois indivíduos são considerados conectados quando um inclui o outro em sua lista de companheiros. Os usuários podem explorar a rede usando a interface visual mostrada na Figura 1 e podem contatar automaticamente seus vizinhos até certo raio de distância. Por exemplo, para organizar um evento, eles podem convidar apenas seus amigos ou os amigos de seus amigos. Como é típico, tanto em redes sociais gerais quanto em comunidades particularmente on-line, o número de camaradas que um usuário tem é distribuído de maneira altamente desigual. A Figura 2 mostra que os usuários listaram mais frequentemente apenas um camarada (mais de 200 não listaram qualquer camarada), mas alguns usuários individuais possuíam dúzias de conexões e um havia ultrapassado uma centena. Parte da assimetria na distribuição da conectividade é devida ao fato de que algumas pessoas são naturalmente mais sociáveis do que outras, mas também reflete uma ânsia variável da parte dos usuários por inserir seus contatos sociais em um serviço on-line. Em geral, esperamos que a maioria dos usuários do Club Nexus tenham mais amigos offline do que apenas aqueles que listaram como camaradas através do serviço.

Figura 2: Número de conexões que os usuários têm; um único camarada sendo o caso mais comum. A inserção mostra a mesma distribuição em escala log-log.

Ao analisar a rede social, observamos um efeito mundo pequeno (Migram, 1967; Watts e Strogatz, 1998), no qual a distância entre dois usuários, medida pelo número de saltos pela rede Nexus, é de, em média, apenas quatro (a distribuição completa é mostrada na Figura 3). Essa média pode inicialmente parecer baixa ao considerar que o Club Nexus representa um grupo diverso de usuários, tanto graduandos quanto pós-

graduandos em várias etapas de seus estudos, representando diversos departamentos. Esse é o aspecto contraditório do fenômeno do mundo pequeno: indivíduos tendem a socializar em “panelinhas” menores, frequentemente determinadas por fatores como ano cursado, departamento ou dormitório, ainda que quaisquer dois usuários estejam separados por apenas um pequeno número de saltos. É possível determinar em qual grau as “panelinhas” estão presentes através da mensuração da clusterização, por vezes também referida como transitividade (Newman, 2001). O coeficiente de clusterização nos diz quantos amigos de amigos de um usuário eram amigos dos próprios usuários. No caso do Club Nexus, o coeficiente de clusterização de 0,17 é 40 vezes maior do que seria em uma rede aleatória com o mesmo número de usuários e conexões. Isto nos mostra que há uma quantidade significativa de estrutura nas interações sociais reportadas no Club Nexus. O aparente conflito entre clusterização e trajetórias curtas foi resolvido por Watts e Strogatz (1998). Eles usaram um modelo simples de redes sociais para mostrar que, enquanto existe uma pequena fração de conexões aleatórias entre panelinhas, as redes sociais podem apresentar tanto alta clusterização quanto pequena média de trajetórias mais curtas.

Figura 3: Distribuição de distâncias entre dois usuários, com uma média de 4 saltos. A média é próxima dos 3,8 saltos de um gráfico aleatório equivalente, com o mesmo número de nós e arestas. Enquanto a análise acima, sobre a topologia de rede, é esclarecedora, as coisas ficam ainda mais interessantes quando os perfis de usuários são levados em conta. Nós vamos explorar esses recursos de perfil na próxima seção e posteriormente retornaremos ao seu impacto nas propriedades de rede.

Propriedades de perfis individuais

Dados de Perfil e ferramentas estatísticas No processo de cadastro, é solicitado aos usuários que selecionem três palavras de uma lista de 10 a 15, para descrever suas personalidades, o que buscam em amizade e romance, como aproveitam o tempo livre e em que tipo de pessoas buscam apoio. Todos os usuários completaram essa seção, já que era necessário para o cadastro inicial. Os usuários também foram convidados a expressar opcionalmente suas preferências sobre gêneros de livros e filmes, esportes e outras atividades. Os 418 (dos 2.469) usuários que não fizeram uma seleção em qualquer categoria foram omitidos da análise a respeito das preferências. Nós usamos Z-scores para caracterizar os relacionamentos entre diferentes atributos escolhidos pelos usuários. Z-scores indicam o quão provável é encontrar uma conexão entre dois atributos ao acaso. Especificamente, a probabilidade de um Z-score ser acima de 2 ou abaixo de -2 é de 5 por cento. Portanto, podemos dizer que qualquer correlação com um Z-score absoluto maior do que 2 é significante ao nível de p = 0,05. Por exemplo, se estamos interessados em saber se pessoas que se consideram engraçadas gostam de assistir comédias,

contamos o número de pessoas (518, ao todo) que selecionaram “engraçado” como uma das três palavras descritivas sobre eles mesmos. Então contamos o número de usuários (1.511 dos 2.051 que especificaram seus interesses) que selecionaram comédia como gênero de filmes que gostam. Isso dá uma probabilidade de p = 0,74 de que um usuário escolhido aleatoriamente goste de comédias. Então daí resulta que, dos 518 usuários “engraçados”, um esperado p*518 = 382 gostariam de comédias, com um desvio padrão de 10. Nós observamos que, na realidade, 416 usuários que se consideram “engraçados” também gostam de comédias. Isso nos dá um Z-score de [(número observado)-(número esperado)]/(variação padrão) = 3,43. A probabilidade de que isso ocorra ao acaso, isto é, sem que haja qualquer conexão entre os usuários se considerarem engraçados e gostarem de comédias, é de 0,0003. Assim, apesar da diferença ser pequena (cerca de 10 por cento mais usuários engraçados gostam de comédias do que se esperaria de uma amostra aleatória), o efeito é significativo. Daqui em diante, quando escrevermos que “os usuários que possuem a qualidade A tendem a gostar de B”, simplesmente queremos dizer que a proporção de usuários tendo A e gostando de B é significativamente diferente da proporção de usuários em geral que gostam de B. De forma alguma queremos dizer que todos os usuários que tenham A sejam de uma certa maneira. Sempre que possível, incluímos a diferença entre as quantidades observadas e as esperadas nos resultados tabulados dos apêndices. Também gostaríamos de lembrar ao leitor que os resultados pertencem apenas a essa comunidade on-line em particular, o que não necessariamente representa a população em geral.

Personalidade e preferências Nós usamos esse tipo de análise para encontrar correlações entre as personalidades dos usuários e suas preferências. Devido ao grande número de pares de personalidades e preferências, algumas das relações podem ser consideradas estatisticamente significativas por acaso. Mas como tantos pares foram considerados estatisticamente significativos, a maioria deles representa tendências verdadeiras que pintam retratos razoáveis dos tipos de personalidade. Usando essa técnica, descobrimos que os usuários tenderam a ser consistentes em como eles se descrevem e no que eles buscam em outras pessoas. Por exemplo, aqueles que se descreveram como sensuais foram mais propensos a buscar por sexo tanto nas amizades quanto no romance. Aqueles que se descreveram como atraentes consideraram aparência e visual como importantes. Aqueles que se julgam engraçados buscaram sorrisos tanto nas amizades quanto no romance. Correlações estatísticas entre personalidades e preferências se mostraram alinhadas, em sua maior parte, com os estereótipos relativos às personalidades. Indivíduos que se rotularam como “esquisitos” apresentaram tendência a ter amigos “esquisitos” e eram mais propensos a aproveitar o tempo livre sozinhos e ficando em casa, sem fazer qualquer coisa interessante ou atividades fisicamente desafiadoras. Eles estavam mais propensos a gostar de livros e filmes sobre ficção científica e fantasia, heavy metal e jogos de computador. Eles não valorizam prioritariamente aparência nos relacionamentos e não tendem a se descrever como divertidos, atraentes ou bem-sucedidos. Por outro lado, aqueles que se descreveram como “bem-sucedidos” aproveitavam seu tempo livre cumprindo compromissos e recuperando o atraso em tarefas. Eles também puseram ênfase em aparência e sexo nos relacionamentos românticos e amizades, e demonstraram gostar de passar o tempo livre fazendo atividades fisicamente desafiadoras, incluindo levantamento de peso, tênis, passeios de barco, jet ski e esqui aquático. Eles também são três vezes mais propensos a ler livros de negócios. Para uma lista completa de todas as relações significativas entre personalidade e preferências, o leitor pode consultar o Apêndice A. O Apêndice também lista algumas correlações interessantes que apareceram entre a ausência de uma característica e as escolhas da pessoa. Por exemplo, os usuários que não selecionaram a palavra “responsável” para se descrever incluíam indivíduos que gostavam de livros sobre sexo, erotismo, gay e lésbico; de filmes independentes; de escutar funk music, jungle, reggae e trance; e que gostavam de praticar skate e de frequentar festas rave.

Área de Estudo e Personalidade Também examinamos a relação entre a área de estudo ou departamento de uma pessoa e quais adjetivos (três de uma lista de dezesseis) eles selecionaram para se descrever. Como existem muitos cursos diferentes, os dados estavam distribuídos entre fatias estreitas. Ainda assim pudemos encontrar algumas tendências significativas, mostradas na Tabela 1. Estudantes de física, matemática e engenharia eletrônica permaneceram fiéis ao estereótipo nerd, sendo aproximadamente duas vezes mais propensos a aproveitar seu tempo livre aprendendo e descrevendo a si próprios como “esquisitos”.

Tabela 1: Traços de personalidade e correlações positivas às áreas de estudo.

personalidade (porcentagem do total)

tempo livre

você

área de estudo

aprendendo (17%)

Física (46%), Filosofia (37%), Matemática (31%), Engenharia Elétrica (26%) e Ciência da Computação (24%)

lendo (26%)

Letras (Língua Inglesa) (55%)

ficando em casa (8%)

História (24%)

fazendo qualquer coisa estimulante (52%)

indeciso/não declarado (62%)

cumprindo compromissos (16%)

Psicologia (27%)

assistindo TV (17%)

Relações Internacionais (26%)

inteligente (32%)

Filosofia (59%) e Ciência da Computação (42%)

bem-sucedido (4%)

Ciência da Computação (7%)

socialmente adaptável (14%)

Ciência, Tecnologia e Sociedade (46%)

atraente (16%)

Ciência Política (29%) e Relações Internacionais (25%)

adorável (12%)

Ciência Política (24%)

bondoso (25%)

Políticas Públicas (45%)

esquisito (12%)

Física (34%), Matemática (28%) e Engenharia Elétrica (18%)

diverdido (26%)

Biologia Humana (38%)

criativo (22%)

Design de Produto (62%) e Letras (Língua Inglesa) (42%)

sensual (8%)

Letras (Língua Inglesa) (18%)

Treze dos 29 estudantes de Políticas Públicas (duas vezes a proporção média) se descreveram como “gentis”, enquanto uma grande quantidade dos 62 estudantes de Ciências Políticas se considerou “atraente” (29% contra 16%) e “adorável” (24% contra 12%). Aqueles que ainda não haviam declarado uma área de estudo (presumivelmente calouros) eram mais chegados a “fazer qualquer coisa estimulante” (209 de 337). Por outro lado, os 46 estudantes de história eram três vezes mais propensos a gostar de passar o tempo livre em casa. Previsivelmente, os 74 estudantes de Língua Inglesa eram duas vezes mais propensos a gostar de passar o tempo livre lendo e a se considerar “criativo”. Eles também eram duas vezes mais propensos a se descrever como “sensual” (18%), enquanto, por outro lado, apenas três dos 136 estudantes de Engenharia Elétrica escolheram se descrever dessa forma.

Diferenças de Gênero Examinamos, na sequência, o quanto o gênero influencia a personalidade e as preferências. Enquanto a maioria das diferenças era pequena (como mostrado no Apêndice B), normalmente na faixa de 5 a 10%, algumas eram bastante acentuadas, como o fato de o dobro de mulheres, em relação aos homens, gostarem de ler livros de romance. Embora não seja possível afirmar que todas as mulheres ou todos os homens são de certa maneira, a maioria dessas pequenas tendências se apresentou conforme os estereótipos existentes de diferenças de gênero. Mais homens do que mulheres gostam de livros sobre computador, ficção científica, temas profissionais, temas técnicos, ciência e negócios. Mais mulheres do que homens gostam de romances e livros sobre saúde, mente e corpo; culinária; e arte e fotografia. Mais homens preferem futebol americano, frisbee golf, tênis de mesa e

golfe, enquanto mais mulheres preferem ginástica, hóquei de campo e softball. Mais homens gostam de filmes de ficção científica, guerra e ação, ao contrário dos filmes de romance, família e drama que as mulheres gostam de assistir. Mais homens indicaram que gostam de passar o tempo livre aprendendo e fazendo atividades fisicamente desafiadoras, enquanto mais mulheres disseram que gostam de botar as tarefas em dia e socializar. Homens preferiam amigos com conhecidos e interesses em comum, enquanto mulheres valorizavam sorriso, honestidade e confiança. As mulheres procuravam pelas mesmas características em parceiros românticos, mas os homens estavam mais propensos do que as mulheres a valorizar aparência, sexo e atração física. Ao buscar apoio em alguém, alguns homens se deslocaram a extremos, buscando “eternos otimistas” ou “pessoas que me dão logo o que eu quero”. Mulheres buscavam apoio de um tipo mais emocional, buscando “pessoas que me aceitam incondicionalmente” e “ouvintes”. Por fim, mais homens do que mulheres se descreveram como inteligentes, enquanto mais mulheres do que homens se consideraram divertidas, adoráveis e amigáveis. Isso pode ser mais um indicativo da propensão masculina a se vangloriar do que de inteligência em si, já que não existe nenhuma relação confirmada entre inteligência e gênero (Halpern, 2000).

Associação por semelhança Muitos estudos têm confirmado a tendência das pessoas a compartilhar interesses em comum com seus contatos sociais (Lazarsfeld e Merton, 1954; Touhey, 1974; Feld, 1981). Tiramos proveito da riqueza do conjunto de dados do Club Nexus para averiguar quais interesses ou traços em comum mais influenciaram as amizades. Para esse fim, usamos a quantidade que chamamos de “taxa de associação” para medir a homofilia da rede. Para um determinado traço, a taxa de associação é a proporção de contatos feitos entre pessoas compartilhando um traço e a proporção de indivíduos na população possuindo aquele traço. Por exemplo, 329 ou 16% dos usuários indicaram que gostavam de dança de salão e eles possuíam 2.727 conexões com camaradas. Se a seleção de amigos de uma pessoa fosse independente do fato de gostarem de dança de salão, então 16% ou 437 conexões seriam com outros dançarinos de salão. No entanto, um total de 704 conexões ficou dentro do grupo de dançarinos de salão. Isso nos dá uma taxa de 1,61 como força de associação entre dançarinos de salão. Também calculamos um Z-score para confirmar que a taxa não possa ter ocorrido por acaso. Aproximadamente todos os interesses apresentaram uma tendência estatisticamente significativa de os indivíduos que os compartilhavam se associarem uns com os outros (para resultados detalhados, veja o Apêndice C). Também descobrimos, ainda, que, de forma geral, as atividades ou interesses que eram compartilhados por um subconjunto menor de pessoas apresentaram taxas de associação mais fortes do que atividades muito genéricas ou interesses que poderiam ser apreciados por muitos. Por exemplo, frequentar raves (1,64), praticar dança de salão (1,61) e praticar dança latina (1,49) apresentaram associação mais forte do que fazer churrasco (1,20), ir a festas (1,18) ou acampar (1,11), na categoria de atividades sociais, embora todas tenham apresentado Z-scores muito altos. Em esportes, particularmente os esportes coletivos e os esportes de nicho foram melhores indícios de contatos sociais do que os esportes que possam ser praticados individualmente ou casualmente. Entre os esportes aquáticos, nado sincronizado, mergulho livre, remo e wakeboarding foram melhores indícios do que navegação, pesca, natação ou windsurfe. Na categoria de esportes terrestres, esportes coletivos, particularmente os esportes coletivos femininos, como lacrosse e hóquei em campo foram melhores indícios do que futebol (frequentemente praticado casualmente, em oposição aos times universitários competitivos), tênis ou raquetebol. Na categoria “outro esporte”, esportes de nicho ou extremos como ciclismo freestyle, skate, freestyle frisbee, ultimate frisbee e paraquedismo foram mais indicativos do que esportes com um apelo mais amplo, como caminhada (backpacking), levantamento de peso, aeróbica, corrida, caminhada, esqui na neve, artes marciais ou andar de bicicleta. Observamos que gêneros de livros, filmes e música de nichos eram melhores indícios de amizade do que os genéricos. Livros de temática homossexual, lidos por 63 usuários, apresentam taxa de 4,37, seguidos por livros sobre profissões e livros técnicos, livros adolescentes e livros sobre computadores. Em contraste, a categoria genérica “ficção e literatura” apresentava uma taxa de 1,09. Gêneros específicos de filmes, como os de temática homossexual, os de artes performáticas, os de religião e os de erotismo e pornô suave apresentaram pontuações mais altas do que os gêneros que apelam para uma audiência mais ampla, como os de ação, drama, mistério, documentário ou comédia. Gêneros musicais fora do mainstream, como gospel, jungle, bluegrass/rural e heavy metal foram melhores indícios do que jazz, pop, música clássica e rock. Também checamos a homofilia nas personalidades auto-descritas pelos usuários (veja Apêndice D). Usuários que se descreviam como sensuais, talentosos, divertidos, esquisitos ou adoráveis gostavam de se associar àqueles que se descreviam do mesmo modo. Sabemos, a partir da análise anterior, que aqueles que se descrevem como sensuais são mais propensos a valorizar sexo nas amizades e no romance. Portanto faz sentido que eles queiram se relacionar com outras pessoas sensuais. No entanto, não observamos homofilia nos indivíduos que se descreviam como “inteligente”, “responsável”, “bondoso”, “competente” e “bemsucedido”. Não foi surpresa que aqueles que gostam de passar seus tempos livres cumprindo compromissos e

socializando se associem preferencialmente a outros que gostem de fazer o mesmo. Em contraste, usuários que gostam de ficar em casa ou de ficar sozinhos não se associam preferencialmente a outros solitários. Uma observação que fizemos sobre a relação entre um perfil de usuário e sua rede social é que listar mais preferências e interesses está levemente correlacionado (r = 0,2) ao número de camaradas listados através do Club Nexus. Existem duas possíveis explicações: 1) Usuários que dedicam mais tempo para inserir seus amigos no banco de dados também passariam mais tempo listando mais de seus interesses e atividades; e 2) Usuários mais ativos mantêm mais contatos sociais. Infelizmente, a forma como os dados foram coletados não nos permite diferenciar entre as duas. Por fim, pudemos utilizar os perfis de usuários e suas posições na rede para testar a hipótese das conexões fracas (Granovetter, 1973). Ela afirma que as conexões entre indivíduos dissimilares são importantes para a criação de conexões entre comunidades. Nós calculamos a intermediação de uma aresta: quantos caminhos (dos mais curtos possíveis) passam por ela (Freeman, 1977; Wasserman e Faust, 1994). Então comparamos a intermediação da aresta a quão similares os dois indivíduos compartilhando essa aresta eram, baseados na sobreposição de seus perfis. Encontramos um coeficiente de correlação negativo r = -0,2, o que significa que as interações entre pessoas dissimilares têm o papel de reduzir a distância média entre dois usuários quaisquer da comunidade. Também não se deve subestimar o papel dos indivíduos altamente conectados. Existe uma correlação muito forte (r = 0,77) entre a intermediação de um indivíduo e o número de camaradas que ele tem. Usuários com muitos amigos naturalmente servem como ponte social e seus amigos são menos propensos a que todos formem uma panelinha social, o que é indicado por uma correlação negativa (r = -0,12) entre a pontuação de intermediação individual e o coeficiente de clustering para seus amigos.

Similaridade e distância Até agora, estabelecemos que pessoas que compartilham interesses ou características são mais propensas a serem amigas do que aquelas que não os compartilham. Levamos isso a um passo adiante ao examinarmos quão similares as pessoas eram, em média, em função da sua separação na rede Nexus. Na Figura 4, comparamos qual fração dos (primeiros, segundos, terceiros, quartos, etc) vizinhos compartilha com o indivíduo o mesmo atributo, como o departamento ou o ano cursado. Descobrimos que a similaridade despenca rapidamente na maioria das categorias. Ou seja, existe uma probabilidade muito maior de compartilharmos uma característica com um amigo ou com o amigo de um amigo do que com alguém a 4 passos de distância. Especificamente, descobrimos que o ano cursado é muito mais importante para estudantes de graduação do que para estudantes de pós-graduação, mas que o departamento é mais importante para os pós-graduandos do que a área de estudo é para os graduandos. Isso pode ser explicado pela observação de que estudantes de graduação frequentam muitas aulas obrigatórias com outros alunos de sua turma, mas alunos de pósgraduação geralmente passam a maior parte do tempo interagindo com indivíduos de seus grupos de pesquisa e às vezes colaboram com outros em seu departamento. Os cursos que realizam tendem a ser mais especializados e geralmente vão expô-los primeiramente a outros estudantes de pós-graduação eu sua própria área. Finalmente, descobrimos que atributos como gosto para livros e filmes também apresentam declínio em semelhança com o aumento da distância na rede. O efeito é muito menor, possivelmente porque essas variáveis não influenciem na mesma proporção o modo como e a companhia com quem os estudantes passam o tempo.

O Nexus Karma Vários meses após o lançamento do Club Nexus, o Nexus Karma foi anunciado por e-mail como um novo recurso. Foi dada aos usuários a o oportunidade de classificar o quão “confiáveis”, “simpáticos”, “legais” e “sensuais” seus camaradas eram, em uma escala de 1 a 4. Não era possível escolher quais camaradas classificar, mas foi necessário classificar todos de uma vez só. Depois de uma semana, os usuários que haviam sido classificados por um mínimo de três camaradas recebiam um convite por e-mail para classificar seus camaradas de volta. Houve uma tremenda resposta, com 446 usuários classificando 1.735 amigos diferentes. Esses dados nos permitiram avançar além das percepções pessoais dos usuários e integrar as percepções de uns sobre os outros aos dados da rede.

Figura 4: Fração média de usuários com uma característica comum (ano cursado, status acadêmico: graduando ou pós-graduando, etc) em função da distância em relação a um usuário com aquela característica. O material está truncado em 8 saltos porque menos de 0,03% dos pares são separados por mais de 8 saltos. Descobrimos que os usuários tinham uma tendência a dar, para um camarada, uma pontuação similar em todas as categorias. Ou seja, usuários tenderam a classificar seus amigos como “3, 3, 3, 3” em vez de “1, 4, 2, 3”. Isto resultou em um alto coeficiente de correlação entre os diferentes atributos. Contudo, ainda houve diferenças perceptíveis nas pontuações dadas. Em média, os usuários receberam as pontuações mais altas para a simpatia (3,37) e a confiabilidade (3,22), seguidas pela “legalzice” (3,13) e pela sensualidade (2,83). Enquanto pares de atributos discordantes, como “confiável-sensual” ou “simpático-sensual”, tiveram o baixo coeficiente de correlação de 0,4, os pares de atributos “confiável-simpático” e “legal-sensual” tiveram os coeficientes de correlação de 0,7 (mais altos). Isto indica que, embora os usuários tivessem uma opinião generalizada sobre os seus camaradas, eles tendiam a associar confiabilidade com simpatia e “legalzice” com sensualidade. Encontramos correlações leves ou desprezíveis entre a pontuação média de uma pessoa em cada categoria e o número de camaradas que elas têm. Isto nega a hipótese de que as pessoas percebidas como legais ou simpáticas tenham mais amigos. Interessantemente, encontramos uma ligeira relação negativa (r ~ -0,1) entre o número de camaradas que uma pessoa tinha e a pontuação média dos itens “confiável”, “simpático” e “legal” que essa pessoa dava a eles. A interpretação simples é a de que aqueles que listam, no Club Nexus, apenas um pouco dos seus amigos tendem a listar os mais próximos, aqueles que eles classificariam com pontuações mais altas. Usuários que listam uma extensa quantidade de amigos estão mais propensos a incluir aqueles sobre os quais não possuem a melhor opinião. Encontramos correlações interessantes entre as avaliações que os usuários receberam e os adjetivos que escolheram para descrever a si próprios. Usamos um teste para duas médias amostrais de forma a avaliar se a pontuação média em uma categoria diferia no nível de 1% de significância entre aqueles que escolheram e os que não escolheram um adjetivo em particular para se descrever. Alguns adjetivos apresentaram uma leve, mas significativa, diferença. Por exemplo, aqueles que se descreveram como responsáveis receberam, em média, pontuações mais altas quanto à confiabilidade (média de 3,36 contra os 3,23 daqueles que não se descreveram como responsáveis), mas receberam pontuação levemente mais baixa nas categorias “legal” (3,02 contra 3,13) e “sensual” (2,67 contra 2,85). O inverso ocorreu com aqueles que se descreveram como “atraentes” ou “sensuais”. Eles foram classificados em posições mais altas na categoria “sensual”, mas se saíram pior nas categorias “confiável” e “simpático”. Como esperado, usuários “amigáveis” e “bondosos” receberam pontuações mais altas na categoria “simpático”, enquanto pessoas “bondosas” também foram classificadas como mais “confiáveis”. Usuários que se descreveram como “esquisitos” receberam pontuações mais baixas na categoria “sensual”, enquanto pessoas “engraçadas” foram percebidas como menos “simpáticas”. Isto não apenas demonstra uma clara correspondência entre a maneira como os indivíduos se percebem e como são percebidos por outros, mas também uma interessante dicotomia entre qualidades

desejáveis, tais como ser engraçado ou atraente, e se as pessoas que possuem essas características são percebidas como simpáticas. Também estávamos interessados nas razões pelas quais os indivíduos decidiram atribuir tais pontuações. Podese esperar que pessoais mais simpáticas sejam mais generosas em seus julgamentos. De fato, quanto mais alta a pontuação de “simpático” de um usuário, mais altas eram as pontuações de “confiável”, “simpático e “legal” (r = 0,14-0,17) que eles atribuíam aos seus amigos. De maneira similar, quanto mais alta a pontuação de “confiável”, mais altas eram as pontuações de “confiável”, “simpático” e “sensual” que esses usuários atribuíam aos outros (r = 0,14-0,20). Também encontramos evidências de que algumas amizades são mais próximas que outras. Por exemplo, usuários que compartilham amigos (e, portanto, pertencem à mesma “panelinha”) são mais propensos a dar, uns aos outros, pontuações mais altas (r = 0,10-0,13). Ainda descobrimos que usuários tendem a ser recíprocos em suas pontuações de “confiável” e “simpático”, o que significa que se um usuário A atribuir a um usuário B uma pontuação mais alta que a média, então o usuário B é (de alguma forma) mais propenso a fazer o mesmo pelo usuário A. Note que as pontuações de um usuário sobre os outros são independentes, já que as pontuações que cada um de seus amigos lhe atribuíram não são publicadas, exceto pelo resultado geral. No entanto, os usuários não pareceram recíprocos quanto às suas opiniões de “legal” e “sensual”. Esses são apenas alguns dos insights que puderam ser obtidos do conjunto de dados do Nexus Karma. Esperamos estudá-lo em mais detalhe em trabalhos futuros.

Conclusões e trabalhos futuros Apresentamos uma análise preliminar de rede social da comunidade on-line Club Nexus. Em muitos aspectos, a comunidade on-line parece refletir a estrutura da comunidade subjacente da Universidade de Stanford. O tamanho da rede nos permitiu estudar fenômenos como o “efeito mundo pequeno” e a força dos laços fracos, enquanto a riqueza dos perfis nos permitiu caracterizar laços sociais e identificar quais fatores influenciam as amizades. Nossa análise foi capaz de detectar muitas tendências esperadas (por exemplo, estudantes de Letras gostando de passar seu tempo livre lendo, ou pessoas que compartilham interesses restritos ou incomuns se tornando amigas), enquanto simultaneamente encontramos relações não-óbvias (por exemplo, pessoas “responsáveis” sendo percebidas como menos “legais”). O que torna o Club Nexus especial é a possibilidade de se observar esses padrões em larga escala, com muitas variáveis diferentes. A riqueza dessas informações pode ser usada para modelar dinâmicas como a disseminação de ideias em rede ou a maneira como as pessoas podem encontrar umas às outras através de seus contatos. Os dados de classificação do Nexus Karma podem nos ajudar a entender melhor os mecanismos de reputação utilizados atualmente pelos varejistas on-line (Resnick e Zeckhauser, 2002). Conforme a comunidade do Club Nexus evoluir, haverá a oportunidade de se estudar as mudanças na rede ao longo do tempo, assim como de analisar dinâmicas sociais como a adoção de um novo recurso introduzido no site. Enquanto rastrear redes sociais ao longo do tempo por métodos tradicionais (como telefone ou entrevistas ao vivo) é muito caro e demorado, o estudo de comunidades on-line é relativamente simples e pode proporcionar novos e valiosos insights.

Sobre os Autores Lada Adamic é uma pesquisadora do Information Dynamics Group, no Hewlett-Packard Labs (Palo Alto, Califórnia). Orkut Buyukkokten é um pesquisador do Google Labs, em Mountain View, Califórnia. Durante o último ano de seu PhD em Ciência da Computação em Stanford, ajudou a criar o Club Nexus, a comunidade on-line que é o assunto deste artigo. Ele também co-fundou a Affinity Engines, uma empresa que ajuda organizações a construir comunidades on-line. Eytan Adar é um pesquisador do Information Dynamics Group, no Hewlett-Packard Labs (Palo Alto, Califórnia).

Agradecimentos Gostaríamos de agradecer a Rajan Lukose, Mette Huberman, T.J. Giuli e Kresimir Adamic, por seus valiosos comentários.

Referências L.A. Adamic and E. Adar, in press. "Friends and neighbors on the Web," Social Networks. P. Curtis, 1992. "Mudding: Social phenomena in text-based virtual realities," In: Proceedings of the 1992 Conference on the Directions and Implications of Advanced Computing, Berkeley, Calif. (May). S.L. Feld, 1981. "The focused organization of social ties," American Journal of Sociology, volume 86, number 5 (March) pp. 1015-1035. http://dx.doi.org/10.1086/227352 L.C. Freeman, 1977. "A set of measures of centrality based upon betweenness," Sociometry, volume 40, number 1 (March), pp. 35-41. http://dx.doi.org/10.2307/3033543 M. Granovetter, 1973. "The strength of weak ties," American Journal of Sociology, volume 78, number 6 (May), pp. 1360-1380. http://dx.doi.org/10.1086/225469 D.F. Halpern, 2000. Sex differences in cognitive abilities. Mahwah, N.J.: Lawrence Erlbaum. P. Lazarsfeld and R.K. Merton, 1954. "Friendship as a social process: A substantive and methodological analysis," In: M. Berger, T. Abel, and C.H. Page (editors). Freedom and control in modern society. New York: Van Nostrand, pp. 18-66. M.E.J. Newman, S.H. Strogatz, and D.J. Watts, 2001, "Random graphs with arbitrary degree distributions and their applications," Physical Review E, Third Series, volume 64, parts 1 and 2 (August), 026118. P. Resnick and R. Zeckhauser, 2002. "Trust among strangers in Internet transactions: Empirical analysis of eBay's reputation system," In: Michael R. Baye (editor). The economics of the Internet and ecommerce. Advances in Applied Microeconomics, volume 11. Amsterdam, Elsevier. J.C. Touhey, 1974. "Situated identities, attitude similarity, and interpersonal attraction," Sociometry, volume 37, number 3 (September), pp. 363-374. http://dx.doi.org/10.2307/2786388 S. Wasserman and K. Faust, 1994. Social network analysis. Cambridge: Cambridge University Press, pp. 188191. D.J. Watts and S.H. Strogatz, 1998. "Collective dynamics of small-world networks," Nature, volume 393, number 6684 (4 June), pp. 440-442. B. Wellman, A. Quan-Haase, J. Boase, and W. Chen, 2002a. "Examining the Internet in everyday life," Keynote address to the Euricom Conference on e-Democracy, Nijmegen, Netherlands (October). B. Wellman, J. Boase, and W. Chen, 2002b. "The networked nature of community online and offline," IT & Society, volume 1, number 1 (Summer), pp. 151-165. N. Yee, 2001. "The Norrathian Scrolls: A study of Everquest," at http://www.nickyee.com/eqt/report.html, accessed 5 February 2003.

Apêndice A

Tabela A1: Correlações entre a personalidade de um usuário e suas preferências

personalidade

preferência/ atividade livros

negócios (4,34; 48; 26,5)

cinema

erótico e softcore (3,09; 48; 31,5)

música

disco music (3,04; 51; 34,1)

outra

levantamento de peso (4,64; 102; 67,8)

social

pular de bar em bar (5,43; 154; 107,4), frequentar casas noturnas (5,83; 190; 137,3), dançar hip hop (4,20; 121; 87,2), banho coletivo em banheira quente (5,14; 157; 112,4), ir a festas (5,55; 246; 195,4)

esporte aquático

remo (3,99; 30; 14,9), mergulho livre (3,32; 20; 9,8), jet ski (3,41; 68; 46,4), mergulho autônomo - scuba diving (3,18; 62; 42,6)

livros

arte e fotografia (6,47; 143; 88,7), filosofia (3,42; 120; 91,0), ficção e literatura (3,26; 282; 248,6), clássicos (2,75; 164; 137.4)

música

folk (4,80; 83; 50,9), bluegrass/rural (3,26; 57; 37,8), jazz (3,16; 164; 133,6)

cinema

arte (6,95; 141; 83,8), documentário (2,79; 129; 104,2), independente (5,04; 206; 155,7)

livro

filosofia (3,19; 297; 252,1), sexo (3,22; 169; 133,9)

cinema

erótico e softcore (2,83; 139; 110,6), independente (2,93; 480; 431,4)

música

funk music (2,93; 194; 159,5)

social

banho coletivo em banheira quente (3,03; 444; 394,7), frequentar raves (2,80; 181; 149,0)

livro

entretenimento (3,04; 137; 108,8)

esporte terrestre

vôlei de praia (2,87; 127; 101,1), futebol americano (2,86; 123; 97,5)

cinema

aventura (3,16; 305; 268,8), drama (3,45; 325; 285,7), terror (2,53; 108; 86,5), romance (2,98; 200; 168,2)

música

rap/hip hop (4,20; 282; 234,2), soul/R&B (2,60; 193; 165,4)

outra

patinação no gelo (2,69; 100; 78,1)

social

ir a festas (5,93; 369; 301,8), frequentar casas noturnas (4,99; 268; 211,9), dançar hip hop (4,43; 179; 134,6), pular de bar em bar (3,02; 198; 165,9), banho coletivo em banheira quente (2,92; 205; 173,5)

esportes aquáticos

surfe (2,78; 68; 49,4), wakeboarding (3,31; 54; 35,1), esqui aquático (2,91; 89; 66,8)

atraente

criativo(a)

NÃO* amigável

divertido(a)

item (Z score; número de indivíduos que selecionaram ambos – traço e item; e o número esperado randomicamente)

engraçado(a)

inteligente bondoso(a)

adorável

NÃO* responsável

sensual

esporte terrestre

tênis de mesa (2,51; 153; 128,3)

cinema

comédia (3,43; 416; 381,6)

música

rap/hip hop (2,73; 262; 231,1), rock (3,05; 377; 344,2)

outras

boliche (3,04; 179; 147,7), levantamento de controle remoto (3,16; 204; 170,2)

livros

filosofia (2,90; 169; 138,7), política (2,81; 141; 113,7), ciências (3,99; 151; 112,4), ficção científica (2,88; 213; 180,0)

outras

jogos de computador (2,74; 134; 108,0)

cinema

ficção científica (2,67; 201; 172,3)

livros

culinária (2,53; 38; 25,8), entretenimento (3,27; 73; 52,0), romance (2,89; 35; 22,0)

cinema

aventura (2,59; 149; 128,5), mistério (2,92; 93; 72,1), romance (5,63; 122; 80,4)

música

easy listening (3,13; 48; 31,6), latina (2,81; 71; 52,9), rap/hip hop (2,80; 134; 112,0), soul/R&B (4,20; 110; 79,1), trip-hop (2,52; 40; 27,5)

outra

aeróbica (2,58; 36; 24,0)

social

dançar hip hop (4,43; 95; 64,4)

esporte aquático

natação (2,82; 121; 99,1)

livros

sexo (3,88; 149; 110,6)

cinema

erótico e softcore (3,15; 120; 91,3), gay e lésbico (3,11; 55; 36,5), independente (3,70; 412; 356,2)

música

funk music (3,11; 165; 131,7), jungle (3,15; 99; 73,1), reggae (2,87; 199; 165,4), trance (2,86; 231; 195,2)

outra

andar de skate (2,54; 63; 46,2)

social

frequentar raves (4,14; 166; 123,1)

livros

sexo (7,71; 51; 19,2); juvenil (5,26; 19; 6,2); saúde, corpo e mente (3,06; 29; 17,0)

esporte terrestre

luta (3,05; 14; 6,4)

cinema

erótico e softcore (9,80; 53; 15,8), faroeste (4,40; 28; 12,8), gay e lésbico (4,32; 17; 6,3), terror (2,64; 41; 28,2)

música

funk music (4,98; 45; 22,8), house (3,88; 47; 28,2), disco music (3,52; 31; 17,2), jungle (3,31; 24; 12,7), trip-hop (2,75; 30; 18,8), reggae (2,73; 42; 28,7)

outras

levantamento de peso (4,19; 56; 34,1), bungee jumping (3,26; 20; 10,0), andar de skate (2,89; 16; 8,0)

social

banho coletivo em banheira quente (6,58; 97; 56,5), pular de bar em bar (4,60; 82; 54,0), frequentar raves (4,78; 42; 21,3), ir a festas (4,29; 126; 98,3), dançar hip hop (3,88; 66; 43,9),

dança folclórica (3,62; 15; 6,2), frequentar casas noturnas (3,58; 92; 69,0)

NÃO* sensual

socialmente adaptável

esportes aquáticos

jet ski (3,26; 38; 23,3), surfe (2,86; 27; 16,1)

livros

ficção científica (2,61; 305; 268,5)

livros

sociologia (3,41; 39; 23,2)

música

house (2,75; 65; 47,6), rap/hip hop (2,97; 154; 128,9)

outra

snowboarding (2,55; 65; 48,8)

social

pular de bar em bar (3,63; 120; 91,3), frequentar casas noturnas (2,92; 141; 116,7), frequentar raves (2,83; 52; 36,1)

esportes aquáticos

polo aquático (3,56; 23; 11,3)

NÃO* socialmente cinema adaptável outra

talentoso(a)

negócios (5,88; 21; 6,6)

esportes terrestres

tênis (3,41; 43; 28,2)

NÃO* ímpar

levantamento de peso (4,16; 32; 16,8)

social

churrasco (3,05; 41; 27,8)

esportes aquáticos

navegação (2,85; 22; 12,7), jet ski (4,30; 25; 11,5), esqui aquático (3,05; 20; 10,7)

livros

fantasia (3,03; 222; 186,0), ficção científica (2,66; 246; 212,9)

cinema

arte (3,43; 189; 151,2), fantasia (2,74; 198; 166,7), gay e lésbico (2,70; 43; 28,8), artes performáticas (3,02; 115; 88,3)

livros

profissionais e técnicos (3,17; 22; 11,6)

cinema

artes performáticas (4,20; 37; 19,5)

outra

andar de skate (2,87; 16; 8,1)

livros

fantasia (3,37; 184; 148,2), ficção científica (3,01; 203; 169,6)

NÃO* talentoso(a) cinema

ímpar

jogos de laser (2,67; 99; 76,8)

livros

bem-sucedido(a) outra

NÃO* bemsucedido(a)

arte (3,01; 185; 151,7), fantasia (2,59; 197; 167,3), artes performáticas (2,64; 112; 88,6)

arte (2,80; 148; 120,4), fantasia (2,96; 163; 132,8), independente (2,79; 257; 223,6)

outra

jogos de laser (2,97; 83; 61,0)

esportes terrestres

atletismo (2,58; 74; 55,9)

cinema

independente (2,52; 191; 165,1)

livros

ficção científica (4,59; 82; 53,4), fantasia (3,75; 69; 46,7)

esportes terrestres

esgrima (2,90; 14; 6,7)

cinema

fantasia (3,34; 61; 41,8), arte (3,27; 56; 37,9), ficção científica (3,05; 84; 64,0)

esquisito(a)

livros

fantasia (3,32; 78; 56,3), ficção científica (3,75; 90; 64,4)

cinema

arte (3,01; 64; 45,7), fantasia (3,27; 71; 50,4), ficção científica (2,90; 98; 77,1)

música

heavy metal (2,56; 39; 26,6)

outra

jogos de computador (3,24; 57; 38,6)

*Nota: Os traços de personalidade precedidos por “NÃO” (por exemplo, “NÃO amigável”) não significam que os usuários se descreveram como tendo tal traço. Ao contrário, eles elegeram não selecionar uma certa característica (por exemplo, “amigável”). O “NÃO” simplesmente significa a ausência de uma característica autodescrita.

Apêndice B

Tabela B1: Preferências dos usuários masculinos.

preferência/atividade

item (Z score; número observado; número estimado)

livros

computadores (5,74; 172; 113,3), ficção científica (5,65; 430; 338,6), profissionais e técnicos (4,72; 125; 83,1), ciências (4,49; 272; 211,5), negócios (3,85; 133; 96,4), política (3,33; 259; 213,9), filosofia (3,08; 306; 260,9), esportes (3,07; 179; 144,0), aventura (2,35; 337; 300,7)

esportes terrestres

futebol americano (5,92; 312; 229,6), golfe com disco (5,16; 195; 137,4), tênis de mesa (5,00; 384; 306,1), golfe (4,72; 258; 196,4), beisebol (4,70; 199; 145,2), basquete (4,02; 442; 374,8), críquete (2,88; 54; 36,8), esgrima (2,32; 57; 42,2), raquetebol (3,67; 94; 65,1), squash (2,32; 82; 63,9), tênis (2,94; 466; 415,1), futebol (2,10; 382; 347,6), luta (2,03; 60; 46,4)

filmes

ficção científica (7,42; 533; 405,5), guerra (6,98; 395; 288,6), ação (4,03; 771; 693,5), espionagem (3,59; 450; 389,2), erótico e softcore (3,26; 148; 114,5), aventura (2,69; 684; 632,6), anime (2,88; 202; 166,9), esporte (2,98; 262; 221,1), faroeste (3,02; 121; 92,8)

música

heavy metal (4,55; 191; 139,8)

outras

jogos de computador (7,02; 296; 203,0), levantamento de peso (5,55; 326; 246,4), sinuca (4,57; 432; 356,7), ultimate frisbee (4,53; 246; 188,0), ciclismo de montanha (4,51; 175; 126,5), paintball (4,35; 241; 185,6), jogos de laser (2,30; 146; 121,7), andar de bicicleta (2,15; 257; 227,1)

sociais

churrasco (3,04; 462; 409,7), frequentar festas rave (2,45; 183; 154,2), banho coletivo em banheira quente (2,06; 444; 408,5)

esportes aquáticos

pesca (2,23; 183; 156,7), iatismo (2,03; 205; 179,5)

personalidade

traços (Z score, observado, estimativa)

(passar o) tempo livre

aprendendo (4,21; 314; 253,1), fazendo atividades fisicamente desafiadoras (4,07; 414; 347,6)

(critérios para) amizades

amigos em comum (3,51; 217; 173,5), interesses em comum (3,33; 875; 811,0), aparência/visual (3,05; 92; 67,5), sexo (2,65; 72; 53,0)

(critérios para) romance

aparência/visual (5,09; 293; 222,9), sexo (3,41; 239; 194,6), atração física (2,93; 686; 630,2)

(pessoas nas quais buscam) apoio

eternos otimistas (3,88; 325; 267,5), pessoas que me dão logo o que eu quero (3,08; 872; 812,8), pessoas que dizem que também passam por maus momentos de vez em quando (2,12; 414; 378,4)

você

inteligente (2,99; 523; 469,4)

Tabela B2: Preferências das usuárias femininas.

preferência/atividade

item (Z score; número observado; número estimado)

livros

romance (8,28; 139; 71,5); ficção e literatura (5,55; 557; 470,2); saúde, mente e corpo (4,86; 123; 81,1); culinária (4,35; 122; 83,9); arte e fotografia (4,26; 218; 167,7); entretenimento (3,05; 205; 168,9); mistério e suspense (2,99; 209; 173,3); psicologia (2,52; 145; 119,2); clássicos (2,17; 290; 260,0)

esportes terrestres

ginástica (4,31; 53; 29,8), hóquei em campo (4,08; 35; 17,9), softbol (2,70; 84; 63,2)

filmes

romance (11,48; 420; 261,1), para a família (5,61; 135; 85,5), drama (5,16; 524; 443,6), musical (5,09; 230; 169,7), artes performáticas (3,54; 125; 92,6), comédia (2,38; 637; 600,6), independentes (2,12; 325; 294,5)

música

soul/R&B (5,39; 331; 256,8), pop (4,49; 442; 373,6), country (4,08; 121; 85,1), rap/hip-hop (3,06; 410; 363,7), folk (2,34; 118; 96,2), música latina (2,46; 201; 171,7)

outras

aeróbica (9,69; 160; 77,9), patinação no gelo (4,93; 172; 121,2), corrida (3,92; 262; 211,5)

sociais

dançar hip-hop (6,62; 294; 209,1), dança latina (3,94; 165; 124,0), frequentar casas noturnas (3,44; 380; 329,1)

esportes aquáticos

natação (2,79; 363; 322,0)

personalidade

traços (Z score; observado; estimativa)

(passar o) tempo livre

recuperando o atraso em tarefas e atividades (3,80; 244; 196,4), socializando (3,75; 715; 659,8)

(critérios para) amizades

risada (6,66; 791; 696,4), honestidade/confiança (3,95; 736; 678,9), comunicação (2,24; 514; 479,0)

(critérios para) romance risada (7,18; 579; 466,7), honestidade/confiança (2,92; 685; 641,5) (pessoas nas quais buscam) apoio

aceitadores incondicionais (5,99; 355; 271,1), ouvintes (3,43; 596; 542,6), pessoas que me mimam quando estou mal (2,95; 156; 125,2)

você

divertido (4,05; 307; 251,6), adorável (2,56; 142; 116,1), amigável (2,53; 446; 407,0)

Apêndice C: Preferências individuais e taxas de associação

Tabela C1: Gêneros de livros e taxas de associação.

gênero

taxa de associação

Z score

número de usuários

número de conexões

número estimado

gay e lésbico

4,37

15,35 63

88

20

profissionais e técnicos

1,75

6,61

138

128

73

computadores

1,65

8,52

188

256

154

juvenil

1,64

3,04

74

36

22

sexo

1,41

6,82

230

340

240

esportes

1,39

5,91

239

288

207

negócios

1,37

4,20

160

162

118

romance

1,32

3,63

180

158

120

religião e espiritualidade

1,31

5,63

258

376

286

política

1,31

7,80

355

700

535

arte e fotografia

1,29

9,29

422

1.056

819

sociologia

1,28

3,24

165

156

121

fantasia

1,26

9,80

491

1.356

1.075

entretenimento

1,26

8,46

425

1.064

845

saúde, mente e corpo

1,23

3,11

204

202

164

psicologia

1,21

4,69

300

496

408

ciências

1,21

4,91

351

572

474

gastronomia

1,20

3,03

211

236

195

ficção científica

1,20

8,54

562

1.610

1.343

biografias

1,19

4,89

337

630

527

viagens

1,17

3,71

306

450

382

não-ficção

1,16

4,79

419

868

750

filosofia

1,15

4,56

433

882

769

mistério e suspense

1,14

4,63

436

968

848

aventura

1,14

5,18

499

1.198

1.051

terror

1,13

1,32

144

102

89

clássicos

1,13

6,88

654

2.096

1.851

história

1,10

3,62

483

1.068

969

ficção e literatura

1,09

11,17 1.183

6.568

6.004

-1,13

68

77

natureza e atividades ao 0,88 ar-livre

140

Tabela C2: Gêneros de filmes e taxas de associação.

gênero

taxa de associação

Z score

número de usuários

número de conexões

número estimado

gay e lésbico

5,65

24,75

76

154

27

artes performáticas

1,76

13,22

233

472

268

religião

1,46

2,89

92

54

36

erótico e softcore 1,44

5,57

190

208

144

esportes

1,38

9,95

367

760

548

anime

1,37

6,82

277

408

298

musical

1,36

11,66

427

1.154

851

faroeste

1,32

3,33

154

136

103

para a família

1,26

3,85

215

252

200

fantasia

1,25

8,40

440

1.078

859

arte

1,25

7,48

399

898

718

policial

1,24

7,58

421

952

765

independente

1,24

14,70

741

3.056

2.471

biográfico

1,18

3,12

245

304

257

guerra

1,17

6,12

479

1.132

965

suspense

1,16

9,82

744

2.850

2.461

romance

1,15

7,49

657

1.984

1.727

histórico

1,15

4,21

398

754

657

ficção científica

1,14

7,52

673

2.192

1.921

terror

1,12

3,08

338

576

512

aventura

1,11

11,20

1.050

5.372

4.828

espionagem

1,11

5,62

646

1.974

1.777

ação

1,11

12,39

1.151

6.250

5.633

drama

1,10

11,39

1.116

5.996

5.429

mistério

1,08

3,63

589

1.554

1.437

documentário

1,06

2,20

496

1.060

999

comédia

1,05

9,34

1.511

10.002

9.533

Tabela C3: Gêneros musicais e taxas de associação.

gênero

taxa de associação

Z score

número de usuários

número de conexões

número estimado

gospel

2,06

6,76

105

80

38

jungle

1,78

8,67

152

202

113

bluegrass/rural 1,48

5,70

180

188

126

heavy metal

1,48

7,83

232

354

239

trance

1,44

13,92

406

1.158

804

funk music

1,42

8,14

274

454

318

música latina

1,42

13,71

432

1.212

855

house

1,40

10,08

338

758

543

folk

1,38

6,27

242

332

240

trip-hop

1,33

5,18

225

298

224

soul/R&B

1,31

16,43

646

2.498

1.904

techno

1,30

14,56

588

2.152

1.652

rap/hip-hop

1,30

24,99

915

5.004

3.850

new age

1,30

3,28

157

146

112

easy listening

1,29

5,05

258

344

266

reggae

1,25

6,26

344

640

510

blues

1,23

5,93

348

664

538

country

1,23

3,16

214

212

172

disco music

1,22

3,15

206

234

192

jazz

1,19

9,70

636

2,124

1.783

world music

1,18

5,01

384

724

612

pop

1,18

15,50

940

4.668

3.951

música clássica

1,12

6,87

716

2.372

2.116

rock

1,10

15,54

1.363

8.670

7.871

Tabela C4: Esportes terrestres e taxas de associação.

esporte

taxa de associação

Z score

número de usuários

número de conexões

número estimado

rugby de toque

33,08

N/A

4

2

0

lacrosse

3,12

7,09

54

34

10

hóquei em campo

2,64

5,00

45

24

9

luta

2,29

6,73

77

60

26

críquete

2,24

4,44

61

28

12

esgrima

2,14

4,77

70

36

16

golfe com disco 1,99

16,59

228

494

247

squash

1,79

5,21

106

74

41

atletismo

1,72

12,93

251

482

279

ginástica

1,66

3,55

75

46

27

softbol

1,64

6,87

159

176

107

beisebol

1,59

9,98

241

400

251

badminton

1,56

8,76

221

336

214

futebol americano

1,56

15,50

381

970

621

golfe

1,33

7,43

326

582

439

vôlei

1,22

6,18

388

764

624

vôlei de praia

1,20

5,71

395

804

670

basquete

1,15

6,95

622

1.758

1.530

tênis de mesa

1,14

5,29

508

1.232

1.081

futebol

1,13

5,53

577

1.506

1.334

tênis

1,05

2,52

689

1.924

1.835

raquetebol

0,80

-1,34

108

34

42

Tabela C5: Esportes aquáticos e taxas de associação.

esporte

taxa de associação

Z score

número de usuários

número de conexões

número estimado

nado sincronizado

3,25

5,91

45

22

6

mergulho livre

2,42

4,72

59

26

10

remo

2,24

6,97

90

68

30

wakeboarding

1,64

6,01

137

136

83

jet ski

1,38

7,28

280

442

320

surfe

1,33

4,16

193

190

142

mergulho autônomo (scuba diving)

1,33

5,93

257

376

282

esqui aquático

1,29

5,10

261

354

274

canoagem

1,24

5,36

309

538

434

polo aquático

1,18

0,97

80

32

27

iatismo

1,13

2,72

298

406

358

caiaque

1,13

2,93

309

472

416

navegação

1,10

2,11

309

418

380

natação

1,08

5,30

810

2.968

2.751

pesca

1,08

1,36

260

294

273

windsurfe

0,87

-1,12

135

56

64

Tabela C6: Outros esportes e taxas de associação.

esporte

taxa de associação

Z score

número de usuários

número de conexões

número estimado

ciclismo freestyle

2,11

3,46

48

20

9

skate

1,60

4,15

96

74

46

freestyle frisbee

1,58

4,06

96

74

46

ultimate frisbee

1,46

10,66 312

662

453

paraquedismo

1,45

5,18

174

119

minigolfe

1,41

14,01 426

1.296

918

jogos de computador

1,40

9,78

337

702

501

jogos de laser

1,31

4,59

202

264

202

ciclismo de montanha

1,30

4,13

210

220

169

boliche

1,28

13,45 585

2.060

1.604

escalada em rocha

1,28

6,22

302

554

434

ciclismo de estrada

1,27

2,15

124

76

59

levantamento de controle remoto

1,26

14,64 674

2.770

2.206

paintball

1,25

5,55

308

538

431

patinação

1,24

3,89

228

280

224

sinuca

1,23

10,79 592

1.908

1.549

triatlo

1,23

0,78

54

14

11

snowboard

1,22

5,34

346

594

486

bungee jumping

1,19

1,54

120

76

64

patinação no gelo

1,19

4,06

305

476

400

levantamento de peso

1,16

4,49

409

758

655

caminhada (backpacking)

1,16

5,40

477

1.062

918

aeróbica

1,12

1,62

196

172

152

corrida

1,10

3,83

532

1.284

1.171

caminhada

1,08

4,30

690

2.094

1.939

esqui na neve

1,08

2,91

517

1.196

1.112

artes marciais

1,05

0,65

211

182

173

andar de bicicleta

1,04

0,97

377

564

543

165

Tabela C7: Atividades sociais e taxas de associação.

atividade

taxa de associação

Z score

número de usuários

número de conexões

número estimado

frequentar raves 1,64

12,00

256

502

305

dança de salão

1,61

13,91

329

704

437

dança latina

1,49

10,80

312

620

416

pular de bar em bar

1,34

17,24

648

2.312

1.720

dança folclórica 1,34

1,51

74

26

19

dançar hip hop

1,33

13,62

526

1.652

1.238

banho coletivo em banheira quente

1,32

17,74

678

2.790

2.121

frequentar casas 1,24 noturnas

17,27

828

3.814

3.074

churrasco

1,20

10,93

680

2.364

1.967

ir a festas

1,18

22,31

1.179

7.372

6.224

acampar

1,11

6,83

745

2.618

2.353

Apêndice D: Personalidades e Taxas de Associação

Tabela D1: Como os usuários se descreveram e que tipo de pessoas procuravam outras como elas.

personalidade

taxa de associação

Z score

número de usuários

número de conexões

número estimado

sensual

1,46

5,47

204

192

131

talentoso

1,40

5,17

213

210

149

divertido

1,25

11,22

633

1.852

1.479

esquisito

1,25

4,32

286

332

265

adorável

1,22

4,20

292

406

333

ímpar

1,11

4,15

547

1.194

1.074

engraçado

1,10

4,06

619

1.474

1.345

amigável

1,10

7,55

1.024

4.024

3.674

socialmente adaptável

1,09

2,12

342

482

440

atraente

1,07

1,76

406

522

486

criativo

1,04

1,48

541

982

941

inteligente

1,01

0,42

779

1.848

1.833

responsável

0,99

-0,28

500

686

692

bondoso

0,99

-0,44

625

1.226

1.239

competente

0,92

-1,40

294

226

246

bem-sucedido

0,70

-1,57

99

18

25

Tabela D2: Como os usuários aproveitam o tempo livre e se os que passam o tempo livre da mesma maneira são mais propensos a serem amigos.

atividade no tempo livre

taxa de associação

Z score

cumprindo compromissos

1,34

9,30

socializando

1,12

recuperando o atraso em tarefas e atividades

número de usuários 398

número de conexões

número estimado

826

614

21,12 1.660

11.374

10.156

1,09

2,71

494

850

782

aprendendo

1,07

1,82

420

536

498

fazendo qualquer coisa empolgante

1,07

8,05

1.280

6.278

5.850

assistindo TV

1,07

1,85

415

602

561

lendo

1,02

0,66

631

1.186

1.166

ficando fora de casa

1,01

0,97

940

2.882

2.841

ficando em casa

0,97

-0,32

209

126

129

sozinho

0,96

-0,93

380

398

415

fazendo atividades fisicamente desafiadoras

0,96

-1,46

577

878

916

Histórico Editorial Artigo recebido em 1º de Abril de 2003; Aceito em 16 de Maio de 2003.

A social network caught in the Web by Lada A. Adamic, Orkut Buyukkokten, and Eytan Adar We present an analysis of Club Nexus, an online community at Stanford University. Through the Nexus site we were able to study a reflection of the real world community structure within the student body. We observed and measured social network phenomena such as the small world effect, clustering, and the strength of weak ties. Using the rich profile data provided by the users we were able to deduce the attributes contributing to the formation of friendships, and to determine how the similarity of users decays as the distance between them in the network increases. In addition, we found correlations between users' personalities and their other attributes, as well as interesting correspondences between how users perceive themselves and how they are perceived by others.

Contents Introduction User registration and data Network analysis Properties of individual profiles Association by similarity Similarity and distance Nexus Karma Conclusions and future work

Introduction Community Web sites are becoming increasingly popular — allowing users to chat, organize events, share opinions and photographs, make announcements, and meet new friends. Several prior studies have focused on characterizing these online interactions (Curtis, 1992; Yee, 2001), and others have attempted to measure the effect of the Internet on real life social interactions (Wellman et al., 2002a and 2002b). Our study has a somewhat different focus: While we can learn much about the online community itself, we are more interested in gleaning from it insights about the underlying real world social networks. The community we chose for our study is Club Nexus. Club Nexus was introduced at Stanford in the fall of 2001. It is a system devised by students to serve the communication needs of the Stanford online community. Students can use Club Nexus to send e-mail and invitations, chat, post events, buy and sell used goods, search for people with similar interests, place personals, display their artwork or post editorial columns. Within a few months of its introduction, Club Nexus attracted over 2,000 undergraduates and graduates, together comprising more than 10 percent of the total student population. The electronic nature of online community participation presents an opportunity to study human behavior and interactions with great detail and on an unprecedented scale. Traditional methods of gathering information on social networks require researchers to conduct time consuming and expensive mail, phone, or live surveys. This limits the size of the data sets and requires additional time and effort on the part of the participants. When studying an online community, our ability to learn more about the social network is simply a side effect of users transmitting information digitally. Previously we were able to analyze a portion of the Stanford social network reflected in the homepages of Stanford students and the hyperlinks between them (Adamic and Adar, in press). Our finding that personal homepages can create a large social network was an inspiration for Club Nexus. Because users are explicitly asked to name their friends, Club Nexus is more densely connected than the homepage network where users link to their friends of their own accord. The structured format of the profiles lends itself to easier statistical analysis than the free-form text of personal homepages. The data presents an opportunity to study, among

other things, the online community's structure, social interactions and how factors such as personality and interests influence one's choice of friends. In this paper we take the first step of analyzing the community as a social network, and compare profiles supplied by the users to characterize connections.

User registration and data Upon registering, users entered their names, e-mail addresses, birthdays (for birthday reminder notifications to their friends), major, graduate or undergraduate status, year in school, residence, and home country and state. They could also optionally list the high school (and college if they are graduate students) that they attended, as well as their phone number, hometown, homepage and picture. The data that we used in all of our analysis was anonymized, with user names replaced by unique ID's and only year, graduate or undergraduate status, and department retained from the above information. All results of our study are presented in aggregate to further ensure the users' privacy.

Figure 1: Nexus Net as seen from a single user perspective. Clicking on any of the nodes re-centers the graph around that user. In the second registration step, users were asked to list their friends and acquaintances at Stanford. In 'Nexusspeak' these people are called 'buddies'. Users identified their buddies by searching for them in the Stanford directory or by entering their names manually. If a user adds a buddy who is already registered, the buddy will get a notification that the user has requested to be their buddy and can accept or decline the request. If the 'buddy' is not yet registered, they will get an invitation to join Club Nexus. This viral sign-up strategy resulted in a rapid build-up of the user base. Several months after Club Nexus was introduced, users were given the opportunity to rank how 'trusty', 'nice', 'cool', and 'sexy' their buddies were. This added a new dimension to the interaction data. In addition to basic demographic information users were asked to add a list of interests and hobbies to their profile by checking off as many choices as they liked from listings of social activities, sports, and movie, music, and book genres. These choices could then be used by Club Nexus to match up users with similar preferences. In a final step, users were asked to select three items from lists of adjectives to describe their personalities, the

kinds of people they turn to for support, the ways they like to spend their free time, and what they look for in friendship and romance. The resulting dataset was a social network with rich profiles for each of the members. In the following sections we first analyze Club Nexus from a network perspective and then look at the relationship between the user attributes and their choices in contacts.

Network analysis The 'Nexus Net', a large social network, consists of 2,469 Nexus users and 10,119 links between them, two individuals being linked if they include each other on their buddy lists. Users can browse the network using the visual interface shown in Figure 1 and can automatically contact their neighbors out to some radius. For example, to organize an event, they can invite just their friends or their friends' friends. As is typical of both social networks in general and online communities in particular, the number of buddies a user has is distributed highly unevenly. Figure 2 shows that users most frequently listed just one buddy (over 200 listed no buddies), but some individual users had dozens of connections, and one had even exceeded a hundred. Part of the skewness in the connectivity distribution is due to the fact that some people are naturally more social than others, but it also reflects a varying eagerness on the part of users to enter their social contacts into an online service. In general, we expect that most Club Nexus users have more friends offline than just those that they list as their buddies with the service.

Figure 2: The number of connections users have; a single buddy being the most common case. The inset shows the same distribution on a log-log scale. In analyzing the social network we observed a small world effect (Migram, 1967; Watts and Strogatz, 1998), where the distance between any two users, measured in the number of hops along the Nexus Net, is only four on average (the full distribution is shown in Figure 3). This average might at first seem low in view of the fact that Club Nexus represents a diverse group of users, both undergraduates and graduates at various stages in their studies representing many departments. This is the counterintuitive aspect of the small world phenomenon: individuals tend to socialize in smaller cliques, often determined by factors such as year in school, department or dorm, yet any two users are separated by only a small number of hops. One can determine to what degree cliques are present by measuring the amount of clustering, also sometimes referred to as transitivity (Newman, 2001). The clustering coefficient tells us how many of a user's friends' friends were friends of the user themselves. In the case of Club Nexus the clustering coefficient of 0.17 is 40 times higher than it would be for a random network with the same number of users and connections. This tells us that there

is a significant amount of structure in the social interactions reported in Club Nexus. The apparent conflict between clustering and short paths was resolved by Watts and Strogatz (1998). They used a simple model of social networks to show that as long as there is a small fraction of 'random' connections between cliques, social networks could display both high clustering and small average shortest paths.

Figure 3: Distribution of user to user distances, with an average of 4 hops. The average is close to the 3.8 hops of an equivalent random graph with the same number of nodes and edges. While the above analysis of the network topology is insightful, things become even more interesting when user profiles are taken into account. We will explore these profile features in the next section and will later return to their impact on network properties.

Properties of individual profiles

Profile data and statistical tools In the process of registering users were asked to select three words out of a choice of 10 to 15 describing their personalities, what they look for in friendship and romance, how they spend their free time and what kind of people they turn to for support. All users completed this section as it was required for initial registration. Users were also asked to optionally express their preferences about book and movie genres, indoor, outdoor and water sports, and other activities. The 418 (of the 2,469) users who did not make a selection in any category were omitted from the analysis regarding preferences. We used Z-scores to characterize the relationships between different attributes the users chose. Z-scores indicate how likely it is to find a connection between two attributes by chance. Specifically, the probability that a Z-score falls above 2 or below -2 is five percent. So we can say that any correlation with an absolute Z-score greater than 2 is significant at the p = .05 level. For example, if we are interested in whether people who consider themselves funny enjoy watching comedies, we count the number of people (518 in all) who selected 'funny' as one of the three descriptive words for themselves. We then count the number of users (1,511 out of 2,051 that specified their interests) who selected comedies as a movie genre they liked. This gives a probability p = 0.74 that a randomly chosen user likes comedies. It then follows that of the 518 'funny' users, an expected p*518 = 382 would enjoy comedies with a standard deviation of 10. We observe that in actuality, 416 users who think they are 'funny' also enjoy comedies. This gives us a Z score of ((number observed)-(number expected))/(standard deviation) = 3.43. The probability that this occurs by chance, that is, that there is no connection between whether users consider themselves funny and whether they like comedies is 0.0003. Hence, although the difference is slight (about 10 percent more funny users like comedies than one would

expect from a random sample), the effect is significant. From here on, when we write that 'users possessing quality A tend to like B', we simply mean that the proportion of users having A and liking B is significantly different than the proportion of users overall who like B. In no way do we mean to say that all users having A are a certain way. Wherever practical, we've included the difference between observed and expected quantities in the tabulated results in the appendices. We would also like to remind the reader that the results pertain only to this particular online community, which is not necessarily representative of the population overall.

Personality and preferences We used this kind of analysis to find correlations between users' personalities and their preferences. Due to the large number of pairings of personality and preference, a few of the relationships may be found statistically significant by chance. But since so many pairings were found to be statistically significant, a majority of them represent true tendencies that paint reasonable portraits of personality types. Using this technique we found that users tended to be consistent in how they described themselves and what they looked for in others. For example, those who described themselves as sexy were more likely to look for sex in both friendship and romance. Those who described themselves as attractive thought appearance and looks were important. Those who thought themselves to be funny sought laughter both in friendship and romance. Statistical correlations between personalities and preferences aligned for the most part with stereotypes pertaining to those personalities. Individuals labeling themselves as 'weird' tended to have 'weird' friends and were more likely to prefer spending their free time alone and staying at home, not 'doing anything exciting' or 'doing physically challenging activities'. They are more likely to enjoy science fiction and fantasy books and movies, heavy metal, and computer gaming. They don't especially value looks in relationships and don't tend to describe themselves as fun, attractive or successful. On the other hand, those who described themselves as 'successful' spent their free time fulfilling commitments and catching up on chores. They also placed an emphasis on appearance and sex in romantic relationships and friendships and liked to spend their time doing physically challenging activities, including weightlifting, tennis, boating, jet and water skiing. They are also three times more likely to read business books. For a complete list of all significant relationships between personality and preferences the reader may consult Appendix A. The Appendix also lists some interesting correlations that appear between an absence of a characteristic and the person's choices. For example, those users who did not select the word 'responsible' to describe themselves include individuals who enjoy books on sex, erotic, gay and lesbian, and independent movies, listen to funk, jungle, reggae, and trance, and enjoy skateboarding and raving.

Academic Major and Personality We also examined the relationship between a person's academic major or department and what adjectives (three from a list of sixteen) they selected to describe themselves. Because there are many different majors, the data were spread out thinly. We were still able to glean a few statistically significant trends, shown in Table 1. Physics, math, and electrical engineering majors stayed true to a 'nerdy' stereotype, being approximately twice as likely to spend their free time learning and to describe themselves as 'weird'.

Table 1: Personality traits and positive correlations to majors.

personality (percent of total)

free time

major

learning (17%)

Physics (46%), Philosophy (37%), Math (31%), Electrical Engineering (26%), and Computer Science (24%)

reading (26%)

English (55%)

staying at home (8%) History (24%) doing anything exciting (52%)

undecided/undeclared (62%)

fulfilling

Psychology (27%)

commitments (16%)

you

watching TV (17%)

International Relations (26%)

intelligent (32%)

Philosophy (59%) and Computer Science (42%)

successful (4%)

Computer Science (7%)

socially adaptable (14%)

Science, Technology, and Society (46%)

attractive (16%)

Political Science (29%) and International Relations (25%)

lovable (12%)

Political Science (24%)

kind (25%)

Public Policy (45%)

weird (12%)

Physics (34%), Math (28%), and Electrical Engineering (18%)

fun (26%)

Human Biology (38%)

creative (22%)

Product Design (62%) and English (42%)

sexy (8%)

English (18%)

Thirteen of the 29 Public Policy majors (double the average proportion) described themselves as 'kind', while a high number of the 62 Political Science majors thought they were 'attractive' (29 vs. 16 percent) and 'lovable' (24 vs. 12 percent). Those who had not yet declared a major (presumably freshmen) were most amiable to 'doing anything exciting' (209 out of 337). On the other hand, the 46 history majors were three times as likely to enjoy spending their free time at home. Unsurprisingly, the 74 English majors were twice as likely to enjoy spending their free time reading and to consider themselves 'creative'. They were also twice as likely to describe themselves as 'sexy' (18 percent), while on the other hand, only three of the 136 Electrical Engineering majors chose to describe themselves in that way.

Gender Differences We next examined how gender influences personality and preferences. While most differences were slight (as shown in Appendix B), typically in the range of 5-10 percent, some were quite marked such as the fact that twice as many women as men liked to read romance novels. Although one cannot say that all women or all men are a certain way, for the most part these slight tendencies conformed to existing stereotypes of gender differences. More men than women enjoy computer, science fiction, professional, technical, science, and business books. More women than men enjoy romance novels, fiction, books about health, mind and body, cooking and art and photography. More men favor football, frisbee golf, table tennis, and golf, while more women prefer gymnastics, field hockey, and softball. More men enjoy science fiction, war, and action movies, as opposed to the romance, family and drama movies women like to watch. More men indicated that they like to spend their free time learning and doing physically challenging activities, while more women said that they like to catch up on chores and socialize. Men preferred friends with mutual acquaintances and common interests, while women valued laughter, honesty and trust. Women looked for the same characteristics in romantic partners, but men were more likely than women to appreciate appearance, sex, and physical attraction. When turning to someone for support, some men gravitated to extremes, turning to 'eternal optimists' or the 'give-it-to-you-straight' people. Women sought support of a more emotional kind and turned to the 'unconditional accepters' and the 'listeners'. Finally, more men than women described themselves as intelligent, while more women than men thought they were fun, lovable and friendly. This may be more indicative of the men's propensity to boast than true intelligence, because there is no confirmed relationship between overall intelligence and gender (Halpern, 2000).

Association by similarity

Many studies have confirmed the tendency of people to share common interests with their social contacts (Lazarsfeld and Merton, 1954; Touhey, 1974; Feld, 1981). We took advantage of the richness of the Club Nexus dataset to see what common interests or traits most influenced friendship. To this end, we used a quantity we termed 'association ratio' to measure network homophily. For a given trait, the association ratio is the proportion of contacts made between people sharing a trait to the proportion of individuals in the population possessing the trait. For example, 329 or 16 percent of the users indicated that they liked ballroom dancing and they had 2,727 buddy links. If one's selection of friends were independent of their enjoyment of ballroom dancing, then 16 percent or 437 of the links would be to other ballroom dancers. However, a full 704 of the links stay within the group of ballroom dancers. This gives us a ratio of 1.61 as the strength of association between ballroom dancers. We also calculate a Z score to confirm that the ratio is not likely to have occurred by chance. Nearly all interests showed a statistically significant tendency of those individuals sharing them to associate with one another (for detailed results see Appendix C). We found further that, in general, activities or interests that are shared by a smaller subset of people showed stronger association ratios than very generic activities or interests that could be enjoyed by many. For example, raving (1.64), ballroom dancing (1.61), and Latin dancing (1.49) showed stronger association in the social activity category than barbecuing (1.20), partying (1.18), or camping (1.11), although all had very high Z-scores. In sports in particular, multi-player team or niche sports were better predictors of social contacts than sports that could be pursued individually or casually. Among water sports, synchronized swimming, diving, crew, and wake boarding were better predictors than boating, fishing, swimming or windsurfing. In the land sports category, team sports, in particular women's team sports such as lacrosse and field hockey were better predictors than soccer (often played casually as opposed to in a competitive college team), tennis, or racquetball. In the 'other sport' category, niche or extreme sports such as freestyle biking, skateboarding, freestyle frisbee, ultimate frisbee, and sky diving are more predictive than sports that have wider appeal such as backpacking, weightlifting, aerobics, jogging, hiking, snow skiing, martial arts, or bicycling. We observed that niche book, movie, and music genres were more predictive of friendship than generic ones. Gay and lesbian books, read by 63 users, had a ratio of 4.37, followed by professional and technical, teen, and computer books. In contrast, the general category of 'fiction & literature' had a ratio of 1.09. Specific movie genres such as gay and lesbian, performing arts, religion and erotic & softcore had higher scores than genres that appeal to a wider audience such as action, drama, mystery, documentary or comedy. Nonmainstream music genres like gospel, jungle, bluegrass/rural and heavy metal were more predictive than jazz, pop, classical and rock. We also checked for homophily in the users' self-described personalities (see Appendix D). Users who described themselves as 'sexy', 'talented', 'fun', 'weird', or 'lovable' liked to associate with those who described themselves likewise. We know from the previous analysis that those who describe themselves as 'sexy' are more likely to value sex in friendships and romance. It makes sense therefore that they would like to associate with other sexy people. We did not, however, observe homophily for individuals who described themselves as 'intelligent', 'responsible', 'kind', 'competent' and 'successful'. Unsurprisingly, those who like to spend their free time fulfilling commitments and socializing preferentially associate with others who like to do the same. In contrast, users who like to stay at home or be alone do not preferentially associate with other loners. One observation we made concerning the relationship between a users' profile and their social network is that listing more preferences and interests correlates slightly (r = 0.2) to the number of buddies listed with Club Nexus. There are two possible explanations: 1) Users who invested the time to enter their friends into the database would also take the time to list more of their interests and activities; and, 2) More active users also maintain more social contacts. Unfortunately, the manner in which the data were collected does not allow us to differentiate between the two. Finally, we were able to use the user's profiles and their positions in the network to test the weak link hypothesis (Granovetter, 1973). It states that connections between dissimilar individuals are important in creating cross-community links. We calculated the betweenness of an edge: how many shortest paths pass through it (Freeman, 1977; Wasserman and Faust, 1994). We then compared the betweenness of the edge to how similar the two individuals sharing the edge were, based on the overlap of their profiles. We found a negative correlation coefficient r = -0.2, meaning that interactions between dissimilar people play a role in making the average distance between any two users in the community shorter. One should also not underestimate the role of highly connected individuals. There is a very strong correlation (r = 0.77) between the betweenness of an individual and the number of buddies they have. Users with many friends naturally serve as a social bridge, and their friends are less likely to all form one social clique, which is indicated by a negative correlation (r = -0.12) between an individual's betweenness score and the clustering coefficient for their friends.

Similarity and distance So far we have established that people who share interests or characteristics are more likely to be friends than those who don't. We take this a step further by examining how similar people are on average to each other as a function of their separation in the Nexus Net. In Figure 4 we compare what fraction of an individuals' first, second, third, fourth, etc. neighbors share the same attribute such as department and year in school as the individual. We find that the similarity drops off rapidly for most categories, that is, there is a much higher likelihood that we share a characteristic with a friend or a friend's friend than that we share it with someone four steps removed. Specifically, we find that the year of study is much more important for undergraduate students than for graduate students, but that the department is more important for graduates than a major is for undergraduates. This can be explained by the observation that undergraduate students take many required classes with others in their class, but graduate students usually spend most of their time interacting with individuals in their research group and sometimes collaborate with others in their department. The courses that they take tend to be more specialized and will usually expose them primarily to other graduate students in their own field. Finally, we find that attributes such as tastes in books and movies also show a decay in similarity with increasing distance in the network. The effect is much smaller, possibly because these variables do not influence to the same extent how and with whom students spend their time.

Nexus Karma Several months after Club Nexus was launched, Nexus Karma was announced by e-mail as a new feature. Users were given the opportunity to rank how 'trusty', 'nice', 'cool', and 'sexy' their buddies were on a scale of 1 to 4. One could not pick and choose which buddies to rank, but rather had to rank all of them at once. After a week, users who had been ranked by at least three buddies were themselves sent an e-mail asking them to rank their buddies in turn. There was a tremendous response to this, with 446 users ranking 1,735 different friends. This data allowed us to step beyond users' self-perceptions and allowed us to integrate users' perceptions of each other into the network data.

Figure 4: Average fraction of users with a common trait (year, undergraduate or graduate status, etc.) as a function of the distance from a user having that trait. The plot is truncated at eight hops because less than .03% of the pairs are separated by more than eight hops. We found that users had a tendency to give a similar score to a buddy across all categories. That is, users tended to rank their friends as '3, 3, 3, 3' as opposed to '1, 4, 2, 3'. This resulted in a high correlation

coefficient between the different attributes. There were still, however, perceptible differences in the scores given. Users on average received the highest scores for niceness (3.37) and trustiness (3.22), followed by coolness (3.13) and sexiness (2.83). While pairs of dissimilar attributes such as 'trusty-sexy' or 'nice-sexy' had a lower correlation coefficient of 0.4, the pairs of attributes 'trusty-nice' and 'cool-sexy' had higher correlation coefficients of 0.7. This indicates that although users had an overall opinion about their buddies, they tended to associate trustiness with niceness and coolness with sexiness. We found mild or negligible correlation between a person's average ranking in each category and the number of buddies that they have. This negates the hypothesis that people perceived as cool or nice have more friends. Interestingly, we found a slight negative relationship (r ~ -0.1) between the number of buddies a person has and the average 'trusty', 'nice', and 'cool' scores that they gave them. A simple interpretation is that those who list only a few of their friends with Club Nexus tend to list their closest ones, those they would rate most highly. Users who list a large number of friends are more likely to include those that they don't have the highest opinion of. We did find interesting correlations between the ratings users received from others and the adjectives that they chose to describe themselves. We used a t test for two sample means to see if the average ranking in a category differed at the one percent significance level between those who did and did not choose a particular adjective to describe themselves. A few adjectives displayed a slight, but significant, difference. For example, those who described themselves as responsible received higher (3.36 on average vs. 3.23 for those not describing themselves as responsible) 'trusty' scores on average, but scored slightly lower in the 'cool' (3.02 vs. 3.13) and 'sexy' (2.67 vs. 2.85) categories. The reverse was true of those who described themselves as 'attractive' or 'sexy'. They were ranked more highly on average in the 'sexy' category, but fared worse in the 'trusty' and 'nice' categories. As one would expect, 'friendly' and 'kind' users received higher scores in the 'nice' category, while 'kind' people were also ranked as more 'trusty'. Users who described themselves as 'weird' received lower 'sexy' scores, while 'funny' people were perceived as less 'nice'. This not only demonstrates a clear correspondence between the way that individuals perceive themselves and the way that they are perceived by others, but also an interesting dichotomy between desirable qualities such being funny or attractive and whether people possessing those qualities are perceived as nice. We were also interested in the reasons why individuals gave the rankings that they did. One might expect that nicer people are more generous with their judgments. Indeed, the higher a user's 'nice' score, the higher the 'trusty', 'nice', and 'cool' scores (r = 0.14-0.17) they give to their friends. Similarly, the higher a user's 'trusty' score, the higher the 'trusty', 'nice', 'cool', and 'sexy' scores that user gives to others (r = 0.14-0.20). We also found evidence that some friendships are closer than others. For example, users who share friends (and hence belong to the same clique) are more likely to give each other high scores (r = 0.10-0.13). We further found that users tend to reciprocate their 'trusty' and 'nice' scores, meaning that if user A gives user B a higher than average score, then user B is somewhat more likely to do the same for user A. Note that users' ratings of one another are independent because they are not told, except in aggregate, what score their friends have given them. Users did not however seem to reciprocate on their 'cool' and 'sexy' opinions. These are only some of the insights that can be gleaned from the Nexus Karma data set. We hope to study it in greater detail in future work.

Conclusions and future work We have presented a preliminary social network analysis of the Club Nexus online community. The online community in many respects appears to reflect the underlying community structure at Stanford University. The size of the network allowed us to study phenomena such as the small world effect and the strength of weak ties, while the richness of the profiles allowed us to characterize social ties and identify what factors influence friendships. Our analysis was able to detect many expected trends (e.g. English majors liking to spend their free time reading or people sharing a narrow or unusual interest becoming friends), while at the same time finding nonobvious relationships (e.g. 'responsible' people being perceived as slightly less 'cool'). What makes Club Nexus special is that one is able to observe these patterns on a large scale with many different variables. The richness of this information can be used to model dynamics such as the spread of ideas on a network or the way that people can find each other through their contacts. The ranking data from Nexus Karma can help us better understand reputation mechanisms now used by online retailers (Resnick and Zeckhauser, 2002). As the Club Nexus community evolves, there will be opportunity to study the changes in the network over time, as well as to analyze social dynamics such as the adoption of a new feature introduced at the Web site. Whereas tracking social networks over time by traditional methods such as telephone or live interviews is very

expensive and time consuming, studying online communities is relatively effortless but may provide new and valuable insights.

About the Authors Lada Adamic is a researcher in the Information Dynamics Group at Hewlett-Packard Labs in Palo Alto, Calif. Orkut Buyukkokten is a researcher at Google Labs in Mountain View, Calif. During the last year of his PhD in Computer Science at Stanford he helped create Club Nexus, the online community that is the subject of this paper. He also co-founded Affinity Engines, a company that helps organizations build online communities. Eytan Adar is a researcher in the Information Dynamics Group at Hewlett-Packard Labs in Palo Alto, Calif.

Acknowledgments We would like to thank Rajan Lukose, Mette Huberman, T.J. Giuli, and Kresimir Adamic for their valuable comments.

References L.A. Adamic and E. Adar, in press. "Friends and neighbors on the Web," Social Networks. P. Curtis, 1992. "Mudding: Social phenomena in text-based virtual realities," In: Proceedings of the 1992 Conference on the Directions and Implications of Advanced Computing, Berkeley, Calif. (May). S.L. Feld, 1981. "The focused organization of social ties," American Journal of Sociology, volume 86, number 5 (March) pp. 1015-1035. http://dx.doi.org/10.1086/227352 L.C. Freeman, 1977. "A set of measures of centrality based upon betweenness," Sociometry, volume 40, number 1 (March), pp. 35-41. http://dx.doi.org/10.2307/3033543 M. Granovetter, 1973. "The strength of weak ties," American Journal of Sociology, volume 78, number 6 (May), pp. 1360-1380. http://dx.doi.org/10.1086/225469 D.F. Halpern, 2000. Sex differences in cognitive abilities. Mahwah, N.J.: Lawrence Erlbaum. P. Lazarsfeld and R.K. Merton, 1954. "Friendship as a social process: A substantive and methodological analysis," In: M. Berger, T. Abel, and C.H. Page (editors). Freedom and control in modern society. New York: Van Nostrand, pp. 18-66. M.E.J. Newman, S.H. Strogatz, and D.J. Watts, 2001, "Random graphs with arbitrary degree distributions and their applications," Physical Review E, Third Series, volume 64, parts 1 and 2 (August), 026118. P. Resnick and R. Zeckhauser, 2002. "Trust among strangers in Internet transactions: Empirical analysis of eBay's reputation system," In: Michael R. Baye (editor). The economics of the Internet and ecommerce. Advances in Applied Microeconomics, volume 11. Amsterdam, Elsevier. J.C. Touhey, 1974. "Situated identities, attitude similarity, and interpersonal attraction," Sociometry, volume 37, number 3 (September), pp. 363-374. http://dx.doi.org/10.2307/2786388 S. Wasserman and K. Faust, 1994. Social network analysis. Cambridge: Cambridge University Press, pp. 188191. D.J. Watts and S.H. Strogatz, 1998. "Collective dynamics of small-world networks," Nature, volume 393, number 6684 (4 June), pp. 440-442. B. Wellman, A. Quan-Haase, J. Boase, and W. Chen, 2002a. "Examining the Internet in everyday life," Keynote address to the Euricom Conference on e-Democracy, Nijmegen, Netherlands (October).

B. Wellman, J. Boase, and W. Chen, 2002b. "The networked nature of community online and offline," IT & Society, volume 1, number 1 (Summer), pp. 151-165. N. Yee, 2001. "The Norrathian Scrolls: A study of Everquest," at http://www.nickyee.com/eqt/report.html, accessed 5 February 2003.

Appendix A

Table A1: Correlations between a user's personality and their preferences.

personality

preference/activity book

business (4.34, 48, 26.5)

movie

erotic & softcore (3.09, 48, 31.5)

music

disco (3.04, 51, 34.1)

other

weightlifting (4.64, 102, 67.8)

social

bar-hopping (5.43, 154, 107.4), clubbing (5.83, 190, 137.3), hip-hop dancing (4.20, 121, 87.2), hot tubbing (5.14, 157, 112.4), partying (5.55, 246, 195.4)

watersport

crew (3.99, 30, 14.9), diving (3.32, 20, 9.8), jet skiing (3.41, 68, 46.4), scuba diving (3.18, 62, 42.6)

book

art & photography (6.47, 143, 88.7), philosophy (3.42, 120, 91.0), fiction & literature (3.26, 282, 248.6), classics (2.75, 164, 137.4)

music

folk (4.80, 83, 50.9), bluegrass/rural (3.26, 57, 37.8), jazz (3.16, 164, 133.6)

movie

art (6.95, 141, 83.8), documentary (2.79, 129, 104.2), independent (5.04, 206, 155.7)

book

philosophy (3.19, 297, 252.1), sex (3.22, 169, 133.9)

movie

erotic & softcore (2.83, 139, 110.6), independent (2.93, 480, 431.4)

music

funk (2.93, 194, 159.5)

social

hot tubbing (3.03, 444, 394.7), raving (2.80, 181, 149.0)

book

entertainment (3.04, 137, 108.8)

landsport

beach volleyball (2.87, 127, 101.1), football (2.86, 123, 97.5)

movie

adventure (3.16, 305, 268.8), drama (3.45, 325, 285.7), horror (2.53, 108, 86.5), romance (2.98, 200, 168.2)

music

rap/hip-hop (4.20, 282, 234.2), soul/R&B (2.60, 193, 165.4)

other

ice skating (2.69, 100, 78.1)

attractive

creative

not* friendly

fun

item (Z score, number of individuals who selected both the personality trait and the item, the number expected if random)

funny

intelligent

kind

lovable

not* responsible

sexy

social

partying (5.93, 369, 301.8), clubbing (4.99, 268, 211.9), hip-hop dancing (4.43, 179, 134.6), bar-hopping (3.02, 198, 165.9), hot tubbing (2.92, 205, 173.5)

watersport

surfing (2.78, 68, 49.4), wake boarding (3.31, 54, 35.1), water skiing (2.91, 89, 66.8)

landsport

table tennis (2.51, 153, 128.3)

movie

comedy (3.43, 416, 381.6)

music

rap/hip-hop (2.73, 262, 231.1), rock (3.05, 377, 344.2)

other

bowling (3.04, 179, 147.7), couch potatoing (3.16, 204, 170.2)

book

philosophy (2.90, 169, 138.7), politics (2.81, 141, 113.7), science (3.99, 151, 112.4), science fiction (2.88, 213, 180.0)

other

computer gaming (2.74, 134, 108.0)

movie

science fiction (2.67, 201, 172.3)

book

cooking (2.53, 38, 25.8), entertainment (3.27, 73, 52.0), romance (2.89, 35, 22.0)

movie

adventure (2.59, 149, 128.5), mystery (2.92, 93, 72.1), romance (5.63, 122, 80.4)

music

easy listening (3.13, 48, 31.6), latin (2.81, 71, 52.9), rap/hip-hop (2.80, 134, 112.0), soul/R&B (4.20, 110, 79.1), trip-hop (2.52, 40, 27.5)

other

aerobics (2.58, 36, 24.0)

social

hip-hop dancing (4.43, 95, 64.4)

watersport

swimming (2.82, 121, 99.1)

book

sex (3.88, 149, 110.6)

movie

erotic & softcore (3.15, 120, 91.3), gay & lesbian (3.11, 55, 36.5), independent (3.70, 412, 356.2)

music

funk (3.11, 165, 131.7), jungle (3.15, 99, 73.1), reggae (2.87, 199, 165.4), trance (2.86, 231, 195.2)

other

skateboarding (2.54, 63, 46.2)

social

raving (4.14, 166, 123.1)

book

sex (7.71, 51, 19.2), teen (5.26, 19, 6.2), health mind & body (3.06, 29, 17.0)

landsport

wrestling (3.05, 14, 6.4)

movie

erotic & softcore (9.80, 53, 15.8), western (4.40, 28, 12.8), gay & lesbian (4.32, 17, 6.3), horror (2.64, 41, 28.2)

music

funk (4.98, 45, 22.8), house (3.88, 47, 28.2), disco (3.52, 31, 17.2), jungle (3.31, 24, 12.7), trip-hop (2.75, 30, 18.8), reggae (2.73, 42, 28.7)

other

weightlifting (4.19, 56, 34.1), bungee jumping (3.26, 20,

10.0), skateboarding (2.89, 16, 8.0)

not* sexy

socially adaptable

not* socially adaptable

successful

social

hot tubbing (6.58, 97, 56.5), bar-hopping (4.60, 82, 54.0), raving (4.78, 42, 21.3), partying (4.29, 126, 98.3), hip-hop dancing (3.88, 66, 43.9), folk dancing (3.62, 15, 6.2), clubbing (3.58, 92, 69.0)

watersport

jet skiing (3.26, 38, 23.3), surfing (2.86, 27, 16.1)

book

science fiction (2.61, 305, 268.5)

book

sociology (3.41, 39, 23.2)

music

house (2.75, 65, 47.6), rap/hip-hop (2.97, 154, 128.9)

other

snowboarding (2.55, 65, 48.8)

social

bar-hopping (3.63, 120, 91.3), clubbing (2.92, 141, 116.7), raving (2.83, 52, 36.1)

watersport

water polo (3.56, 23, 11.3)

movie

art (3.01, 185, 151.7), fantasy (2.59, 197, 167.3), performing arts (2.64, 112, 88.6)

other

laser gaming (2.67, 99, 76.8)

book

business (5.88, 21, 6.6)

landsport

tennis (3.41, 43, 28.2)

other

weightlifting (4.16, 32, 16.8)

social

barbecuing (3.05, 41, 27.8)

watersport

boating (2.85, 22, 12.7), jet skiing (4.30, 25, 11.5), water skiing (3.05, 20, 10.7)

book

fantasy (3.03, 222, 186.0), science fiction (2.66, 246, 212.9)

movie

art (3.43, 189, 151.2), fantasy (2.74, 198, 166.7), gay & lesbian (2.70, 43, 28.8), performing arts (3.02, 115, 88.3)

book

professional & technical (3.17, 22, 11.6)

movie

performing arts (4.20, 37, 19.5)

other

skateboarding (2.87, 16, 8.1)

book

fantasy (3.37, 184, 148.2), science fiction (3.01, 203, 169.6)

movie

art (2.80, 148, 120.4), fantasy (2.96, 163, 132.8), independent (2.79, 257, 223.6)

other

laser gaming (2.97, 83, 61.0)

landsport

track & field (2.58, 74, 55.9)

movie

independent (2.52, 191, 165.1)

book

science fiction (4.59, 82, 53.4), fantasy (3.75, 69, 46.7)

landsport

fencing (2.90, 14, 6.7)

movie

fantasy (3.34, 61, 41.8), art (3.27, 56, 37.9), science fiction (3.05, 84, 64.0)

not* successful

talented

not* talented

unique

not* unique

weird

book

fantasy (3.32, 78, 56.3), science fiction (3.75, 90, 64.4)

movie

art (3.01, 64, 45.7), fantasy (3.27, 71, 50.4), science fiction (2.90, 98, 77.1)

music

heavy metal (2.56, 39, 26.6)

other

computer gaming (3.24, 57, 38.6)

*Note: Personality traits preceded by "not" (for example, "not friendly") do not mean that individuals described themselves as having that trait. Rather, they elected not to select a certain characteristic (e.g. friendly). "Not" simply means the absence of a self-described characteristic.

Appendix B

Table B1: Preferences of male users.

preference/activity

item (Z score, number observed, number expected)

book

computers (5.74, 172, 113.3), science fiction (5.65, 430, 338.6), professional & technical (4.72, 125, 83.1), science (4.49, 272, 211.5), business (3.85, 133, 96.4), politics (3.33, 259, 213.9), philosophy (3.08, 306, 260.9), sports (3.07, 179, 144.0), adventure (2.35, 337, 300.7)

landsport

football (5.92, 312, 229.6), frisbee golfing (5.16, 195, 137.4), table tennis (5.00, 384, 306.1), golf (4.72, 258, 196.4), baseball (4.70, 199, 145.2), basketball (4.02, 442, 374.8), cricket (2.88, 54, 36.8), fencing (2.32, 57, 42.2), racquetball (3.67, 94, 65.1), squash (2.32, 82, 63.9), tennis (2.94, 466, 415.1), soccer (2.10, 382, 347.6), wrestling (2.03, 60, 46.4)

movie

science fiction (7.42, 533, 405.5), war (6.98, 395, 288.6), action (4.03, 771, 693.5), spy film (3.59, 450, 389.2), erotic & softcore (3.26, 148, 114.5), adventure (2.69, 684, 632.6), anime (2.88, 202, 166.9), sports (2.98, 262, 221.1), western (3.02, 121, 92.8)

music

heavy metal (4.55, 191, 139.8)

other

computer gaming (7.02, 296, 203.0), weightlifting (5.55, 326, 246.4), billiards (4.57, 432, 356.7), ultimate frisbee (4.53, 246, 188.0), mountain biking (4.51, 175, 126.5), paintballing (4.35, 241, 185.6), laser gaming (2.30, 146, 121.7), bicycling (2.15, 257, 227.1)

social

barbecuing (3.04, 462, 409.7), raving (2.45, 183, 154.2), hot tubbing (2.06, 444, 408.5)

watersport

fishing (2.23, 183, 156.7), sailing (2.03, 205, 179.5)

personality

trait (Z score, observed, expected)

free time

learning (4.21, 314, 253.1), doing physical challenging activities (4.07, 414, 347.6)

friendship

mutual friends (3.51, 217, 173.5), common interests (3.33, 875, 811.0), appearance/look (3.05, 92, 67.5), sex (2.65, 72, 53.0)

romance

appearance/look (5.09, 293, 222.9), sex (3.41, 239, 194.6), physical attraction

(2.93, 686, 630.2) support

eternal optimists (3.88, 325, 267.5), give-it-to-you-straight people (3.08, 872, 812.8), I've-been-down-and-dirty-a-few-times-myself people (2.12, 414, 378.4)

you

intelligent (2.99, 523, 469.4)

Table B2: Preferences of female users.

preference/activity

item (Z score, number observed, number expected)

book

romance (8.28, 139, 71.5), fiction & literature (5.55, 557, 470.2), health mind & body (4.86, 123, 81.1), cooking (4.35, 122, 83.9), art & photography (4.26, 218, 167.7), entertainment (3.05, 205, 168.9), mystery & thriller (2.99, 209, 173.3), psychology (2.52, 145, 119.2), classics (2.17, 290, 260.0)

landsport

gymnastics (4.31, 53, 29.8), field hockey (4.08, 35, 17.9), softball (2.70, 84, 63.2)

movie

romance (11.48, 420, 261.1), family (5.61, 135, 85.5), drama (5.16, 524, 443.6), musical (5.09, 230, 169.7), performing arts (3.54, 125, 92.6), comedy (2.38, 637, 600.6), independent (2.12, 325, 294.5)

music

soul/R&B (5.39, 331, 256.8), pop (4.49, 442, 373.6), country/western (4.08, 121, 85.1), rap/hip-hop (3.06, 410, 363.7), folk (2.34, 118, 96.2), latin (2.46, 201, 171.7)

other

aerobics (9.69, 160, 77.9), ice skating (4.93, 172, 121.2), jogging (3.92, 262, 211.5)

social

hip-hop dancing (6.62, 294, 209.1), latin dancing (3.94, 165, 124.0), clubbing (3.44, 380, 329.1)

watersport

swimming (2.79, 363, 322.0) trait (Z score, observed, expected)

personality free time

catching up on chores and things (3.80, 244, 196.4), socializing (3.75, 715, 659.8)

friendship

laughter (6.66, 791, 696.4), honesty/trust (3.95, 736, 678.9), communication (2.24, 514, 479.0)

romance

laughter (7.18, 579, 466.7), honesty/trust (2.92, 685, 641.5)

support

unconditional accepters (5.99, 355, 271.1), listeners (3.43, 596, 542.6), chicken-soup people (2.95, 156, 125.2)

you

fun (4.05, 307, 251.6), lovable (2.56, 142, 116.1), friendly (2.53, 446, 407.0)

Appendix C: Individual preferences and association ratios

Table C1: Book genres and association ratios.

genre

association ratio

Z score

number of users

number of connections

number expected

gay & lesbian

4.37

15.35

63

88

20

professional & technical

1.75

6.61

138

128

73

computers

1.65

8.52

188

256

154

teen

1.64

3.04

74

36

22

sex

1.41

6.82

230

340

240

sports

1.39

5.91

239

288

207

business

1.37

4.20

160

162

118

romance

1.32

3.63

180

158

120

religion & spirituality

1.31

5.63

258

376

286

politics

1.31

7.80

355

700

535

art & photography

1.29

9.29

422

1,056

819

sociology

1.28

3.24

165

156

121

fantasy

1.26

9.80

491

1,356

1,075

entertainment

1.26

8.46

425

1,064

845

health, mind & body 1.23

3.11

204

202

164

psychology

1.21

4.69

300

496

408

science

1.21

4.91

351

572

474

cooking

1.20

3.03

211

236

195

science fiction

1.20

8.54

562

1,610

1,343

biography

1.19

4.89

337

630

527

travel

1.17

3.71

306

450

382

nonfiction

1.16

4.79

419

868

750

philosophy

1.15

4.56

433

882

769

mystery & thriller

1.14

4.63

436

968

848

adventure

1.14

5.18

499

1,198

1,051

horror

1.13

1.32

144

102

89

classics

1.13

6.88

654

2,096

1,851

history

1.10

3.62

483

1,068

969

fiction & literature

1.09

11.17

1,183

6,568

6,004

outdoor & nature

0.88

-1.13

140

68

77

Table C2: Movie genres and association ratios.

genre gay & lesbian

association ratio

Z score

number of users

number of connections

number expected

5.65

24.75

76

154

27

performing arts 1.76

13.22

233

472

268

religion

1.46

2.89

92

54

36

erotic & softcore

1.44

5.57

190

208

144

sports

1.38

9.95

367

760

548

anime

1.37

6.82

277

408

298

musical

1.36

11.66

427

1,154

851

western

1.32

3.33

154

136

103

family

1.26

3.85

215

252

200

fantasy

1.25

8.40

440

1,078

859

art

1.25

7.48

399

898

718

crime

1.24

7.58

421

952

765

independent

1.24

14.70

741

3,056

2,471

biography

1.18

3.12

245

304

257

war

1.17

6.12

479

1,132

965

thriller

1.16

9.82

744

2,850

2,461

romance

1.15

7.49

657

1,984

1,727

history

1.15

4.21

398

754

657

science fiction

1.14

7.52

673

2,192

1,921

horror

1.12

3.08

338

576

512

adventure

1.11

11.20

1,050

5,372

4,828

spy film

1.11

5.62

646

1,974

1,777

action

1.11

12.39

1,151

6,250

5,633

drama

1.10

11.39

1,116

5,996

5,429

mystery

1.08

3.63

589

1,554

1,437

documentary

1.06

2.20

496

1,060

999

comedy

1.05

9.34

1,511

10,002

9,533

Table C3: Music genres and association ratios.

genre

association ratio

Z score

number of users

number of connections

number expected

gospel

2.06

6.76

105

80

38

jungle

1.78

8.67

152

202

113

bluegrass/rural

1.48

5.70

180

188

126

heavy metal

1.48

7.83

232

354

239

trance

1.44

13.92

406

1,158

804

funk

1.42

8.14

274

454

318

latin

1.42

13.71

432

1,212

855

house

1.40

10.08

338

758

543

folk

1.38

6.27

242

332

240

trip-hop

1.33

5.18

225

298

224

soul/R&B

1.31

16.43

646

2,498

1,904

techno

1.30

14.56

588

2,152

1,652

rap/hip-hop

1.30

24.99

915

5,004

3,850

new age

1.30

3.28

157

146

112

easy listening

1.29

5.05

258

344

266

reggae

1.25

6.26

344

640

510

blues

1.23

5.93

348

664

538

country/western 1.23

3.16

214

212

172

disco

1.22

3.15

206

234

192

jazz

1.19

9.70

636

2,124

1,783

world music

1.18

5.01

384

724

612

pop

1.18

15.50

940

4,668

3,951

classical

1.12

6.87

716

2,372

2,116

rock

1.10

15.54

1,363

8,670

7,871

Table C4: Land sports and association ratios.

sport

association ratio

Z score

number of users

number of connections

number expected

touch rugby

33.08

N/A

4

2

0

lacrosse

3.12

7.09

54

34

10

field hockey

2.64

5.00

45

24

9

wrestling

2.29

6.73

77

60

26

cricket

2.24

4.44

61

28

12

fencing

2.14

4.77

70

36

16

16.59

228

494

247

frisbee golfing 1.99

squash

1.79

5.21

106

74

41

track & field

1.72

12.93

251

482

279

gymnastics

1.66

3.55

75

46

27

softball

1.64

6.87

159

176

107

baseball

1.59

9.98

241

400

251

badminton

1.56

8.76

221

336

214

football

1.56

15.50

381

970

621

golf

1.33

7.43

326

582

439

volleyball

1.22

6.18

388

764

624

beach volleyball

1.20

5.71

395

804

670

basketball

1.15

6.95

622

1,758

1,530

table tennis

1.14

5.29

508

1,232

1,081

soccer

1.13

5.53

577

1,506

1,334

tennis

1.05

2.52

689

1,924

1,835

racquetball

0.80

-1.34

108

34

42

Table C5: Water sports and association ratios.

sport

association ratio

Z score

number of users

number of connections

number expected

synchronized swimming

3.25

5.91

45

22

6

diving

2.42

4.72

59

26

10

crew

2.24

6.97

90

68

30

wake boarding

1.64

6.01

137

136

83

jet skiing

1.38

7.28

280

442

320

surfing

1.33

4.16

193

190

142

scuba diving

1.33

5.93

257

376

282

water skiing

1.29

5.10

261

354

274

canoeing

1.24

5.36

309

538

434

water polo

1.18

0.97

80

32

27

sailing

1.13

2.72

298

406

358

kayaking

1.13

2.93

309

472

416

boating

1.10

2.11

309

418

380

swimming

1.08

5.30

810

2,968

2,751

fishing

1.08

1.36

260

294

273

windsurfing

0.87

-1.12

135

56

64

Table C6: Other sports and association ratios.

sport

association ratio

Z score

number of users

number of connections

number expected

freestyle biking 2.11

3.46

48

20

9

skateboarding

1.60

4.15

96

74

46

freestyle frisbee 1.58

4.06

96

74

46

ultimate frisbee 1.46

10.66

312

662

453

ski diving

1.45

5.18

165

174

119

miniature golfing

1.41

14.01

426

1,296

918

computer gaming

1.40

9.78

337

702

501

laser gaming

1.31

4.59

202

264

202

mountain biking 1.30

4.13

210

220

169

bowling

1.28

13.45

585

2,060

1,604

rock climbing

1.28

6.22

302

554

434

road biking

1.27

2.15

124

76

59

couch potatoing 1.26

14.64

674

2,770

2,206

paintballing

1.25

5.55

308

538

431

rollerblading

1.24

3.89

228

280

224

billiards

1.23

10.79

592

1,908

1,549

triathlon

1.23

0.78

54

14

11

snowboarding

1.22

5.34

346

594

486

bungee jumping 1.19

1.54

120

76

64

ice skating

1.19

4.06

305

476

400

weightlifting

1.16

4.49

409

758

655

backpacking

1.16

5.40

477

1,062

918

aerobics

1.12

1.62

196

172

152

jogging

1.10

3.83

532

1,284

1,171

hiking

1.08

4.30

690

2,094

1,939

snow skiing

1.08

2.91

517

1,196

1,112

martial arts

1.05

0.65

211

182

173

bicycling

1.04

0.97

377

564

543

Table C7: Social activities and association ratios.

activity

association ratio

Z score

number of users

number of connections

number expected

raving

1.64

12.00

256

502

305

ballroom dancing

1.61

13.91

329

704

437

latin dancing

1.49

10.80

312

620

416

bar hopping

1.34

17.24

648

2,312

1,720

folk dancing

1.34

1.51

74

26

19

hip-hop dancing

1.33

13.62

526

1,652

1,238

hot tubbing

1.32

17.74

678

2,790

2,121

clubbing

1.24

17.27

828

3,814

3,074

barbecuing

1.20

10.93

680

2,364

1,967

partying

1.18

22.31

1,179

7,372

6,224

camping

1.11

6.83

745

2,618

2,353

Appendix D: Personalities and association ratios

Table D1: How users describe themselves and what kind of people seek out others like them.

personality

association ratio

Z score

number of users

number of connections

number expected

sexy

1.46

5.47

204

192

131

talented

1.40

5.17

213

210

149

fun

1.25

11.22

633

1,852

1,479

weird

1.25

4.32

286

332

265

lovable

1.22

4.20

292

406

333

unique

1.11

4.15

547

1,194

1,074

funny

1.10

4.06

619

1,474

1,345

friendly

1.10

7.55

1,024

4,024

3,674

socially adaptable

1.09

2.12

342

482

440

attractive

1.07

1.76

406

522

486

creative

1.04

1.48

541

982

941

intelligent

1.01

0.42

779

1,848

1,833

responsible

0.99

-0.28

500

686

692

kind

0.99

-0.44

625

1,226

1,239

competent

0.92

-1.40

294

226

246

successful

0.70

-1.57

99

18

25

Table D2: How users spend their free time and whether those who spend their free time in the same way are more likely to be friends.

free time activity

association ratio

Z score

fulfilling commitments

1.34

9.30

socializing

1.12

catching up on chores and things

number of users

number expected

826

614

21.12 1,660

11,374

10,156

1.09

2.71

494

850

782

learning

1.07

1.82

420

536

498

doing anything exciting

1.07

8.05

1,280

6,278

5,850

watching TV

1.07

1.85

415

602

561

reading

1.02

0.66

631

1,186

1,166

getting outside

1.01

0.97

940

2,882

2,841

staying at home

0.97

-0.32

209

126

129

alone

0.96

-0.93

380

398

415

doing physical challenging activities

0.96

-1.46

577

878

916

Editorial history Paper received 1 April 2003; accepted 16 May 2003.

398

number of connections

Lihat lebih banyak...

Comentários

Copyright © 2017 DADOSPDF Inc.