Big Data não é uma tecnologia

July 15, 2017 | Autor: Marcos Cavalcanti | Categoria: Digital Economy, Strategic Big Data
Share Embed


Descrição do Produto



Podemos considerar o ecossistema global ou o código genético humano como exemplos de redes complexas naturais.

BIG DATA não é uma tecnologia
Imagine a quantidade de dados que você utiliza para decidir se pode atravessar uma rua com segurança: dados já armazenados de experiências anteriores e dados que você recolhe naquele momento, como a velocidade do carro, a distância que ele está de você e a distância para o outro lado da rua.

Captamos dados do mundo através dos nossos sensores chamados de sentidos. Acumulamos, relacionamos com outros dados, formulamos hipóteses, testamos a sua eficácia no controle de certos eventos e começamos tudo de novo em novas bases. Quanto maior a quantidade e variedade dos dados que analisamos e quanto maior a sua confiabilidade, maiores as nossas chances de sucesso.

E o que isto tudo tem a ver com o fenômeno que está sendo chamado de BIG DATA? Tudo... Ao contrário do que muita gente pensa, Big Data não é uma "nova tecnologia". Mais do que uma enorme quantidade de dados e a capacidade de processá-los em tempo real, o que caracteriza o Big Data é a enorme variedade de dados com que podemos trabalhar e a dinâmica destes dados que podemos analizar.

Além dos dados transacionais armazenados em bancos de dados de grande empresas (bancos, cartões de crédito, lojas de departamentos e supermercados), temos acesso hoje a dados das redes sociais (com quem nos comunicamos e com que frequência), posicionamento geográfico, imagens, fotos, filmes, opiniões e comentários... Além disso, a chamada internet das coisas e a proliferação de sensores (nos equipamentos, animais, objetos e seres humanos) vai ampliar ainda mais a variedade e quantidade de dados e informações à nossa disposição, criando uma verdadeira pele em volta do planeta. A grande quantidade de dados certamente é uma condição necessária para a revolução Big Data, mas não é suficiente. É preciso que eles sejam diversificados, confiáveis, e que sejamos capazes de entender o seu fluxo, a dua dinâmica.

Para entender o fenômeno do Big Data, três forças precisaram convergir: a digitalização das informações (em escala global) e o desenvolvimento da Ciência das Redes e do Pensamento Complexo.

Digitalização

Falamos da diversidade, confiabilidade e da dinâmica dos dados. No que diz respeito à variedade (ou diversidade), não há muita divergência. Hoje é difícil imaginar uma atividade que não seja feita através, ou com o auxílio, da internet. Que não esteja digitalizada. Isso gera uma diversidade sem precedentes em um único banco de dados digital.

A pressuposição da veracidade também tem fundamentos sólidos. Mais da metade dos dados digitais tem origem em rastros de navegação (pegadas que deixamos cada vez que acionamos o mouse) e sensores de todo tipo (como o GPS). Ou seja, a maior parte dos dados digitais é fornecida de modo involuntário, livre de erros de registro, interpretação e de ruídos na comunicação. Outra grande parte é fornecida de modo voluntário em transações comerciais e financeiras, consulta em sites de busca e troca de mensagens, gerando dados igualmente confiáveis.

E a dinâmica dos dados? Para falar da dela vamos precisar entender um pouco da ciência das redes e do pensamento complexo.

Ciência das redes e pensamento complexo

Nos últimos 4 séculos, centenas de milhares de homens e mulheres usaram o método científico para construir um corpo de conhecimento único que transformou a humanidade. Olhando para fora de nós fomos capazes de entender melhor como funciona o universo, descobrimos novas partículas e novas galáxias; olhando para dentro, descobrimos soluções para doenças e sequenciamos o genoma humano. O avanço do conhecimento foi resolvendo alguns problemas e trazendo novos desafios, novas zonas de sombra e ignorância. Se em algum momento achávamos que íamos descobrir a explicação definitiva do universo, a vida rapidamente se encarregava de nos colocar novos problemas, bem mais complexos.

Sempre foi assim e, provavelmente, continuará a sê-lo. Se nosso conhecimento estivesse contido num balão de gás e o que não conhecemos estivesse do lado de fora, quanto maior fosse o conhecimento (o balão), maior seria a superfície do balão em contato com o desconhecido. Este é o paradoxo do conhecimento: quanto mais conhecemos, mais aumenta a consciência de nossa ignorância. Parafraseando Sócrates, "Quanto mais eu sei, mais me dou conta que nada sei"...

A complexidade dos problemas atuais tem colocado desafios que o método acadêmico tradicional não vem conseguindo resolver. A descoberta de novas estrelas e galáxias se beneficiou do trabalho voluntário de centenas de cosmologistas amadores. O sequenciamento do genoma humano não foi obra de um grupo ou laboratório de pesquisa, mas de milhares de pesquisadores de todo o mundo, que de forma colaborativa, em rede, desenvolveram e compartilharam seus conhecimentos e descobertas. Na mesma época foi criada uma empresa privada, a Celera Genomics, que pretendia patentear a descoberta e cobrar royalties. Seu modelo de produção de conhecimento era o modelo "científico" tradicional: hierárquico, cartesiano.

O resultado deste confronto de modelos de resolução de problemas talvez tenha sido a primeira grande comprovação de que a REDE pode ser a maneira mais eficiente e eficaz de se resolver problemas complexos. A rede de pesquisadores sequenciou o genoma humano ANTES da Celera e disponibilizou públicamente este conhecimento. Da mesma forma que a Wikipedia, que possui um modelo de produção do conhecimento em rede, superou a Enciclopédia Britânica, que tinha um modelo de produção do conhecimento baseado em notáveis especialistas...

Claro que ainda vamos resolver muitos problemas usando a metodologia e o modelo científico tradicional. Este modelo funciona em vários casos e situações, mas para tratarmos dos problemas complexos do mundo real, aqueles enfrentados pelas comunidades, organizações, cidades e nações, precisamos de um novo modelo. A solução destes problemas deve certamente envolver os cientistas de várias áreas (sociais, biológicas, matemáticas, ...), a sociedade civil, a indústria, o governo E as pessoas diretamente afetadas pelos desafios em questão.

A busca de soluções criativas deve ter como pressupostos básicos a cooperação e interdisciplinaridade. Esta abordagem em rede para a resolução de problemas, que reúne as melhores ideias de diferentes disciplinas, aproximando-se de um problema a partir de diferentes perspectivas é uma evolução da metodologia científica. Ela parte de uma premissa básica: em problemas complexos não existe uma resposta única e definitiva.

Diversos autores (Edgar Morin, Fritjof Capra, Adam Kahane, dentre outros) desenvolveram esta visão mais complexa (sistêmica, holística) da realidade e a tentativa de resolver problemas complexos através das Redes já fez surgir a Ciência da Redes, cuja maior referência é Lazlo Barabasi.

Ele foi o primeiro a comprovar que a internet é a única rede artificial que se comporta como uma rede natural e por isso possui propriedades de um sistema vivo.

Os teóricos do assunto escolheram a palavra "velocidade" para denominar essa dimensão, talvez porque comece com "V" e combine com as demais normalmente atribuidas ao Big Data (volume, veracidade e variedade), mas a escolha é inadequada. Velocidade está mais associada à rapidez e não é disso que estamos falando. A palavra técnica adequada é "stream", que significa fluxo. Utilizaremos aqui a palavra "dinâmica", a terminologia das Ciências das Redes.

A novíssima Ciência das Redes, que surgiu há pouco mais de 10 anos para estudar redes complexas, afirma que a dinâmica dos dados da internet (um característica essencial do Big Data) permite a compreensão do funcionamento das redes naturais.

Agora você pode estar se perguntando: E por que usar os dados da internet e não os dados dos próprios sistemas a serem compreendidos (como o ecossistema global)? Porque por ser digital, diferente dos sistemas naturais, o Big Data pode ser analisado precisamente nas relações que suas partes (dados) estabelecem entre si (links). Ou seja, o Big Data pode ser analisado de modo sistêmico e dinâmico.

Em suma, a Ciência das Redes afirma que a dimensão dinâmica da internet, aliada às características de volume, variedade e veracidade dos dados, permitirá a criação de modelos preditivos e modelos prescritivos para a solução de problemas complexos como aquecimento global, epidemias, ataques terroristas, crises financeiras globais, desastres naturais etc.

Coisas que a era Big Data não inventou

Falamos de modelos preditivos e prescritivos, mas estes modelos não surgiram agora, na era Big Data.

Em 1985, foi publicado nos Cadernos de Saúde Pública (Fundação Oswaldo Cruz, RJ) um artigo sobre a turbeculose no Brasil. O trabalho relacionava a condição social e econômica de uma população com a incidência de casos e mortes pela doença.

O resultado da pesquisa não interessa aqui. Aliás, a informação do parágrafo acima que mais interessa aqui é que a pesquisa foi feita em 1985, antes da popularização da internet, porque só vamos utilizá-la para ilustrar algumas observações muito simples e óbvias que podem nos ajudar a organizar nossas ideias a respeito de Big Data.

Usando a pesquisa citada como exemplo vejamos o que a era Big Data NÃO inventou:

Utilização de dados pessoais: A pesquisa sobre tuberculose informou a incidência de mais de 650 mil casos entre 1973 e 1983. Todos os dados foram retirados de relatórios de notificação da doença feitos pelos hospitais.
Ameaça à privacidade: Dados pessoais foram utilizados sem que nenhuma informação que identificasse os pacientes fosse divulgada, embora os hospitais tivessem todas elas registradas.
Correlação de dados: Os pesquisadores procuraram relacionar turbeculose com dados socioeconômicos na tentativa de identificar condições para a incidência da doença.
Utilização de dados públicos: Os dados sociais e econômicos foram retirados de pesquisas demográficas oficiais e qualquer um pode usar.
Modelos preditivos: A pesquisa também utiliza dados de uma ferramenta chamada "inquérito de prevalência" que calcula a probabilidade de um indivíduo contrair determinada doença. A partir daí foi construído um modelo preditivo para a população por região.
Utilização de modelos preditivos: a Fundação Oswaldo Cruz tem o objetivo de promover a saúde e o desenvolvimento social, portanto os modelos preditivos gerados fundamentam elaboração de planos de ação para reverter a previsão feita.
Importância da dinâmica nos estudos complexos: a pesquisa reconhece a impossibilidade de atribuir apenas uma causa à transmissão e distribuição da doença e busca correlação com dados dinâmicos (sociais).

O que muda com Big Data então?

A primeira resposta que vem para essa pergunta está no próprio nome Big Data. A pesquisa da Fundação Oswaldo Cruz destaca que a amostra utilizada (toda informação que existia) não é representativa da população e o curto período de tempo que ela cobre dificulta um calculo de tendência. Esses dois problemas são resolvidos quando os dados utilizados são resultado de uma ampla e longa utilização de processos digitais (o universo de dados passa a ter escala web).

Também podemos afirmar que a correlação proposta pelos pesquisadores entre tuberculose e condição socioeconômica foi um insight possível dada a existência de dados dos dois sistemas. Correlações inusitadas podem surgir quando o banco de dados utilizado inclui dados de natureza bastante diversificada como Big Data.

Ainda em relação à correlação de dados, se em pesquisas amostrais o objetivo é explicar um fenômeno, na era Big Data a ideia principal é apontar tendências. Em muitas situações saber que uma coisa acontece, mesmo sem saber o porquê, é suficiente para tomar uma decisão.

Dados sociais coletados periodicamente através de pesquisas qualitativas levam a mais duas limitações de utilização: por serem periódicos, ficam estáticos no período entre as coletas que, quando acontece, revela uma dinâmica de degraus, incompatível com um sistema real; e pesquisas qualitativas apresentam um viés considerável que pode comprometer a veracidade dos dados. Dados sociais digitais podem ser analisados dinamicamente e têm maior potencial de veracidade porque são coletados a partir de utilização da rede por seus usuários.

Portanto, no que diz respeito à privacidade e à utilização de modelos preditivos, o que diferencia e qualifica o que chamamos de Big Data, é a possibilidade de fazer com mais eficiência e eficácia o que sempre foi feito.

O que diferencia o que sempre foi feito da situação atual é a possibilidade de reunir uma grande quantidade de dados e, sobretudo, uma diversidade de dados com potencial de permitir correlação de dados absolutamente distintos à partir da compreensão da sua dinâmica. Esta digitalização em escala planetária da economia e das relações sociais levou, como vimos, não apenas à um volume sem precendentes de dados mas, sobretudo, a uma diversidade e veracidade dos dados. Este fato, aliado ao desenvolvimento do pensamento complexo e à maior compreensão da dinâmica dos dados (trazida pela ciência das redes e pela maior capacidade de analítica) abre uma nova era na pesquisa científica.
É uma mudança de paradigma científico (big data é baseado na ciência das redes), econômico (economia digital) e social (a visão filosófica que sustenta o big data é o chamado pensamento complexo).
Muita gente fala do Big Data como um novo modismo, como uma nova tecnologia. Para entender este novo mundo precisamos de novos óculos, de uma nova metodologia, de novos modelos de negócios e de novos profissionais capazes de criar valor a partir da analítica destes dados e informações. Mas sem um teoria científica por trás, o Big Data corre o risco de se transformar em mais um modismo, em uma nova tecnologia.
Para nós, ele é mais do que isto. Esta rede de seres humanos e sensores que estamos construindo em todo o planeta é uma rede complexa que está revolucionando o mundo dos negócios, a ciência e a forma dos seres humanos se relacionarem. Para além do desenvolvimento tecnológico que certamente contribui para que isto se torne realidade, existe uma ciência que dá embasamento teórico a estas transformações: a ciência das redes. E uma nova forma de ver o mundo e de refletir sobre ele: o pensamento complexo.


Referências Bibliográficas

Adam Kahane
Edgar Morin
Fritjjof Capra
Lazlo Barabasi





Lihat lebih banyak...

Comentários

Copyright © 2017 DADOSPDF Inc.