Máquinas que veem: visão computacional e agenciamentos do visível

June 1, 2017 | Autor: Andre Mintz | Categoria: Computer Vision, New Media Art, Visuality
Share Embed


Descrição do Produto

org

gabriel menotti . marcus bastos . patrícia moran

cinema apesar da imagem

Dados Internacionais de Catalogação na Publicação – CIP M547

Menotti, Gabriel, Org.; Bastos, Marcus, Org.; Moran, Patrícia, Org. Cinema apesar da imagem / Organização de Gabriel Menotti, Marcus Bastos e Patrícia Moran. – São Paulo: Intermeios, 2016. 250 p. Conferência Besides the screen (Telas à parte), Brasil, 2014. ISBN 978-85-8499-042-9



1. Cinema. 2. Comunicação. 3. Semiótica. 4. Artes. 5. Criação Artística. 6. Processo de Criação. 7. Produção Cinematográfica. 8. Produção Audiovisual. 9. Distribuição Cinematográfica. 10. Performance. I. Título. II. Imagens/Ontologias. III. Filme/Difusões. IV. Visão/Bricolagens. V. Materialidade/Performances. VI. Menotti, Gabriel, Organizador. VII. Bastos, Marcus, Organizador. VIII. Moran, Patrícia, Organizadora. IX. Intermeios – Casa de Artes e Livros. CDU 791

CDD 791.43

Cinema apesar da imagem GABRIEL MENOTTI | MARCUS BASTOS | PATRÍCIA MORAN DISTRIBUIÇÃO EM (CC) BY-SA 2.5 BR 1ª EDIÇÃO: MARÇO DE 2016 • Editoração eletrônica, produção INTERMEIOS CASA DE ARTES E LIVROS Revisão JOSÉ IRMO GONRING Capa MARCUS BASTOS • CONSELHO EDITORIAL VINCENT M. COLAPIETRO (PENN STATE UNIVERSITY) DANIEL FERRER (ITEM/CNRS) LUCRÉCIA D’ALESSIO FERRARA (PUCSP) JERUSA PIRES FERREIRA (PUCSP) AMÁLIO PINHEIRO (PUCSP) JOSETTE MONZANI (UFSCAR) ROSEMEIRE APARECIDA SCOPINHO (UFSCAR) ILANA WAINER (USP) WALTER FAGUNDES MORALES (UESC/NEPAB) IZABEL RAMOS DE ABREU KISIL JACQUELINE RAMOS (UFS) CELSO CRUZ (UFS) – IN MEMORIAM ALESSANDRA PAOLA CARAMORI (UFBA) CLAUDIA DORNBUSCH (USP) JOSÉ CARLOS VILARDAGA (UNIFESP) • Editora Intermeios Rua Valdir Niemeyer, 75 – Sumarezinho CEP 01257-080 – São Paulo – SP – Brasil Fone: 2338-8851 – www.intermeioscultural.com.br

sumário

7

Introdução GABRIEL MENOTTI, MARCUS BASTOS, PATRÍCIA MORAN

parte 1 imagem/ontologias 19 33 55

Verdade, realismo SEAN CUBITT Irreprodutível: cinema como evento ERIKA BALSOM Máquinas do tempo BRUNO VIANNA

parte 2 filme/difusões 63 79 105 117

Intermediários escorregadios: expandindo conceitos sobre a distribuição cinematográfica VIRGINIA CRISP Formalidades da circulação informal de cinema e os grupos de torrent cinéfilos ANGELA MEILI Entre a formalidade e a informalidade: pirataria e distribuição cinematográfica no México STEFANIA HARITOU Cine Fantasma: o cinema morreu? Viva o cinema! PAOLA BARRETO LEBLANC

parte 3 visão / bricolagens 143

Vídeo aberto em 360 graus LARISA BLAZIC ETS – Experimentos Técno-Sinestésicos CARLOS AUGUSTO M. DA NÓBREGA,

157

Máquinas que veem: visão computacional e agenciamentos do visível

135

MARIA LUIZA P. G. FRAGOSO, BARBARA PIRES E CASTRO E FILIPI DIAS OLIVEIRA ANDRÉ MINTZ

parte 4 materialidade/performances 179 201 213 221

Entre sensores e sentidos: sobre a materialidade da comunicação na artemídia GRAZIELE LAUTENSCHLAEGER Mulheres continentais MONICA TOLEDO Cartografia performativa? STEPHEN CONNOLY Jogos de distância e proximidade: micro-performances via Skype PATRÍCIA AZEVEDO E CLARE CHARNLEY

231

Sobre os autores

máquinas que veem: visão computacional e agenciamentos do visível andré mintz

Viemos nos acostumando, nos últimos anos, com máquinas capazes de ver. Em estágio já bem adiantado em relação aos leitores de códigos de barras – que talvez tenham representado sua primeira manifestação cotidiana, ainda rudimentar –, já não se fazem estritamente necessárias imagens ou grafismos feitos exclusivamente para as máquinas: estas já aprendem, e cada vez mais, a lidar com as mesmas imagens que nós. Em um exemplo corriqueiro, algumas câmeras fotográficas mostram-se capazes de reconhecer rostos, detectar sorrisos e «piscadas» (indicando a necessidade de uma nova tomada). Algoritmos de reconhecimento de rostos identificam as pessoas retratadas em uma foto postada no Facebook, sugerindo quem devemos marcar naquela publicação. Interfaces de controle de videogames como o Microsoft Kinect, por sua vez, incorporam a pose e o gesto do jogador à interação a partir de uma imagem de vídeo. Temos, também, cada vez mais notícias da aplicação de algoritmos de visão computacional no contexto da vigilância, como as denúncias realizadas em 2014 por Edward Snowden, que dão conta da utilização de programas de reconhecimento de rostos pelos serviços de inteligência dos EUA em inúmeras imagens coletadas diariamente em comunicações interceptadas na web (RISEN e POITRAS, 2014). “Imagem é tudo”, diz o título de uma das apresentações da Agência de Segurança Nacional que foram vazadas. Presenciamos, diante desses exemplos, a ascensão definitiva de máquinas que, por certa capacidade de ver, parecem recolocar questões sobre o lugar da imagem e do visível na contemporaneidade. Nomeia-se Visão Computacional a disciplina das Ciências da Computação dedicada ao desenvolvimento de tais algoritmos de interpretação automatizada de imagens. Em uma perspectiva histórica, Lev Manovich (1993) indica como

158

cinema apesar da imagem

marco da emergência do campo a tese de doutorado de Lawrence G. Roberts, defendida no Massachussetts Institute of Technology na década de 1960. Trata-se de um dos primeiros esforços dedicados ao campo então denominado “machine perception” (“percepção maquínica1”). Como Roberts (1963) descreve em relatório derivado da tese, seu objetivo, então, era ultrapassar o limiar do reconhecimento de formas bidimensionais (como caracteres e códigos de barras) e enfrentar, efetivamente, o problema do reconhecimento de formas tridimensionais em imagens planas, encaminhando para o objetivo geral do “reconhecimento de dados pictóricos”. Diante deste desafio, ele desenvolve processos para o reconhecimento em fotografias de arestas de formas geométricas tridimensionais, com posterior processamento por métodos de computação gráfica para gerar outros pontos de vista da mesma cena. Ao situar o desenvolvimento da visão computacional em sua narrativa sobre a “engenharia da visão”, Manovich (1993) enfatiza sua relação a uma série de outras técnicas que aperfeiçoariam o uso da imagem enquanto uma instância não apenas de representação, mas de controle sobre o espaço. Denominando nominalismo visual a compreensão da imagem presumida por tais técnicas, o autor (MANOVICH, 1993, p. 100) reúne, junto à visão computacional, tecnologias como o radar, as imagens de infravermelho e a ressonância magnética, destacando como em todas elas subentende-se uma via em mão dupla a conectar a imagem a seu referente, uma vez que a eficiência instrumental de sua aplicação depende da possibilidade de reconstituirmos computacionalmente o espaço e os objetos representados com precisão. O autor sugere, a partir de William Ivins (1975) e Bruno Latour (1986), que a perspectiva geométrica seria um dos mais importantes antecedentes de tais tecnologias ao elaborar uma representação instrumentalizada e sistemática do espaço, desenvolvendo um método algorítmico para a passagem calculada do espaço tridimensional à imagem, em um processo linear e, em certa medida, reversível (MANOVICH, 1993, p. 111-116). A visão computacional, no desenvolvimento inicial de Roberts, visa a fazer justamente este caminho inverso, partindo da representação bidimensional para acessar aspectos da coisa representada, aprofundando a compreensão da imagem como possibilidade de domínio e de ação sobre o espaço. 1.

Utilizamos o adjetivo “maquínica”, aqui, como substituto da locução adjetiva “da máquina”, pela qual poderíamos incorrer em uma ambiguidade pela qual também seria possível ler como “a percepção da máquina por alguém”. Não se deve confundir este uso, contudo, com o sentido de maquínico de Deleuze e Guattari, que não se prestaria a uma contraposição humano/máquina, mas a seus agenciamentos coletivos (Cf. GUATTARI, 2003).

gabriel menotti . marcus bastos . patrícia moran

159

Tomando o trabalho de Roberts como ponto de partida, Manovich sugere que a reconstituição computacional do espaço e de objetos tridimensionais a partir de fotografias seria o traço definidor da visão computacional. Contudo, se observamos as diversas aplicações identificadas como pertencentes a este domínio, percebemos como ele não se restringe a tal operação, mas inclui também outras, particularmente estratégicas na contemporaneidade, como o reconhecimento de padrões e a classificação de imagens. Forsyth e Ponce (2012), autores de um livro técnico dedicado à visão computacional, sugerem um percurso de vai de uma visão de “baixo nível” a uma visão de “alto nível”, realizando tarefas progressivamente mais abstratas à medida que se afastam de problemas básicos, como a detecção de contornos, e alcançam a classificação de imagens ou o reconhecimento de objetos tridimensionais. Em uma definição mais abrangente que aquela oferecida por Manovich, Golan Levin (2006a, p. 462) define a visão computacional como uma ampla classe de algoritmos que permite ao computador fazer “asserções inteligentes” sobre imagens digitais. Segundo sugere, o objetivo da visão computacional – de modo mais amplo que aquele definido por Manovich – seria o de superar a opacidade informacional da imagem: Diferentemente de textos, os dados de vídeo digital, em sua forma básica, não contêm nenhuma informação intrínseca semântica ou simbólica. Como resultado, um computador, sem programação adicional, não é capaz de responder mesmo às mais elementares questões sobre se um clipe de vídeo contém uma pessoa ou objeto, ou se uma cena exterior de vídeo retrata o dia ou a noite, etc. A disciplina da visão computacional foi desenvolvida para responder a esta necessidade (LEVIN, 2006, p. 468, tradução do autor).

Deste modo, em um nível mais elementar, trata-se de um campo com grandes interseções com a área do processamento de imagens, realizando procedimentos de extração de fundo e detecção de contornos e de movimento a partir de operações aritméticas simples com os valores numéricos dos pixels. Em um nível mais elaborado, porém, a visão computacional aproxima-se dos domínios da Inteligência Artificial e das Ciências Cognitivas, interessando-se, em certa medida, pelo desenvolvimento, na máquina, de competências humanas. Não por acaso, inclusive, entre os iniciados, omite-se com frequência o adjetivo computacional ao se tratar do assunto, dizendo-se apenas visão. David Marr (1982) sugere claramente a possibilidade da passagem entre a visão humana e a da máquina através da via de uma equivalência potencial entre computação e cognição. Ele propõe, afinal, que, mais do que uma área de aplicação tecnológica,

160

cinema apesar da imagem

trata-se de um estudo da visão por um viés computacional, de modo a se compreender em maior profundidade a própria visão humana e animal. Não nos deteremos neste texto, porém, à discussão das possíveis relações e reconfigurações entre uma visão humana ou animal e uma visão da máquina – ainda que por vezes a tangenciemos. Trata-se, evidentemente, de um vetor fundamental e instigante do campo abordado, mas o reservamos para outra ocasião enquanto nos voltamos, neste momento, principalmente à descrição de alguns dos modos de agenciamento do visível pela visão computacional a partir de suas manifestações contemporâneas, diretas ou indiretas – em particular no âmbito da arte. Buscamos, portanto, compreender como o modo de funcionamento da visão computacional toma parte na configuração dos dispositivos2 de algumas obras, sem perder de vista sua relação, em cada caso, com aplicações características desta tecnologia em outros domínios, como na vigilância ou em mecanismos de busca na web. Neste esforço, sugerimos a existência de pelo menos dois modos de operação da visão computacional, relativamente distintos em seu modo de agenciamento do visível, do espaço e dos sujeitos – embora necessariamente relacionados e sobrepostos em exemplos efetivos de sua aplicação. De um lado, temos as operações que reunimos sob o par localização–acionamento, mais próximas da definição que Manovich faz do campo, as quais se caracterizam pela reconstituição computacional de um espaço concreto, com a precisa localização – e, em certos casos, acionamento – dos corpos que o habitam a partir de parâmetros relacionados ao seu posicionamento no espaço. De outro, temos as operações que reunimos sob o par reconhecimento–conexão3, que não se dirigem propriamente ao mapeamento de um espaço circunscrito pelo campo de visão da câmera, mas à possibilidade de reconhecer padrões registrados pela imagem (como rostos e objetos) e conectálos a redes semânticas de dimensões variáveis, pela qual os programas realizam diferentes percursos interpretativos do visível – conforme as conexões presentes 2.

3.

Não poderemos nos deter aqui ao desenvolvimento deste conceito que não assumirá um papel central em nosso argumento. Em todo caso, dada a dispersão de suas definições, cabe circunscrevermos a qual perspectiva fazemos menção, na qual referimo-nos principalmente ao sentido desenvolvido por Anne Marie Duguet (2012), que toma o dispositivo como conceito operatório para descrever as configurações e os modos de agenciamento espacial de algumas videoinstalações. Vale destacar, contudo, outras dependências fundamentais de nossa compreensão mais abrangente do conceito, em particular: FOUCAULT, 1979; DELEUZE, 1999; e AGAMBEN, 2009. Vale reiterar que, em ambos os casos, buscamos não uma categorização exclusiva ou exaustiva, mas apenas nomear diferentes modulações próprias ao funcionamento de programas de visão computacional.

gabriel menotti . marcus bastos . patrícia moran

161

na rede associada permitirem. Trata-se, é claro, de uma classificação sujeita aos riscos de qualquer esforço analítico, como a simplificação ou o reducionismo da abordagem, os quais esperamos ter minimizado em nosso percurso. No primeiro modo de funcionamento sugerido, encontramos aplicações mais tipicamente relacionadas ao contexto da vigilância, em que o campo de visão da câmera circunscreve um território e a imagem traduz-se em uma instância de mapeamento e rastreamento do espaço. Temos, então, uma atualização do regime da videovigilância, como descreve Fernanda Bruno (2012), em que se delega à máquina tarefas de seleção, monitoramento e análise do espaço vigiado. Neste contexto, a localização, o posicionamento ou o comportamento inadequado de corpos no espaço mapeado disparam alertas a equipes de segurança e acionam agentes humanos na tarefa de contenção. Esse seria o caso, por exemplo, da detecção de um corpo em uma zona de segurança em estações de metrô e aeroportos ou no reconhecimento de outro em movimento ziguezagueante – impreciso, suspeito – em um estacionamento (BRUNO, 2012). Em outro sentido, tais sistemas também “acionam” os corpos vigiados ao lhes prescreverem posições e comportamentos considerados adequados naquele contexto – uma compreensão particularmente adequada em alguns exemplos da artemídia. É conhecida a importância que os sistemas de circuito fechado de televisão tiveram na emergência do gênero da videoinstalação, particularmente em trabalhos das décadas de 1960 e 1970. Diversas obras do período, de artistas como Bruce Nauman, Dan Graham e Michael Snow servem, inclusive, de exemplos para a caracterização deste gênero por sua remissão aos dispositivos de vigilância (RUSH, 2006, p. 111-118; DUGUET, 2012, p. 58-61). Experimentando com o tempo ao vivo das imagens de vídeo, uma configuração característica de muitos dos trabalhos desenvolvidos era, afinal, a da exibição de imagens do próprio espaço da instalação, simultaneamente, ou quase simultaneamente, à sua captura. De forma similar à atualização que a visão computacional traz à videovigilância, observamos como sua incidência mais característica e, talvez, paradigmática no contexto da arte também vem atualizar a relação já constituída entre a videoinstalação e os dispositivos de controle e supervisão. A partir da integração da câmera a sistemas de interpretação automatizada de imagens, mais do que incorporados à obra, o espaço instalativo, o tempo da fruição e o corpo do espectador passam a ser mapeados e rastreados, tomados como parâmetros e condições para o desencadeamento de respostas da obra à interação. Operando desta maneira, Videoplace (1969), de Myron Krueger, é indicado por

162

cinema apesar da imagem

Golan Levin (2006a) como um dos primeiros trabalhos artísticos a se valer da visão computacional, tendo sido desenvolvido concomitantemente à emergência das videoinstalações em circuito fechado e baseando-se, em larga medida, em uma configuração similar. Contudo, evidentemente, uma diferença importante é a participação de algoritmos de análise computacional das imagens capturadas, que desempenham importante papel no dispositivo da instalação. Conforme descrição do próprio artista (KRUEGER, 2003, p. 384), Videoplace propõe a constituição de um ambiente responsivo no qual uma câmera capta imagens dos participantes para que seu programa extraia suas silhuetas, que servem como guias para repostas do ambiente, permitindo a interação gráfica com linhas e cores projetadas. O dispositivo desta obra, com seu espaço mapeado e respostas visuais ao espectador, que se observa como se diante de um espelho de realidade aumentada, parece ressoar em diversas outras obras posteriores, em particular na virada dos anos 2000, como Text Rain (1999), de Camille Utterback e Romy Achituv, Tensión Superficial (1998), de Rafael Lozano-Hemmer, ou Hand from above (2009), de Chris O’Shea. Atualmente, com a ampla disponibilidade de bibliotecas de programação de código aberto para aplicações de visão computacional, além da produção massiva de equipamentos especializados, como o Microsoft Kinect, talvez seja impossível mapear a totalidade dessa incidência mais direta, já que se trata de uma tecnologia de aplicação corriqueira e descomplicada, logo presente não apenas em instalações artísticas, como também em estandes publicitários e dispositivos museais. Um aspecto a se destacar nesses casos, que em certa medida os contrapõe às obras da videoarte indicadas anteriormente – ou mesmo à configuração tradicional da videovigilância –, é o modo como à imagem, que é tomada na entrada dos dispositivos constituídos, é destinado um papel secundário – quando ela não é totalmente ocultada. Constituindo um intermediário transitório entre o espaço efetivo da instalação e as respostas de seu ambiente, em muitos casos, a imagem capturada existe apenas no interior da própria câmera, inacessível ao espectador, sendo tratada, posteriormente, apenas enquanto fluxos de dados nunca restituídos a um estado visível. A imagem é tomada, nestes dispositivos, enquanto componente instrumental, que não tem um valor representacional em sua forma visual mas, principalmente, em sua aplicação enquanto instrumento de medição e mapeamento do que é enquadrado. A leitura da imagem é baseada, nos exemplos indicados, em parâmetros bastante simples, que podem ser inclusive expressos como instruções explícitas de como distinguir o que é capturado.

gabriel menotti . marcus bastos . patrícia moran

163

São operações próprias a estes contextos, por exemplo: a separação entre corpos e fundo com base na análise de movimento da imagem; o contorno dos corpos a partir da sua sobreposição a um fundo previamente estabelecido ou pela identificação de variações bruscas de cor e/ou luminância; ou quantidade e direção do movimento a partir da comparação entre frames consecutivos de uma tomada contínua4. São operações que exibem, neste nível de refinamento da visão da máquina, seu caráter fundamentalmente analítico que é também ressaltado por Fernanda Bruno (2012) em sua abordagem das chamadas “câmeras inteligentes”, aproximando-as dos experimentos de análise do movimento de Etienne-Jules Marey e dos estudos fisionômicos de Alphonse Bertillon, no século XIX. Haveria, ainda, certa herança da técnica da fotogrametria, desenvolvida no mesmo período, voltada para a recuperação de medições espaciais a partir de fotografias. Uma característica importante desse modo de operação, em todo caso, é a articulação da configuração espacial do ambiente monitorado ao modo de operação do próprio programa, no dispositivo constituído. As instalações mencionadas, por exemplo, apresentam uma configuração espacial especialmente preparada para o funcionamento dos algoritmos implementados, de modo a controlar a iluminação e a circulação de pessoas. No âmbito das operações de localização–acionamento, tal articulação mostrase fundamental, dada a clara necessidade de correlação conhecida entre o espaço mapeado e sua representação visual no registro pela câmera. Em instalações interativas que fazem uso da visão computacional nesse modo de funcionamento, o campo de visão da câmera demarca um território no espaço instalativo para o desenvolvimento das ações. Seu ponto de vista, em geral levemente superior ao dos espectadores – sendo, em alguns casos, situada a pino –, favorece essa operação de mapeamento e circunscrição do espaço. Diante desse olhar, os corpos dos espectadores, encontram-se como se rendidos: uma vez que adentram tal território, estão necessariamente disponíveis ao olhar da câmera, que, de certa maneira, lhes requisita que desempenhem determinadas ações – ou, de outro modo, lhes recompensa quando são desempenhadas. Golan Levin (2006b) explora essa questão em um bem humorado ensaio visual acerca de uma suposta “pose da artemídia” (“media art pose”), indicando como, com frequência, trabalhos interativos como os destacados (Levin inclusive cita Videoplace e Text rain entre seus exemplos) nos levam a interagir levando nossas mãos ao alto. Passando por vários possíveis significados desse gesto – do exercício de controle do maestro 4.

Golan Levin (2006a) indica algumas destas operações básicas da visão computacional.

164

cinema apesar da imagem

diante da orquestra à invocação dos poderes divinos pelo Papa – Levin inverte, ao final, o sentido geralmente atribuído às obras interativas ao sugerir que, longe de conferir ao espectador uma posição de controle, a artemídia lhe requisita uma “postura da rendição total” (LEVIN, 2006b). Em certo sentido, afinal, para além do acionamento interno, pelo qual o programa da instalação dispararia certas funções de acordo com a pose do interator, haveria um outro tipo de acionamento, incidindo sobre os próprios sujeitos à medida em que lhe é requisitado interagir, uma vez que se adentra o campo de visão da câmera. No âmbito das operações que localizamos em torno do par reconhecimento– conexão, de outro modo, a circunscrição de um espaço de monitoramento já não é tão fundamental. Ainda que o campo de visão da câmera siga como uma demarcação importante daquilo que pode ser percebido, não há necessidade de inscrição deste território demarcado no modo de funcionamento do programa. As operações de reconhecimento–conexão se situam em um nível de maior abstração, em que o campo de atuação dos programas seria mais bem descrito como a rede semântica que conecta determinado padrão percebido a outros pertencentes a uma mesma categoria, podendo esta ser mais ou menos específica: um programa pode, por exemplo, tanto detectar um rosto em uma imagem quanto reconhecer de quem ele é. Pode, ainda, classificá-lo com relação a determinados parâmetros como gênero, idade, etnia, expressão facial, etc. Em todo caso, tais operações já não dizem respeito a um ponto de vista específico da câmera sobre o ambiente registrado – se tratamos de algoritmos aplicados no contexto da internet, inclusive, com frequência já nem se trata de uma ou outra câmera, pois lhe são alimentados, mais do que um determinado ponto de vista, inúmeros deles, oriundos das diversas imagens em circulação, estáticas ou moventes, tomadas nos mais diversos contextos. O caráter distribuído das operações de reconhecimento–conexão, mais do que uma particularidade do contexto atual de aplicação da visão computacional na internet, constitui uma importante estratégia de seu próprio desenvolvimento. O método pelo qual são gerados tais programas, chamado de aprendizado de máquinas (do inglês machine learning), do domínio da Inteligência Artificial, compreende, em linhas gerais, a implementação de sistemas computacionais capazes de aprender a desempenhar determinadas tarefas pela inferência de regras gerais através do treino. No âmbito da visão computacional, um dos modos de aplicação desse método envolve a alimentação ao sistema de centenas de imagens de rostos, por exemplo, para que o algoritmo aprenda a reconhecê-los em outras imagens. Diferentemente das operações que indicamos anteriormente, em que são

gabriel menotti . marcus bastos . patrícia moran

165

oferecidas instruções explícitas ao sistema, no desenvolvimento do aprendizado de máquinas cabe ao próprio algoritmo inferir as instruções que deve seguir, tomando como referência as imagens oferecidas na fase de treino. Um dos modos de fazê-lo – o chamado aprendizado supervisionado – consiste em produzir diversas imagens de objetos pertencentes a determinada categoria, os quais servirão como base de treinamento para o programa aprender a reconhecêla. Podem ser encontrados na web alguns bancos de imagens disponibilizados por laboratórios de pesquisa em visão computacional5 para serem utilizados por pesquisadores e estudantes no treinamento ou no teste de seus próprios programas. Compostas por enormes conjuntos de imagens de objetos e pessoas – sempre recortados, isolados e deslocados de seu contexto e de sua história –, essas bases se apresentam como uma espécie de memória visual das máquinas de visão. Trata-se, potencialmente, da totalidade da experiência visual de que se valem alguns destes programas para darem sentido às imagens com que tomam contato. A natureza das imagens que desempenham esse papel talvez indique, então, o critério de eficiência que guia o desenvolvimento das máquinas, cuja experiência dos objetos do mundo se faz de forma absolutamente descontextualizada e fragmentada – distanciando-se, assim, das imagens tomadas em circunstâncias comuns, jamais clivadas, de tal maneira, de um contexto ou de uma história. Contudo, com a massiva disponibilidade de imagens tomadas nas mais diversas situações, ganham espaço outros métodos de treinamento que se valem deste acervo crescente de potenciais bases de treinamento. Métodos de aprendizado chamados de não supervisionados, complementares aos previamente descritos, são baseados principalmente na alimentação ao programa de imagens de treinamento que já não se constituem como exemplos – como seriam as centenas de imagens de maçãs – mas, de outro modo, apresentam casos diversos, sem seleção prévia, entre os quais o programa deve buscar encontrar padrões recorrentes sem que a ele sejam oferecidos, de antemão, enquadramentos a partir dos quais analisar a informação. Essa é a estratégia atualmente utilizada por companhias como a Google, o Facebook e a Microsoft no treinamento de seus algoritmos de visão no que vem sendo chamado de deep learning (aprendizado profundo), fazendo uso da extensa base de imagens da própria internet. Assistimos, afinal, a um contexto cada vez mais favorável a tais desenvolvimentos, especialmente com o uso crescente dos chamados serviços de 5.

Cf. Amsterdam Library of Object Images .

166

cinema apesar da imagem

armazenamento em nuvem e com a tendência geral de que potencialmente toda e qualquer imagem produzida seja em alguma medida disponibilizada na rede. Por tais métodos de aprendizado, para além das operações analíticas que indicamos anteriormente, a leitura das imagens parece incluir também uma dimensão de síntese, pela qual a máquina elaboraria internamente uma representação daquilo que infere como sendo os aspectos característicos do que busca reconhecer. Mais do que partir de instruções explícitas que, neste sentido, indicariam regras gerais para que fossem analisadas imagens singulares, parte-se, em alguma medida, dessas mesmas imagens para encontrar, em seu conjunto, os parâmetros que guiam a análise. A Google publicou em 2011 uma imagem que apresenta um subproduto de seu projeto Google Vision, no qual foram aplicadas técnicas de aprendizado não supervisionado para a interpretação de mais de 10 milhões de imagens do YouTube, com seu algoritmo buscando identificar autonomamente alguns dos objetos figurados (LE, 2011 e MARKOFF, 2012). Após apenas alguns dias de processamento intensivo desse repertório por 16 mil processadores, o programa da Google tornou-se apto a reconhecer, entre outros padrões, gatos, permitindo que também se gerasse uma representação visual daquilo que passou a identificar como tal (Fig. 1). Em seus tons acinzentados e sua forma tênue, fugaz, nos é trazida a estranha imagem de um “gato médio”, um abstrato conceito estatístico estranho ao nosso olhar6. Trata-se de uma imagem que escapa a qualquer possibilidade de singularização, são todos e nenhum gato.

Fig. 1 – O modelo visual de um gato gerado pelo programa de aprendizado profundo da Google. Fonte: LE, 2011. 6.

O experimento chamado pela Google de Inceptionism ou Deep Dream (“sonho profundo”), em alusão ao deep learning, serviria, aqui, como um outro exemplo, talvez ainda mais contundente e de maior repercussão do que este que apresentamos (cf. http://googleresearch.blogspot. com.br/2015/06/inceptionism-going-deeper-into-neural.html). Contudo, como foi publicado durante a revisão deste artigo, não pudemos abordá-lo neste momento.

gabriel menotti . marcus bastos . patrícia moran

167

Há, evidentemente, uma diferença substancial entre a visualidade inscrita neste “gato médio” e aquela que Manovich busca na perspectiva renascentista para compreender a visão computacional nos termos do que indica por nominalismo visual – vertente incluída nas operações que reunimos sob localização–acionamento. Se por tal denominação o autor busca remontar a uma relação com a imagem que se atenha mais aos objetos individuais nela figurados do que à representação de ideias abstratas, talvez seja justamente a este movimento contrário que se prestam os processos de aprendizagem aplicados à visão computacional. Afinal, no caso destes, parte-se de inúmeros casos singulares para chegar a um modelo em certa medida ideal, pela via da estatística. De tal modo, algoritmos deste tipo buscam extrair do conjunto de fotografias algo como um idealismo visual – afastando-as, inclusive, da indexicalidade que constituiria uma de suas características mais destacadas7. A visão computacional, neste modo particular de funcionamento, opera pela via da descontextualização de cada imagem superposta, formando essa estranha figura que nos é apresentada como o gabarito em que se baseia a visão da máquina. O gato que vemos, neste sentido, consiste naquele que emerge de uma ampla rede de figurações similares dispersas no YouTube, conexões que seriam ativadas a cada detecção de um padrão similar pelo programa da Google, a cada novo reconhecimento. Se estranhamos essa manifestação particular da visualidade estatística da máquina que se expressa por meio da imagem do gato pardo da Google, isso não significa, contudo, que de todo estranhemos esse modo de ver. Afinal, lidamos com seus efeitos de modo cada vez mais frequente à medida que os algoritmos que lhe dão forma se fazem presentes de modo disperso, porém, em certa medida, coordenado8, em diversos dispositivos com os quais produzimos e acessamos imagens. A interpretação visual automatizada vem sendo usada pela Google já há algum tempo nas tarefas de busca e indexação de imagens na rede, inclusive oferecendo, desde 20099, o recurso de pesquisa inversa que permite nos valermos 7. 8.

9.

Trata-se de compreensão trabalhada por vários autores a partir do referencial da semiótica peirciana, mas que tem em Dubois (2012) um dos mais destacados expoentes. Há dispersão na medida em que são diversos os agentes institucionais (governos, corporações) que aplicam tais metodologias de aprendizado. Contudo, em sua maioria, partem de uma estratégia comum, relacionada ao que convencionou-se chamar de big data: mineração, coleta e análise contínua de dados diversos a fim de elaborar perfis (de risco ou de consumo, o princípio é o mesmo) para embasar tomadas de decisão de ordens diversas. Embora menos conhecido, outro exemplo deste tipo de serviço, que antecedeu brevemente o da Google, é o canadense TinEye, lançado em 2008 (cf. http://tineye.com/).

168

cinema apesar da imagem

de uma imagem como chave para a busca tanto de sites e conteúdos da web em geral, quanto de imagens similares. A publicação massiva de imagens na web se torna, então, tanto um problema a se enfrentar – como dar sentido a esse arquivo gigantesco e em expansão? – quanto o próprio substrato em que são gestadas as ferramentas para fazê-lo. A visão computacional parece ser, então, um componente chave tanto para sermos capazes de gerir tal volume de imagens quanto para compreendermos o modo de ver requisitado por esse contexto. Esse domínio é, inclusive, uma importante frente contemporânea da pesquisa em cultura visual, sendo adotada enquanto instrumento de análise para dar sentido a esse volume massivo que se produz diariamente10.

Fig. 2 – I›m Google, de Dina Kelberman (fragmento). Fonte: KELBERMAN, 2011.

10. Lev Manovich reconhecidamente empreende algumas das pesquisas neste domínio, com destaque recente em torno de análises feitas de imagens compartilhadas em redes sociais, como o projeto Selfiecity, que analisou, em um dispositivo misto, de analistas humanos e computacionais, um dia de imagens postadas na rede Instagram em cinco cidades do mundo (cf. http://selfiecity.net/).

gabriel menotti . marcus bastos . patrícia moran

169

I’m Google (2011-), obra da artista estadunidense Dina Kelberman, brinca com aspectos dessa visualidade. Trata-se de um trabalho on-line hospedado como um blog da plataforma Tumblr, em um layout limpo, austero: sobre o fundo branco, estendem-se apenas três colunas de imagens, em sua maioria estáticas. Valendose do recurso infinte scroll, o blog da artista expande-se de forma aparentemente infinita: quando levamos a barra de rolagem até o final, a página automaticamente carrega as próximas imagens. São centenas delas. A seleção e a organização das imagens são feitas pela própria artista a partir de sua coleta na rede. Apesar da evidente heterogeneidade do conjunto, dando conta dos mais diversos temas e estilos – fotos amadoras, registros de atividades agrícolas e industriais, trabalhos manuais, culinária, esportes –, o passeio pela obra revela cuidadosos trabalhos de agrupamento e de transição. Em geral, a sequência segue um certo padrão: séries de imagens reunidas segundo agrupamentos semânticos – como, por exemplo, séries de peças de croché, de balões cortados, de luvas – entre os quais são construídas transições em que o salto temático parece ser amortecido por uma associação superficial entre as imagens, através de correspondências de cores, formas, texturas e enquadramentos. Em uma passagem que nos chama especialmente a atenção (Fig. 2), imagens do que parecem massas de pão dão lugar a uma sequência de jipes e bugues em meio a dunas de areia: a transição se dá entre a massa amorfa de farinha e uma nuvem de areia lançada ao ar pela manobra de um dos carros. De forma similar passamos, noutros momentos, de boias de sinalização marítima a imagens de trabalhos escolares feitos com bolas de isopor; de aparelhos auditivos a sapatos de bonecas; de ginásios de treinamento de ginástica olímpica a caixas de papelão recém-abertas após a chegada de encomendas. Em todas essas transições, a passagem se dá por associações presentes apenas na superfície das imagens, como que estabelecendo uma barreira ao nosso olhar, impedindo-o de buscar a coisa representada e forçando-o a se ater a seus aspectos formais. Diante das relações estabelecidas e mesmo da profusão heterogênea de temas e contextos, não conseguimos nos deter a cada uma das imagens e nossa leitura, assim, oscila entre estes níveis, entre a superfície e a profundidade, sem se estabelecer firmemente em nenhum dos dois. O movimento de leitura a que somos conduzidos pela obra parece se sugerir uma dinâmica refinada em que não jogam apenas nosso olhar e o olhar da artista. O processo, quase algorítmico, com que são construídas as relações entre as imagens, com seus vínculos cromáticos e sutis jogos de semelhança, sugere-nos, afinal, a participação de um olhar da máquina. Os saltos

170

cinema apesar da imagem

realizados entre os conjuntos sugerem algo como falhas da ordenação realizada pela máquina – em nossa perspectiva –, como se derivassem de um equívoco na aplicação do gabarito através do qual as imagens seriam classificadas. Existe algo de poético, tanto quanto de cômico, em tais passagens elaboradas pela artista. O método com que se elabora a sequência de imagens da obra coloca em evidência algumas das dinâmicas relacionadas ao jogo entre agentes de visão humanos e não humanos – nós e as máquinas – que acontece, atualmente, por causa da presença crescente dos agentes computacionais de visão. Ainda que se valha de certo instante de estranhamento que ainda – e talvez sempre – emergiria em nossa relação com tais dispositivos, a obra de Kelberman segue um caminho distinto daquele que se insinua, por exemplo, em trabalhos de Mark Shepard, Adam Harvey ou Zach Blas11, que exploram as brechas nas quais ainda seria possível erigirmos uma barreira, ainda que transitória, à sua visibilidade. São trabalhos que, cada um a seu modo, oferecem respostas para os desafios que nos colocam as máquinas que veem, tomadas enquanto materializações de um desejo de visibilidade irrestrita. Shepard, com LEDs infravermelhos que obstruem a capacidade de leitura, pelos algoritmos, de formas humanas. Harvey, com design de maquiagem e cabelos que ocultam traços fisionômicos fundamentais para a detecção e o reconhecimento de rostos. E Blas, com máscaras radicalmente obstrutivas, geradas a partir de dados acumulados de diversos rostos distintos, ou, ainda, com objetos que nos permitem visualizar os atributos biométricos usados na identificação como um instrumento de tortura. Todos eles, ainda que com abordagens distintas, têm em comum com I’m Google, de Kelberman, serem respostas a um modo de funcionamento da visão computacional pautado nas tarefas de reconhecimento e classificação de padrões visuais, de caráter fundamentalmente estatístico e em uma topologia de rede, em que determinadas configurações cromáticas dos pixels ativam percursos particulares, produzindo associações semânticas (classes e identidades). Em ainda outro exemplo, a instalação The giver of names (1990-)12, de David Rokeby, traz uma incidência particular desse tipo de operação. Nela, o espectador é convidado a escolher alguns objetos – de uma diversidade deles, espalhados pelo 11. Sentient City Survival Kit (2010), de Shepard (http://survival.sentientcity.net/). CVDazzle (2010-) de Harvey (http://cvdazzle.com). Facial Weaponization Suite (2011-2014) e Face Cages (2013-2015) de Blas (http://www.zachblas.info/projects/facial-weaponization-suite/ e http://www.zachblas.info/projects/face-cages/). 12. Cf.: http://www.davidrokeby.com/gon.html.

gabriel menotti . marcus bastos . patrícia moran

171

chão – dispondo-os sobre um pedestal diante de uma câmera conectada a um computador. O programa analisa a imagem captada, extraindo-lhe os contornos, analisando sua cor e textura, e busca identificar, a partir dos traços descritos, quais seriam aqueles objetos entre os que constam em uma base conhecida. O reconhecimento ativa uma rede conceitual, composta por uma base de nomes de objetos, sensações e ideias – extraídas, entre outras fontes, de textos escritos pelo artista e obras da literatura – que são articuladas a partir das formas percebidas, de forma a elaborar uma frase em alguma medida afetada pela percepção visual, pela máquina, daquela cena. Destaca-se como a operação da obra se distancia daquelas típicas do par localização–acionamento, pois não se trata de recompor, a partir da imagem, um espaço concreto, como é o caso das aplicações que indicamos anteriormente, ou dos trabalhos de artemídia derivados. Trata-se, antes, de uma operação de abstração pela qual acessamos, a partir da imagem, um espaço difuso, conceitual, em que, mais do que circunscrever regiões ou monitorar movimentos, estabelecem-se conexões e ativam-se percursos, fazendo emergir sentidos a partir das relações estabelecidas. Por todo o conjunto de casos que pudemos abordar, percebe-se tanto a diversidade de modos de agenciamento do visível operados pela visão computacional quanto aquilo que têm em comum. Se, de um lado, as operações reunidas sob o par localização–acionamento dedicam-se a um contexto particular de operação, circunscrevendo e mapeando um determinado espaço e nele localizando e rastreando corpos específicos, concretos, vemos como as operações de reconhecimento–conexão realizam uma abstração destas individualidades, buscando conectá-las a categorias ou formulações genéricas, inferidas de uma enorme quantidade de instâncias singulares. Evidentemente, efetuamos nesta clivagem uma categorização apenas transitória, já que tais modos de funcionamento manifestam-se, com frequência, de modo indistinto em diversas aplicações – na vigilância, por exemplo, tanto a localização de um corpo quanto a sua identificação ou classificação mostram-se fundamentais. Em todo caso, incidindo transversalmente a tal diversidade de manifestações, haveria um eixo comum a percorrer as aplicações da visão computacional, o qual talvez pudéssemos compreender pela definição de Golan Levin (2006a) que trouxemos ao início: trata-se de transpor a opacidade computacional da imagem, de traduzir seus conteúdos figurativos a uma representação quantificável e computável. Forsyth e Ponce (2012, p. 107) apresentam um exemplo elucidativo: “Figuras de zebras e de dálmatas têm pixels brancos e pretos, e em torno do mesmo

172

cinema apesar da imagem

número, inclusive. A diferença entre as duas tem a ver com a aparência característica de pequenos grupos de pixels, mais do que valores de pixels individuais” (tradução do autor). Partimos, então, da representação numérica da imagem, expressa pixel a pixel, para chegar a seu nível figurativo (aquilo que ela aparenta, o espaço e dimensões representadas, etc.) e, então, traduzir esta figuração novamente em um valor numérico, registrável e computável. Essa definição, embora precisa, atémse a um nível técnico que talvez não sintetize todas as questões que pudemos perceber no percurso de nossa argumentação – afinal, não basta descrevermos esta operação sem atentarmos aos modos de agenciamento implicados. Vem ao nosso auxílio, nesta leitura, a definição de Sean Cubitt (2011, p. 9) do que seriam, em nosso tempo, as mídias dominantes (entendidas como aquelas utilizadas para o exercício do poder). Segundo ele, já não seriam mais a narrativa ou a imagem, mas aquelas que indica como os três pilares contemporâneos da economia política: planilhas, bancos de dados e sistemas de informação geográfica (GIS). Seriam estas que, em última medida, serviriam aos propósitos atuais de elaboração de perfis estatísticos e de controle e gerenciamento de riscos, presentes em instâncias de governo tanto estatais quanto corporativas. Poderíamos compreender a Visão Computacional, então, como um agente de passagem, de transição, responsável pela tradução entre dois paradigmas das tecnologias de controle e conhecimento, subsumindo a imagem a uma destas formas indicadas por Cubitt, em especial os bancos de dados e os sistemas de georreferenciamento – situados a apenas um passo em relação aos desenvolvimentos que pudemos descrever. De um lado, há evidentemente uma forte reconfiguração do papel desempenhado pela imagem, que, passível de ser traduzida automaticamente em informação, desdobra-se enquanto uma fonte de dados estatísticos e deixa de ser, neste sentido, um objeto de difícil tratamento, indexação ou arquivamento. De outro, há também um ganho significativo para as mídias identificadas por Cubitt, com a entrada da imagem em seu domínio. Operando tradicionalmente por meio de dados numéricos e abstratos, a elas lhes é permitido, a partir da imagem, circunscrever e particularizar a informação ao operar a partir de um registro singular. De outro modo, também lhes torna possível fazer o caminho inverso e generalizar a partir destas mesmas instâncias singulares, na medida que é pelo enfrentamento de múltiplos registros do individual fotográfico que o método do aprendizado de máquinas permite aos algoritmos da Visão Computacional realizar o reconhecimento de padrões e a sua conexão a instâncias relacionadas. De toda forma, mais ou menos relevante, a imagem tem seu lugar reconfigurado

gabriel menotti . marcus bastos . patrícia moran

173

nesse contexto, sendo levada a assumir o papel de componente intermediário e transitório de uma operação na qual, por vezes, nem aparece.

Referências AGAMBEN, Giorgio. O que é um dispositivo?. In: ______. O que é o contemporâneo? e outros ensaios. Chapecó, SC: Argos Editora, 2009. p. 25-51. BRUNO, Fernanda. Contramanual para câmeras inteligentes: vigilância, tecnologia e percepção. Galáxia, São Paulo, n. 24, p. 47-63, dez. 2012. Disponível em: < http://revistas. pucsp.br/index.php/galaxia/article/view/9807/9426>. Acesso em: 15 nov 2014. CRARY, Jonathan. Techiniques of the observer: on vision and modernity in the nineteenth century. Cambridge, Mass.: MIT Press, 1992. CUBITT, Sean. Time to live. ISEA2011 Istanbul Conference Proceedings, Leonardo Electronic Almanac, v. 18, n. 4, 2011. p. 8-15. Disponível em: . Acesso em: 15 nov 2014. DELEUZE, Gilles. ¿Qué es un dispositivo?. In: BALBIER, Etienne; et al. Michel Foucault, filósofo. Barcelona: Gedisa, 1999. p. 155-163. DUBOIS, Philippe. O ato fotográfico. 14ª ed. Campinas, SP: Papirus, 2012. DUGUET, Anne-Marie. Dispositivos. In: MACIEL, Kátia (org.). Transcinemas. Rio de Janeiro: Contracapa, 2012. p. 49-70. FORSYTH, David A.; PONCE, Jean. Computer vision: a modern approach. New Jersey: Pearson, 2012. FOUCAULT, Michel. Vigiar e punir: o nascimento da prisão. Petrópolis, RJ: Vozes, 1999. __________. Microfísica do poder. Rio de Janeiro: Edições Graal, 1979. GEUSEBROEK,

Jan-Mark;

BURGHOUTS,

Gertjan

J.;

SMEUL-DERS,

W. M. The Amsterdam library of object images. International Journal of Vision, v.

Arnold Computer

61, n. 1, Jan 2005. p. 103-112. Disponível em: . Acesso em: 15 nov 2014. GUATTARI, Félix. A paixão das máquinas. Cadernos de subjetividade: O reencantamento do concreto, São Paulo, v. 1, n. 1, 2003. p. 39-51.

174

cinema apesar da imagem

INTELLIGENT SENSORY INFORMATION SYSTEMS. University of Amsterdam. The Amsterdam library of object images. Amsterdam, 2004. Disponível em: < http://aloi.science.uva. nl/>. Acesso em: 15 nov 2014. IVINS, William M. On the rationalization of sight: with the examination of three Renaissance texts on perspective. New York: Da Capo Press, 1975. KELBERMAN, Dina. I’m Google. 2011. Obra de arte digital. Disponível em: . Acesso em 15 nov 2014. KRUEGER, Myron W. Responsive environments. In: WARDRIP-FRUIN, Noah; MONTFORT, Nick (eds.). The new media reader. Cambridge, MA: MIT Press, 2003. p. 379-389. LATOUR, Bruno. Visualization and cognition: drawing things together. Knowledge and Society 6, 1986. p. 1-40. LE, Quoc V. et al. Building high-level features using large scale unsupervised learning. arXiv:1112.6209 [cs], arXiv: 1112.6209, 28 dez. 2011. Disponível em: . Acesso em: 9 jan. 2015. LEVIN, Golan. Computer vision for artists and designers: pedagogic tools and techniques for novice programmers. Journal of Artificial Intelligence and Society, v. 20.4, 2006a. p. 462-482. __________. Hands up! A visual essay on the ‘media art pose’. Texto originalmente apresentado no simpósio Emoção Art.ficial. São Paulo, Brasil; 24 jul 2006b. Disponível em: . Acesso em: 10 maio 2014. MANOVICH, Lev. The engineering of vision from constructivism to computers. Tese (doutorado). University of Rochester. 1993. Disponível em: . Acesso em: 12 set 2013. MARKOFF, John. How many computers to identify a cat? 16,000. In: The New York Times, 25 jun 2012. Disponível em: . Acesso em: 14 jul 2014. MARR, David. Vision: a computational investigation into the human representation and processing of visual information. New York: W. H. Freeman, 1982. RISEN, James; POITRAS, Laura. N.S.A. collecting millions of faces from web images. In: The New York Times, 31 maio 2014. Disponível em: . Acesso em: 7 jul 2014. ROBERTS, Lawrence G. Machine perception of three-dimensional solids. MIT Lincoln

gabriel menotti . marcus bastos . patrícia moran

175

Laboratory, 1963. Disponível em: . Acesso em: 8 jul 2014. RUSH, Michael. Novas mídias na arte contemporânea. São Paulo: Martins Fontes, 2006.

Lihat lebih banyak...

Comentários

Copyright © 2017 DADOSPDF Inc.