RECUPERAÇÃO DA INFORMAÇÃO EM DOCUMENTOS XML: algumas reflexões introdutórias sobre experimentos com os currículos da Plataforma Lattes do CNPq

June 28, 2017 | Autor: N. Vitor Sobral | Categoria: Information Retrieval, XML, Scientometrics, Lattes, Currículo Lattes
Share Embed


Descrição do Produto

XXXV Encontro Nacional de Estudantes de Biblioteconomia, Documentação, Ciência da Informação e Gestão da Informação Escola de Ciência da informação – Universidade Federal de Minas Gerais Belo Horizonte – 15 a 22 de julho de 2012

RECUPERAÇÃO DA INFORMAÇÃO EM DOCUMENTOS XML: algumas reflexões introdutórias sobre experimentos com os currículos da Plataforma Lattes do CNPq GT4 - O campo prático dos profissionais da informação

Natanael Vitor Sobral1 Márcio Henrique Wanderley Ferreira2 Ronald Ataíde Cavalcanti Junior3 Anne Louise Gouveia de Oliveira4 Alisson Freitas Carneiro da Silva5

RESUMO A evolução tecnológica trouxe consigo novos métodos de tratamento e organização de dados, que facilitaram os métodos existentes de representação e recuperação da informação. Este trabalho buscou analisar a recuperação da informação em documentos XML, trazendo os principais conceitos associados à temática, suas aplicações, vantagens e desvantagens. Como aplicação prática, adotou-se a análise dos currículos presentes na Plataforma Lattes do CNPq, estruturados em documentos XML. Como principais resultados verificou-se a utilidade da recuperação de informações em documentos XML para a Cientometria, e sua função estratégica no sistema nacional de Ciência, Tecnologia e Inovação como insumo a geração de indicadores científicos. Palavras-chave: Recuperação da Informação; Cientometria; XML; Recuperação da Informação em documentos XML.

1

Discente do curso de Gestão da Informação da Universidade Federal de Pernambuco (UFPE), bolsista de iniciação científica da Fundação de Amparo à Ciência e Tecnologia do Estado de Pernambuco (FACEPE), pesquisador de iniciação científica dos Grupos de Pesquisa Scientia/UFPE e Informação Tecnológica/UFPE, [email protected] 2

Discente do curso de Gestão da Informação da Universidade Federal de Pernambuco (UFPE), bolsista de iniciação científica do Conselho Nacional de Desenvolvimento Científico e Tecnológico (CNPq), pesquisador de iniciação científica dos Grupos de Pesquisa Scientia/UFPE e Informação Tecnológica/UFPE, [email protected] 3

Discente do curso de Gestão da Informação da Universidade Federal de Pernambuco (UFPE), [email protected]

4

Discente do curso de Gestão da Informação da Universidade Federal de Pernambuco (UFPE), bolsista de iniciação científica do C onselho Nacional de Desenvolvimento Científico e Tecnológico (CNPq), pesquisadora de iniciação científica do Grupo de Pesquisa Scientia/UFPE, [email protected] 5

Discente do curso de Gestão da Informação da Universidade Federal de Pernambuco (UFPE), [email protected]

1

XXXV Encontro Nacional de Estudantes de Biblioteconomia, Documentação, Ciência da Informação e Gestão da Informação Escola de Ciência da informação – Universidade Federal de Minas Gerais Belo Horizonte – 15 a 22 de julho de 2012

1 INTRODUÇÃO O crescente avanço das tecnologias da informação e da comunicação (TICs) vem permitindo que novos métodos de tratamento e organização de dados sejam desenvolvidos e utilizados a fim de proporcionar às organizações informações úteis para a tomada de decisão, e conhecimento para se estabelecerem nos seus mercados de atuação. Se antes, os dados eram tratados de forma primitiva, onde as relações só podiam ser estabelecidadas de forma manual, hoje, o gerenciamento eletrônico de dados, surge como alternativa para oferecer melhores condições de estruturação e organização dos dados, permitindo que estes fiquem estruturados dentro de um sistema de informação, de modo a permitir que cruzamentos, consultas, e extrações sejam realizadas com maior facilidade. Especialmente no mundo web, devido ao grande volume de informação produzida, e as características diferentes de seus produtores, os dados são produzidos de modo despadronizado, o que dificulta a conversação dos sistemas, ou seja, a interoperabilidade. Outra dificuldade percebida é a insistente centralização dos esforços nos aspectos estéticos da informação (formatação e estilo), que pouco auxilia na definição e no entendimento dos dados. Para melhor definir, estruturar e descrever os dados, foi proposto em 1996 uma linguagem de marcação denominada XML (Extensible Markup Language). Bryan (1998, apud BAX, 2001, p.36) destaca que sua criação foi resultado do trabalho de um grupo de especialistas estabelecido pelo W3C6 que propuseram uma linguagem de marcação voltada às necessidades específicas da Web. O XML torna-se de grande importância no atual contexto, por se aproximar mais de uma estrutura de dados compatível com os princípios da web semântica, isto ocorre, porque esta linguagem de marcação permite uma melhor estruturação dos dados, facilitando sua localização, e o entendimento do significado das informações, na proposição de ser uma linguagem entendível por humanos e máquinas, o que auxilia o usuário na sua produção e leitura. Sob a ótica da recuperação da informação, o XML trouxe algumas vantagens, principalmente por não se tratar de uma estrutura de dados rígida, como os tradicionais bancos de dados relacionais, que exigem do usuário um conhecimento de inúmeros códigos que representem a consulta desejada. Além do mais, a marcação das informações através de

6

World Wide Web Consortium

2

XXXV Encontro Nacional de Estudantes de Biblioteconomia, Documentação, Ciência da Informação e Gestão da Informação Escola de Ciência da informação – Universidade Federal de Minas Gerais Belo Horizonte – 15 a 22 de julho de 2012

estruturas de metadados sem limites de tags oferecida pelo XML, permite que a informação seja representada de modo mais flexível, diferentemente do HTML7 e do texto livre. Desta forma, o objetivo deste trabalho é abordar a recuperação da informação no contexto dos documentos XML, demonstrando suas limitações, vantagens e aplicações, em especial no contexto da cientometria. Para reforçar os argumentos, será apresentado um breve estudo de caso sobre as tentativas de recuperação de informações em documentos XML contendo os currículos Lattes de pesquisadores da Universidade Federal de Pernambuco, extraídos da base de dados da Plataforma Lattes do CNPq 8. 2 REVISÃO DE LITERATURA 2.1 Linguagens de Marcas No que concerne à determinação conceitual, linguagens podem ser definidas como algo que venha a ter um significado no ato da comunicação, transmitindo idéias e sentimentos através de vários formatos, gestuais, gráficos, sonoros, entre outros, mais simples, ou mais complexos. Já marcas são indicações que destacam elementos do texto que possuem relevância para o autor. As marcações podem ser desenvolvidas através de destaques na estrutura textual como: um sublinhado ou negrito, remetendo o leitor a identificação de elementos estruturais e unidades semânticas. Almeida (2002) afirma que as linguagens de marcação são: um conjunto de convenções utilizadas para a codificação de textos. Uma linguagem de marcação deve especificar que marcas são permitidas, quais são exigidas, como se deve fazer distinção entre as marcas e o texto e qual o significado da marcação.

A linguagem de marcação surgiu com a intenção de apresentar de forma específica a localização de uma estrutura textual, determinação de conteúdos e facilitação da construção da formatação. Portanto, o uso de padrões de marcação abertos como o HTML e o XML, pode promover a manipulação estrutural de documentos não dependentes de um formato proprietário. Essa possível realidade de domínio público tornaria mais viável o intercâmbio de informações entre diversos campos do conhecimento, além de melhorar a recuperação da informação em repositórios com uma linguagem já padronizada. Historicamente o HTML foi desenvolvido por Tim Berners Lee em 1980, sendo um padrão aberto baseado em SGML9, possuindo uma formatação textual independente de plataforma. Essa possibilidade permitiu a inserção de diversos objetos no documento, sendo 7

Linguagem de Marcação de Hipertexto do inglês HyperText Markup Language

8

Conselho Nacional de Desenvolvimento Científico e Tecnológico

9

Standard Generalized Markup Language

3

XXXV Encontro Nacional de Estudantes de Biblioteconomia, Documentação, Ciência da Informação e Gestão da Informação Escola de Ciência da informação – Universidade Federal de Minas Gerais Belo Horizonte – 15 a 22 de julho de 2012

elaborado sobre um conjunto fixo de tags e utilizado em milhões de web sites. Entretanto, essa linguagem possui algumas limitações, que se iniciam pela falta de flexibilidade na customização dos campos estruturais onde os termos vão estar alocados. Segundo Bax (2000) a falta de flexibilidade do HTML dificultou a promoção da troca de informações, além de conter elementos puramente de apresentação (estilo), que controlam a aparência de informações. Porém, o HMTL tornou-se facilmente difundido pelos desenvolvedores de web por possuir uma sintaxe facilmente entendível. Com o objetivo de propor uma simplificação da SGML voltado para as necessidades específicas da web, a W3C desenvolveu o XML. Muito mais flexível que o HTML, suas tags não estão pré-definidas, permitindo assim que o desenvolvedor crie suas próprias marcas. Criado para facilitar a troca de informações, o XML permite a criação de informações semiestruturadas, através de uma representação de fácil interpretação pelos homens, pode ser trabalhado na criação de sites, podendo atuar em conjunto com o HTML e suas extensões. Quando olhamos para suas restrições, observamos uma limitação na capacidade semântica em relação aos significados de suas tags, o que traz uma dificuldade em descrever relações semânticas entre informações. Dessa forma, entende-se que a linguagem de marcação XML surge como uma proposta promissora, melhorando o fluxo da Informação, principalmente se considerarmos o ambiente web, promovendo melhores recursos para a organização dos conteúdos informacionais e possibilitando um melhor gerenciamento e recuperação. 2.2 Recuperação da informação em documentos XML O XML possui várias características que são interessantes e vantajosas em relação a outras linguagens de marcação. Algumas das vantagens destacadas por Correa (2011) são: 

Padrão aberto: que não possui um único dono, o que permite alterações por parte do produtor de informação durante seu desenvolvimento, trazendo assim um contínuo aprimoramento do formato;

 A não predefinição das suas etiquetas (tags): permite ao desenvolvedor criar suas próprias tags, de acordo com suas necessidades e público a que atende, assim permitindo definir outras linguagens.  Facilidade de interpretação por homens e sistemas de software: cumpre um de seus papeis como linguagem de informação que é facilitar a interação entre o homem e 4

XXXV Encontro Nacional de Estudantes de Biblioteconomia, Documentação, Ciência da Informação e Gestão da Informação Escola de Ciência da informação – Universidade Federal de Minas Gerais Belo Horizonte – 15 a 22 de julho de 2012

a máquina, trazendo o entendimento e assim facilitando o desenvolvimento do trabalho. 

Pode atuar em conjunto com a HTML: O HTML é outro formato de linguagem de marcação que trabalha no campo da estética, formatação e estilo, sua interação com o XML é compatível e permite vantagens principalmente no desenvolvimento de sites e suas paginas web. A Recuperação da Informação (RI) pressupõe uma Organização da Informação (OI)

para que os documentos sejam bem indexados, categorizados, armazenados e posteriormente localizados em uma Base de Dados (BD) ou em um Sistema de Recuperação de Informação (SRI). Estas informações podem estar armazenadas em diferentes suportes, podendo variar de um disco rígido a um Cd, e em diferentes formatos (textuais, iconográficos, sonoros, entre outros). A eficiência da RI está relacionada a critérios de precisão e revocação, pode-se dizer que a recuperação é eficiente quando a busca é satisfeita, retornando conteúdo relevante. Ao analisamos a recuperação da informação no âmbito da informática, suas características ficam ainda mais evidenciadas, principalmente se considerado o espaço web, onde a busca por informação é considerada por muitos uma tarefa de extrema complexidade. É nesta lacuna que passa a existir a interação entre o XML e a Recuperação da Informação, pois o XML é uma linguagem que propõe uma estrutura descritiva das informações, permitindo que estas sejam definidas de modo flexível e organizado, antecedendo assim, uma boa RI. Para processar os documentos XML, facilitando a RI, é importante a utilização de ferramentas tecnológicas que permitem economia de custo e tempo, nesta função destacam-se as linguagens de processamento XLink, XPointer, XQuery e Xpath, e ainda as ferramentas SAX (Simple API for XML) e Web Harvest que trabalham com extração de dados (CORREA, 2011, p.7) 2.3 A importância da Recuperação da Informação em documentos XML para a Cientometria As técnicas de RI tendem a ganhar utilidade em ambientes onde a informação é empregada de modo estratégico, buscando essencialmente revelar conhecimentos ocultos em agrupamentos de dados aparentemente desconexos. Com a forte adoção do XML, principalmente em grandes bases de dados de informação científica e tecnológica, nota-se que criou-se uma demanda para o uso das 5

XXXV Encontro Nacional de Estudantes de Biblioteconomia, Documentação, Ciência da Informação e Gestão da Informação Escola de Ciência da informação – Universidade Federal de Minas Gerais Belo Horizonte – 15 a 22 de julho de 2012

técnicas de recuperação da informação em documentos XML para a geração de indicadores científicos no cenário estratégico nacional, isto ocorre, porque muitas das informações geradas pelo Sistema Nacional de Ciência, Tecnologia e Inovação (SNCTI) encontram-se nesta estrutura. Há muito tempo, o setor de Ciência, Tecnologia e Inovação (CT&I), liderado no Brasil pelo Ministério de Ciência e Tecnologia (MCT), carece de uma metodologia específica para a geração de indicadores capazes de subsidiar a tomada de decisão de seus gestores na criação, direcionamento e avaliação de políticas de CT&I. Segundo documento da FAPESP (2002), um método para o estudo do sistema de ciência, tecnologia e inovação é oferecido pelo campo disciplinar denominado “cientometria”. Ele se ocupa do desenvolvimento de metodologias para a construção e análise de indicadores, com base em abordagem interdisciplinar, envolvendo a Ciência da Informação, a Economia, a Administração, entre outras. A cientometria, ou ciência das ciências, abarca o estudo das ciências físicas, naturais e sociais, com o objetivo de compreender sua estrutura, evolução e conexões, de modo a estabelecer relações da ciência com o desenvolvimento tecnológico, econômico e social. Baseia-se em indicadores científicos construídos a partir de documentos publicados em canais especializados e envolve inúmeros parâmetros, tais como a quantidade de publicações, coautorias, citações, co-ocorrências de palavras e outros (FAPESP, 2002). Por mais, que os dados necessários para a geração de indicadores científicos e tecnológicos existam, percebe-se que estes se encontram fragmentados, e armazenados em sistemas de informação diferentes, esta prática demanda aos gestores de informação científica e tecnológica o conhecimento das bases existentes, e acima de tudo um maior aprofundamento das estruturas e linguagens sob as quais estas informações encontram-se condicionadas, a fim de aplicar técnicas de extração, agrupamento, medição, comparação e contagem dos dados, com o objetivo de obter uma visão qualiquantitativa da produção analisada. Ao visualizar as principais fontes de informações úteis à geração de indicadores científicos e tecnológicos em âmbito nacional, encontramos a Plataforma Lattes do CNPq, que reúne os currículos dos pesquisadores envolvidos no SNCTI, a Biblioteca Nacional de Teses e Dissertações, que agrupa as teses e dissertações produzidas pelos mestrandos e doutorandos, e ainda, o Diretório dos Grupos de Pesquisa no Brasil, que contém informações sobre os grupos de pesquisa e seus membros. Sobre o aspecto qualitativo encontramos o Web 6

XXXV Encontro Nacional de Estudantes de Biblioteconomia, Documentação, Ciência da Informação e Gestão da Informação Escola de Ciência da informação – Universidade Federal de Minas Gerais Belo Horizonte – 15 a 22 de julho de 2012

Qualis, que busca atestar a qualidade da produção através de estratos, que é um índice de qualidade dos artigos publicados. 3 METODOLOGIA Para este trabalho adotou-se a revisão bibliográfica, buscando compreender e dispor os conceitos expressos na literatura científica sobre o assunto, enfatizando a perspectiva da informática e da Ciência da Informação, na tentativa de compreender a estrutura XML e suas possibilidades no que tange à recuperação da Informação através da realização de consultas. Em seguida, realizou-se um breve estudo empírico, na tentativa de uma demonstração prática da aplicabilidade do assunto, visando à associação da teoria e da prática na construção do conhecimento. Para tal, adotou-se os currículos dos docentes da UFPE presentes na Plataforma Lattes, estes foram extraídos através da ferramenta Lattes Extrator, e cedidos pelo Núcleo de Tecnologia da Informação da UFPE (NTI/UFPE). Para a extração dos dados presentes nos currículos, foi utilizado o software Web Harvest (http://webharvest.sourceforge.net/download.php), que possui como principal funcionalidade a realização de consultas em documentos XML, visando recuperar informações contidas em campos determinados pelas tags. 4 ANÁLISE E DISCUSSÃO A estruturação e extração de dados não é uma tarefa trivial, alguns conhecimentos prévios em tecnologia devem ser aplicados com a finalidade de tornar o processo mais ágil e eficiente. Sem dúvida, o processo de criação de sintaxes capazes de retornar a consulta desejada é a etapa mais complicada da extração de dados em documentos XML, pois exige do usuário um entendimento da estrutura sob a qual o documento encontra-se condicionado, e muitas vezes se faz necessário ainda, a validação do documento XML. O processo de validação consiste na verificação dos aspectos sintáticos do documento, verificando se este é compatível com o DTD10 ou XML Schema, que são os principais padrões de definição de dados. Nos experimentos realizados com os currículos Lattes em XML dos docentes da UFPE, buscou-se obter detalhes da produção científica dos pesquisadores, estes dados da produção, posteriormente (em um trabalho futuro) serão estruturados e contabilizados em uma planilha, com a finalidade de realização de análises.

10

Document Type Definition

7

XXXV Encontro Nacional de Estudantes de Biblioteconomia, Documentação, Ciência da Informação e Gestão da Informação Escola de Ciência da informação – Universidade Federal de Minas Gerais Belo Horizonte – 15 a 22 de julho de 2012

Os campos selecionados para a extração foram os seguintes: artigos publicados em periódicos científicos, capítulos de livros publicados, livros publicados, trabalhos publicados em eventos científicos, e palavras-chave presentes nos currículos. A maior contribuição deste trabalho é determinada pelo “como fazer”, ou seja, o método, a maneira de extrair estes dados. Visando padronizar as tarefas, foram criadas sintaxes capazes de atender o universo dos currículos, isto só foi possível devido ao fato dos currículos possuírem um padrão de dados similar.

FIGURA 1 – Sintaxe para extração dos campos (trabalhos publicados em eventos) nos currículos Lattes em formato XML Fonte da figura: dados da pesquisa, 2011.

A figura 1 mostra a sintaxe que possibilitou as extrações dos dados dos artigos publicados nos currículos. Logo no cabeçalho é especificada a versão do XML, neste caso, a 1.0 e a codificação dos caracteres, que é a UTF-8, que se destaca por conseguir representar qualquer caractere universal padrão do Unicode. Abaixo são definidas as variáveis e a codificação de caracteres, que neste caso, é baseada na ISO 8859-1. 8

XXXV Encontro Nacional de Estudantes de Biblioteconomia, Documentação, Ciência da Informação e Gestão da Informação Escola de Ciência da informação – Universidade Federal de Minas Gerais Belo Horizonte – 15 a 22 de julho de 2012

A seguir, é definido o arquivo de entrada (um currículo Lattes em XML) e o diretório onde este se encontra localizado, para depois definir o arquivo de saída, que será um „.txt‟ (arquivo de texto) contendo as informações extraídas. A expressão Xpath é composta pelos campos que irão ser explorados, de onde os dados serão copiados, sua composição é representada por elementos da árvore de arquivos, a figura 1 expressa bem à representação das subordinações e superordenações existentes nos campos, sendo assim, entende-se que TRABALHO-EM-EVENTO pertence a TRABALHOS-EM-EVENTOS que está contido em PRODUÇÃO BIBLIOGRÁFICA. Este modelo hierárquico de representar as informações é uma característica das linguagens XML e XQuery. O CDATA indica que os campos a seguir são de caracteres gerais, logo abaixo, são determinados os atributos do campo Artigos Publicados que serão extraídos (natureza, título do trabalho, ano do trabalho, nome do evento, idioma, classificação do evento e nome completo do autor). Em seguida são determinados aspectos do retorno da consulta, que são os campos selecionados acima. Ao usar como exemplo o campo ano (poderia ser qualquer outro) percebe-se que ele está estruturado na sintaxe da seguinte forma , isto significa que o retorno da consulta será a tag aberta seguida do dado extraído 1997, por exemplo, e tag fechada que é indicada por uma barra entre as tags. Para finalizar, as tags que foram abertas na parte superior do documento são fechadas, conforme solicita o padrão XML.

FIGURA 2 – Parte de um Currículo Lattes em XML Fonte: Dados da pesquisa, 2011.

9

XXXV Encontro Nacional de Estudantes de Biblioteconomia, Documentação, Ciência da Informação e Gestão da Informação Escola de Ciência da informação – Universidade Federal de Minas Gerais Belo Horizonte – 15 a 22 de julho de 2012

A figura 2 mostra parte de um currículo Lattes em XML, onde a parte de produção bibliográfica e trabalhos de eventos se encontram estruturadas, é este arquivo, no formato XML, que é oferecido como entrada ao software Web Harvest que vai processar a consulta XQuery e suas expressões XPath, que vão especificar os elementos a serem extraídos.

FIGURA 3 – Interface de consulta do Web Harvest Fonte: Software Web Harvest em execução, dados da pesquisa, 2011.

Após executar o Web Harvest sobre o currículo em XML, os resultados são gerados no modelo expresso abaixo: 6360027208494081 Desenvolvimento de metodologia para a geração de indicadores científicos do estado de Pernambuco: análise preliminar Fabio Mascarenhas e Silva Natanael Vitor Sobral XVIII Congresso de Iniciação Científica da UFPE RESUMO_EXPANDIDO 2010 Português LOCAL Desenvolvimento de metodologia para a geração de indicadores científicos do estado de Pernambuco: análise preliminar da produção de administração de 2001 a 2010 Fabio Mascarenhas e Silva Natanael Vitor Sobral Encontro de Iniciação Científica e Fórum Científico RESUMO 2010 Português LOCAL 10

XXXV Encontro Nacional de Estudantes de Biblioteconomia, Documentação, Ciência da Informação e Gestão da Informação Escola de Ciência da informação – Universidade Federal de Minas Gerais Belo Horizonte – 15 a 22 de julho de 2012

INDICADORES CIENTÍFICOS: uma análise da Produção do Programa de Pós-Graduação em Sociologia (PPGS) da UFPE a partir dos currículos da Plataforma Lattes (PL) Guilherme Alves de Santana Márcio Henrique Wanderley Ferreira Fabio Mascarenhas e Silva Natanael Vitor Sobral Encontro Regional dos Estudantes de Biblioteconomia, Documentação, Ciência da Informação e Gestão da Informação - EREBD COMPLETO 2011 Português REGIONAL Acesso e Uso de Informações na Web: O Caso das Pequenas e Médias Empresas (PMEs) vinculadas ao Porto Digital (PD) Guilherme Alves de Santana Márcio Henrique Wanderley Ferreira Marcella Barbosa Cesar Figueiredo Nilton Heck dos Santos Natanael Vitor Sobral Encontro Regional dos Estudantes de Biblioteconomia, Documentação, Ciência da Informação e Gestão da Informação - EREBD COMPLETO 2011 Português REGIONAL ANÁLISE DE REDES SOCIAIS: um estudo sobre os Programas de Pós-Graduação em Administração do estado de Pernambuco Fabio Mascarenhas e Silva Natanael Vitor Sobral II Encontro de Estudos Sobre Tecnologia, Ciência e Gestão da Informação COMPLETO 2011 Português LOCAL Análise da produção do Departamento de Ciência da Informação da UFPE indexada no Portal de Periódicos da CAPES Ielma Costa Ferro Maria Dalva Nunes Pereira Natanael Vitor Sobral II Encontro de Estudos Sobre Tecnologia, Ciência e Gestão da Informação RESUMO_EXPANDIDO 2011 Português LOCAL

O número no cabeçalho do resultado refere-se ao código Lattes do currículo, logo abaixo, entre as tags, são colocados os dados textuais, contendo o conteúdo dos campos que foram extraídos. Sendo assim, fica disposto que, o título do primeiro trabalho recuperado é Desenvolvimento de metodologia para a geração de indicadores científicos do estado de Pernambuco, seus autores são: Fábio Mascarenhas e Silva e Natanael Vitor Sobral, o evento onde este foi publicado foi o XVIII congresso de iniciação científica da UFPE, sua natureza, 11

XXXV Encontro Nacional de Estudantes de Biblioteconomia, Documentação, Ciência da Informação e Gestão da Informação Escola de Ciência da informação – Universidade Federal de Minas Gerais Belo Horizonte – 15 a 22 de julho de 2012

ou tipologia é um resumo expandido, publicado em 2010 no idioma português, em um evento local. Logo em seguida, na mesma sequência são recuperados os outros trabalhos de evento do autor Natanael Vitor Sobral (código Lattes 6360027208494081) contendo os seguintes metadados dos trabalhos: título, autor, evento, natureza, ano, idioma e classificação. Essas informações são oferecidas no formato de texto e podem ser exportadas para planilhas de cálculo a fim de contabilizar os dados e identificar aspectos comuns da produção. 5 CONSIDERAÇÕES FINAIS A recuperação de documentos em XML é uma técnica que pode ser aplicada em diversos segmentos, tanto no contexto Web, como no gerenciamento de documentos off-line (fora da rede). Possuir informação é estratégico para as organizações públicas e privadas, pois só a informação poderá trazer a real condição destas organizações, do mercado no qual estão inseridas, e dos seus concorrentes, permitindo que estas elaborem sua estratégia e medidas de posicionamento no mercado. No contexto dos métodos quantitativos (bibliometria, cientometria e informetria) fica claro que uma eficiente recuperação das informações é o primeiro passo para a geração de indicadores confiáveis, que atendam aos mais exigentes critérios de qualidade, podendo indicar assim, uma representação quantificável de uma situação ou fenômeno. Como a gestão de CT&I no Brasil a cada dia que se passa encara novos desafios proporcionados pela necessidade de aumento quantitativo e qualitativo da produção, proporcionado pelo crescimento do país, fica evidente a necessidade de técnicas que conduzam este segmento à uma gestão da informação eficiente, que o torne competitivo no cenário internacional, em especial com os países de porte semelhante ao seu, como é o caso dos BRICS (Brasil, Rússia, Índia, China e África do Sul). Afinal, são estas informações que vão direcionar as políticas de ciência e tecnologia do país. Em paralelo a isto, percebe-se que muitos dos dados que podem servir de insumos para a geração destes indicadores estratégicos de CT&I estão estruturados em formatos e linguagens que podem ser melhor explorados, como é o caso do XML. Portanto, conclui-se com este trabalho, mesmo sendo ainda uma pesquisa preliminar, que a recuperação de informações em XML favorecem a geração de indicadores em CT&I, permitindo maior automatização na recuperação dos dados, poupando tempo e dinheiro, entretanto é preciso destacar que estes dados precisam ser aperfeiçoados para possuir utilidade, inclusive no que tange à apresentação destas informações, que ainda é carente. 12

XXXV Encontro Nacional de Estudantes de Biblioteconomia, Documentação, Ciência da Informação e Gestão da Informação Escola de Ciência da informação – Universidade Federal de Minas Gerais Belo Horizonte – 15 a 22 de julho de 2012

Futuramente, como novos desafios, buscaremos aplicações da RI em documentos XML numa massa documental maior com a finalidade de validar a técnica, fazendo ainda o tratamento bibliométrico dos dados para que a apresentação dos indicadores seja mais amigável e apresentável aos tomadores de decisão.

13

XXXV Encontro Nacional de Estudantes de Biblioteconomia, Documentação, Ciência da Informação e Gestão da Informação Escola de Ciência da informação – Universidade Federal de Minas Gerais Belo Horizonte – 15 a 22 de julho de 2012

6 REFERÊNCIAS ALMEIDA, M. B. Uma introdução ao XML, sua utilização na Internet e alguns conceitos complementares. Ciência da Informação, Brasília, v. 31, n. 2, p. 5-13, 2002. BAX, M. P. Introdução às linguagens de marcas. Ciência da Informação, Brasília, v.30, n.1, p.32-38, 2001. CORREA, Renato Fernandes. Processamento de Arquivos XML. Recife, UFPE, 2011. (Comunicação oral) ____________. Linguagens de produção da informação. Recife, UFPE, 2011. (Comunicação oral) FUNDAÇÃO DE AMPARO À PESQUISA DO ESTADO DE SÃO PAULO (FAPESP). Indicadores de ciência, tecnologia e inovação em São Paulo: 2001. Organização de Francisco Romeu Landi. São Paulo: FAPESP, 2002. p.488.

14

Lihat lebih banyak...

Comentários

Copyright © 2017 DADOSPDF Inc.