Desenvolvimento de testes e questionarios para avaliacao do desempenho educacional

Share Embed


Descrição do Produto

Public Disclosure Authorized

Public Disclosure Authorized

Public Disclosure Authorized

Public Disclosure Authorized

45411

Preencha a ficha de cadastro no final deste livro e receba gratuitamente informações sobre os lançamentos e as promoções da Elsevier. Consulte também nosso catálogo completo, últimos lançamentos e serviços exclusivos no site www.elsevier.com.br

Do original: Developing Tests and Questionnaires for a National Assessment of Educational Achievement Copyright © 2008, by The international Bank for Reconstruction and Development/The World Bank Publicado originalmente em Inglês pelo Banco Mundial. Em caso de discrepâncias, prevalecerá a versão original em inglês. Esta obra foi elaborada pela equipe do Banco Internacional para Reconstrução e Desenvolvimento/Banco Mundial. As afirmações, interpretações e conclusões aqui contidas não expressam necessariamente a opinião dos diretores executivos da instituição ou dos governos que eles representam. O Banco Mundial não garante a exatidão dos dados incluídos nesta publicação. As fronteiras, cores, denominações e outras informações mostradas em qualquer mapa neste estudo não implicam nenhuma opinião da parte do Banco Mundial em relação à situação jurídica de qualquer território, bem como o endosso ou a aceitação de suas fronteiras. This work was originally published by The World Bank in English as National Assessments of Educational Achievement, Volume 2: Developing Tests and Questionnaires for a National Assessment of Educational Achievement in 2008. This Brazilian Portuguese translation was arranged by Elsevier Brazil. Elsevier Brazil is responsible for the quality of translation. In case of any discrepancies, the original language will govern. The findings, interpretations, and conclusions expressed herein are those of the author(s) and do not necessarily reflect the views of the Executive Directors of The World Bank or the governments they represent. The World Bank does not guarantee the accuracy of the data included in this work. The boundaries, colors, denominations, and other information shown on any map in this work do not imply any judgement on the part of The World Bank concerning the legal status of any territory or the endorsement or acceptance of such boundaries. Direitos e permissões O material contido nesta publicação é protegido por direito autoral. A cópia e/ou transmissão sem permissão de uma parte ou de todo o conteúdo poderão ser consideradas violação da lei aplicável. O Banco Internacional para Reconstrução e Desenvolvimento/Banco Mundial estimula a disseminação desta obra e normalmente permitirá com rapidez a reprodução de trechos deste relatório. Para obter permissão de fotocópia ou reimpressão de qualquer parte deste livro, envie um pedido contendo informações completas para Copyright Clearance Center Inc., 222 Rosewood Drive, Danvers, MA 01923, USA; telefone: 978-750-8400; fax: 978-750-4470; Internet: www.copyright.com. Todas as outras perguntas sobre direitos e licenças, inclusive direitos subsidiários, devem ser dirigidas ao Office of the Publisher, The World Bank, 1818 H Street NW, Washington, DC 20433, USA. Fax: 202-522-2422; e-mail: [email protected] © 2011, The International Bank for Reconstruction and Development/The World Bank Todos os direitos reservados e protegidos pela Lei no 9.610, de 19/02/1998. Copidesque: Shirley Lima da Silva Braz Revisão: Andréa Campos Bivar e Jussara Bivar Editoração Eletrônica: Estúdio Castellani Elsevier Editora Ltda. Conhecimento sem Fronteiras Rua Sete de Setembro, 111 – 16o andar 20050-006 – Centro – Rio de Janeiro – RJ – Brasil Rua Quintana, 753 – 8o andar 04569-011 – Brooklin – São Paulo – SP – Brasil Serviço de Atendimento ao Cliente 0800-0265340 [email protected] ISBN 978-85-352-3961-4 Edição original: ISBN 978-0-8213-7497-9 CIP-Brasil. Catalogação-na-fonte Sindicato Nacional dos Editores de Livros, RJ A561d

Anderson, Prue, 1954Desenvolvimento de testes e questionários para avaliação do desempenho educacional / Prue Anderson e George Morgan ; tradução Maria Lúcia de Oliveira. – Rio de Janeiro : Elsevier, 2011. il. – (Pesquisas do Banco Mundial sobre avaliações de desempenho educacional ; v. 2) Tradução de: Developing tests and questionaires for a national assessment of educational achievement Apêndice Inclui bibliografia ISBN 978-85-352-3961-4 1. Testes e medidas educacionais – Estados Unidos. 2. Avaliação educacional – Estados Unidos. 3. Rendimento escolar – Estados Unidos. I. Morgan, George, 1945-. II. Título. III. Série.

10-4461.

CDD: 371.261 CDU: 37.091.26

AGRADECIMENTOS

U

ma equipe conduzida por Vincent Greaney (consultor do Grupo de Educação da Rede de Desenvolvimento Humano do Banco Mundial) e Thomas Kellaghan (Centro de Pesquisas Educacionais, St. Patrick’s College, Dublin) preparou a série da qual este é o Volume 2. Também contribuíram para a série: Sylvia Acana (Uganda National Examinations Board), Prue Anderson (Australian Council for Educational Research), Fernando Cartwright (Canadian Council on Learning), Jean Dumais (Statistics Canada), Chris Freeman (Australian Council for Educational Research), Hew Gough (Statistics Canada), Sara Howie (University of Pretoria), George Morgan (Australian Council for Educational Research), T. Scott Murray (UNESCO Institute e Statistics) e Gerry Shiel (Educational Research Centre, St. Patrick’s College, Dublin). O trabalho foi realizado sob a direção geral de Ruth Kagia, diretora do Setor de Educação do Banco Mundial, e Robin Horn, gerente do Setor de Educação. Robert Prouty iniciou e supervisionou o projeto até agosto de 2007. Marguerite Clarke supervisionou as últimas etapas, até a revisão e a publicação. Somos gratos às contribuições do painel de revisão: Al Beaton (Boston College), Irwin Kirsch (Educational Testing Service) e Benoit Millot (Banco Mundial). Comentários adicionais muito úteis foram feitos por

Helen Abadzi, Regina Bendokat, Marguerite Clarke, Robin Horn, Elizabeth King, Maureen Lewis, Harry Patrinos, Carlos Rojas, Jee-Peng Tan, Eduardo Velez e Raisa Venalainen. Recebemos valiosos subsídios e apoio de Carly Cheevers, David Harding, Aidan Mulkeen, Aleksandra Sawicka, Thi Tran, Hilary Walshe e Hans Wagemaker. Desejamos agradecer às seguintes instituições a permissão de reproduzir seu material no texto: Australian Council for Educational Research (Conselho Australiano de Pesquisas Educacionais), Educational Research Centre, Dublin (Centro de Pesquisas Educacionais, Dublin); International Association for the Evaluation of Educational Achievement (Associação Internacional para Avaliação do Aproveitamento Escolar); Massachusetts Department of Education (Departamento de Educação de Massachusetts); National Center for Education Statistics of the U.S. Department of Education (Centro Nacional de Estatísticas de Educação do Departamento de Educação, EUA), Organisation for Economic Cooperation and Development (Organização para a Cooperação e o Desenvolvimento Econômico, OCDE) e Papua New Guinea Department of Education (Departamento de Educação de Papua Nova Guiné). A diagramação, a edição e a produção dos livros foram coordenados por Mary Fisk e Paola Scalabrin, do Escritório de Publicações do Banco Mundial. O Irish Educational Trust Fund; o Bank Netherlands Partnership Program; o Educational Research Center, Dublin, e o Australian Council for Educational Research deram generoso apoio à preparação e publicação desta série. A tradução desta série para o português só foi possível com o generoso apoio da Russia Education Aid for Development Trust Fund.

PREFÁCIO

A

qualidade de qualquer exercício de avaliação escolar depende da qualidade dos instrumentos utilizados. De fato, se esses instrumentos estiverem mal concebidos, a avaliação pode ser uma perda de tempo e dinheiro. Este livro descreve como desenvolver instrumentos tecnicamente robustos para uma avaliação nacional do aproveitamento escolar, com foco especial na realização dessa tarefa em países em desenvolvimento. O Volume 1 descreve os principais objetivos e características de avaliações nacionais e se destina principalmente a formuladores de políticas e responsáveis por decisões na área da educação. O segundo livro e a maior parte dos seguintes fornecem, passo a passo, os detalhes sobre desenho, implementação, análise e apresentação das constatações de uma avaliação nacional e se destinam principalmente às equipes de avaliação nacional. Desenvolvimento de testes e questionários para avaliação do desempenho educacional aborda a elaboração de dois tipos de instrumentos de coleta de dados: testes de aproveitamento dos alunos e questionários sobre fatores socioeconômicos e contextuais. A Parte I cobre o desenvolvimento de um marco de referência da avaliação, a construção de uma tabela de especificações para o teste, a elaboração de itens, a realização do préteste (ou teste piloto) e a formatação do teste final. A Parte II delineia as etapas e atividades observadas na construção de questionários sobre fa-

tores socioeconômicos e contextuais. Os questionários serão usados para obter informações sobre alunos, professores, diretores ou pais relativas a variáveis que poderiam ajudar a explicar as diferenças no desempenho dos alunos no teste de aproveitamento. A Parte III descreve como criar um manual para aplicação do teste, de forma a garantir que todos os alunos façam o teste em condições padronizadas. O Volume 3 enfoca questões práticas que devem ser levadas em conta na implementação de um programa de avaliação nacional em larga escala, incluindo logística, amostragem e limpeza e gerenciamento de dados. O Volume 4 trata de como gerar dados sobre itens e sobre pontuações de testes e como estabelecer relação entre as pontuações do teste e outros fatores educacionais. Finalmente, o Volume 5 aborda como redigir relatórios com base nas constatações da avaliação nacional e como usar os resultados para aprimorar a qualidade do processo decisório das políticas educacionais. À medida que os leitores avançarem na leitura deste volume, deve ficar evidente que o desenvolvimento de instrumentos de avaliação é um exercício complexo, que demanda muito tempo e requer conhecimentos, habilidades e recursos consideráveis. Ao lado disso, a experiência tem demonstrado que os benefícios resultantes de instrumentos bem concebidos podem ser substanciais em termos da qualidade da informação fornecida sobre os níveis de aproveitamento dos alunos e sobre os fatores escolares e não escolares que poderiam contribuir para elevar aqueles níveis de aproveitamento. Instrumentos de boa qualidade podem fazer com que as constatações sejam vistas como mais confiáveis pelos formuladores de políticas e por outros interessados. Também podem aumentar a probabilidade de que os formuladores de políticas usem os resultados de uma avaliação nacional para desenvolver planos e programas sólidos destinados a aprimorar a qualidade do ensino. Se os resultados dos testes e questionários alcançarem esses resultados, estarão mais que justificados o tempo e o esforço envolvidos em seu desenvolvimento. Marguerite Clarke Especialista Sênior em Educação Banco Mundial

OS AUTORES E ORGANIZADORES

AUTORES

Prue Anderson é pesquisadora sênior do Conselho Australiano de Pesquisas Educacionais (Australian Council for Educational Research). Desenvolveu materiais de avaliação da leitura para programas de testes de sistemas educacionais com alunos dos ensinos fundamental e médio. Tem trabalhando com programas de acompanhamento educacional na Austrália, em Brunei, Papua Nova Guiné e nas Filipinas. Atualmente, é gerente de projetos do programa de Avaliação de Escolas Internacionais. Outras áreas de seu interesse profissional incluem (1) mapeamento de dados de avaliação e sua comparação com resultados do currículo e marcos de referência e (2) mensuração de resultados sociais da educação. George Morgan é consultor educacional. Foi pesquisador sênior da Divisão de Mensuração e chefe do Grupo de Desenvolvimento de Testes de Matemática e Ciências do Conselho Australiano de Pesquisas Educacionais durante quase 30 anos. Desenvolveu currículos de matemática e ciências e materiais de avaliação em todos os níveis educacionais, e trabalhou com programas de testes em grande escala. Mais recentemente, tem-se dedicado a projetos de avaliação no Camboja, Timor Leste, na República Democrática Popular do Laos, em Papua Nova Guiné e Samoa.

ORGANIZADORES

Vincent Greaney é consultor educacional. Foi especialista-chefe de educação do Banco Mundial e trabalhou em diversos países da África, Ásia e do Oriente Médio. Ex-professor; pesquisador do Centro de Pesquisas Educacionais do St. Patrick’s College, Dublin; e professor visitante Fulbright na Western Michigan University, Kalamazoo; é membro do Hall of Fame de Leitura da Associação Internacional de Leitura. Suas áreas de interesse incluem avaliação, educação de professores, leitura e promoção da coesão social por meio da reforma de livros didáticos. Thomas Kellaghan é diretor do Centro de Pesquisas Educacionais do St. Patrick’s College, Dublin, e é membro da Academia Internacional de Educação. Trabalhou na University of Ibadan na Nigéria e na Queen’s University em Belfast. Suas áreas de interesse em pesquisa incluem avaliações e exames, condições adversas para a educação e relações casa-escola. Foi presidente da Associação Internacional para Avaliação Escolar de 1997 a 2001. Trabalhou com questões de avaliação na África, Ásia, América Latina e no Oriente Médio.

SUMÁRIO

PARTE I: A CONSTRUÇÃO DE TESTES DE APROVEITAMENTO

1

1

INTRODUÇÃO

3

2

DESENVOLVIMENTO DE UM MARCO DE REFERÊNCIA DA AVALIAÇÃO

9

3

Tabela de especificações do teste Validade Idioma do teste Formato do item População-alvo de alunos a ser avaliada Apresentação de resultados Contextos

11 17 17 18 25 26 27

ELABORAÇÃO DE ITENS

29

Grau de dificuldade do item Tendenciosidade do item Material de estímulo Formato do item Itens de prática Diagramação e elaboração dos itens A equipe de elaboração de itens Painéis de itens Outros revisores Rastreamento de itens

31 33 33 36 48 49 55 59 62 63

4

PRÉ-TESTE DE ITENS

67

Desenho do formulário do pré-teste Impressão e revisão do pré-teste Realização do pré-teste Pontuação do pré-teste Confiabilidade

70 75 78 79 84

5

SELEÇÃO DE ITENS DO TESTE

87

6

PRODUÇÃO DO TESTE FINAL

93

Desenho do teste final Impressão e revisão

93 96

7

PONTUAÇÃO MANUAL DOS ITENS DO TESTE

101

PARTE II: CONSTRUÇÃO DE QUESTIONÁRIOS 8

9

10

11

DESENHO DE QUESTIONÁRIOS

109

Conteúdo do questionário Tabela de especificações do questionário Itens do questionário Formato do item Idioma do questionário Respondentes Aplicação do questionário Plano de análise de dados

111 116 116 119 120 121 122 122

ELABORAÇÃO DE ITENS DE QUESTIONÁRIOS

125

Questões Afirmações Categorias de respostas Lidando com questões delicadas Diagramação do questionário Revisão dos questionários

126 126 127 129 130 131

CODIFICAÇÃO DAS RESPOSTAS DOS QUESTIONÁRIOS

133

Preparação dos questionários para a entrada de dados Códigos em branco ou respostas ambíguas

135 135

CORRESPONDÊNCIA ENTRE QUESTIONÁRIOS E DADOS DO TESTE

137

Questionários dos alunos

137

Questionários dos pais Questionários do professor e do diretor

138 139

PARTE III: DESENHO DE UM MANUAL PARA APLICAÇÃO DO TESTE

141

12

O MANUAL DO APLICADOR DE TESTE

143

Conteúdo do manual Uso do manual Características de um manual Quanto de detalhe é necessário? Questões de prática Teste dos itens Revisão

144 145 146 148 149 149 151

O APLICADOR DO TESTE

153

Escolha do aplicador do teste Observação de instruções Garantia da qualidade Lista de verificação do aplicador

153 154 156 156

INFORMANDO AS ESCOLAS SOBRE A AVALIAÇÃO NACIONAL

159

13

14

APÊNDICES A

GLOSSÁRIO

161

B

LEITURA ADICIONAL

167

C

EXEMPLOS DE ITENS DE TESTE E DE QUESTIONÁRIO E MANUAIS DE APLICAÇÃO

171

Itens do teste de aproveitamento Questionários Manuais Agradecimentos

172 173 173 174

ÍNDICE

177

QUADROS 2.1 2.2 2.3 2.4 2.5 2.6 3.1 3.2 3.3 3.4 3.5 3.6 3.7 3.8 3.9 3.10 3.11 3.12 3.13 3.14 3.15 3.16 3.17 3.18 3.19 3.20 4.1 4.2 6.1 8.1 9.1 9.2 10.1 10.2 12.1

Currículo de Matemática em Papua Nova Guiné Currículo de Inglês da Nova Zelândia Exemplos de Itens de Múltipla Escolha Exemplo de um Item de Resposta Fechada Exemplos de Questões Abertas de Resposta Curta Exemplo de um Estímulo para Redação Exemplo de Material de Estímulo Irrelevante Exemplo de um Item com Informação Inexata ou Enganosa Exemplo de um Item de Múltipla Escolha Pontuação em Sentenças Completas Pontuação numa Lista Reduzindo a Leitura Item com um Comando Negativo Distratores Mal Emparelhados Lidando com Pares de Distratores Item Aberto Confuso com Instruções Pouco Claras Bom Exemplo de um Item de Resposta Fechada Item com Crédito Parcial Exemplo de um Item de Resposta Aberta com Guia de Pontuação Exemplo de um Item Fechado com Guia de Pontuação Uso de Imagens para Reduzir Palavras Como Simplificar as Imagens Como Dar Nomes Claros aos Gráficos Como Dar Nomes Claros aos Mapas Deixando Espaço no Material de Estímulo Exemplo de Folha de Estilo para Elaboradores de Itens Exemplo de um Item nos Formatos de Múltipla Escolha e Aberto Exemplo de uma Folha de Entrada de Dados para o Pré-teste Exemplo de uma Folha de Rosto de Teste Atitudes e Valores da Tabela de Especificações do Questionário Alinhamento Ruim de Caixas e Categorias de Respostas Melhor Alinhamento de Caixas e Categorias de Respostas Exemplo de Codificação em Escala Cinza Exemplo de Tratamento de Itens como Categorias Separadas para a Entrada de Dados Instruções do Manual de Aplicação

11 12 19 20 20 21 35 35 37 38 38 39 39 40 40 43 44 45 46 47 51 52 52 53 54 58 79 81 94 117 130 131 134 134 147

12.2 Informação para Professores e Diretores 12.3 Aplicação de Itens de Prática 13.1 Lista de Verificação da Aplicação: Um Exemplo das Filipinas

148 149 157

FIGURAS 1.1 1.2 4.1 4.2 C.1

Fluxograma de uma Avaliação Nacional Visão Geral das Atividades de Avaliação Nacional Exemplo de Ligação Circular de Itens Modelo para Ligação Vertical de Itens Guia dos Materiais Encontrados na Internet sobre Testes, Questionários e Manuais

4 5 71 73 172

TABELAS 1.1 2.1 2.2 2.3 2.4 2.5 4.1 4.2 5.1 5.2 8.1 8.2

Etapas da Avaliação Nacional para Desenvolvimento de Teste e Elaboração de Questionário 6 Tabela de Especificações para um Teste de Matemática do Primeiro Ciclo do Ensino Fundamental 13 a e 4a Séries 14 Tabela de Especificações de Matemática do TIMMS, 3 Tabela de Especificações do Conteúdo de Matemática em Papua Nova Guiné 16 Vantagens e Limitações de Diferentes Formatos de Itens 24 Formato de Itens do Teste de Matemática de Papua Nova Guiné 25 Itens de Ligação em Duas Unidades de Leitura 74 Parte de uma Planilha para Rastrear Itens em Diferentes Formulários 75 Exemplo de Resultado da Análise de um Item de Múltipla Escolha 88 Exemplo de Resultado da Análise de um Item Aberto de Crédito Parcial 90 Componentes do Desenvolvimento de Questionário 112 Funções da Leitura num Estudo Internacional: Pesos Usados para Criar Duas Novas Variáveis , “Leitura com um Objetivo Utilitário” e “Leitura por Prazer” 118

ABREVIAÇÕES

ACPA CCN ID NAEP PIRLS PISA TCT TIMSS TRI

Alocação do Caderno de Prova do Aluno Comissão de Coordenação Nacional Número de Identificação Avaliação Nacional do Progresso Educacional – Estados Unidos Estudo Internacional sobre o Progresso do Letramento em Leitura Programa Internacional de Avaliação de Alunos Teoria Clássica dos Testes Estudo das Tendências Internacionais no Estudo de Matemática e Ciências Teoria de Resposta ao Item

PA R T E

I

A CONSTRUÇÃO DE TESTES DE APROVEITAMENTO

CAPÍTULO

1

INTRODUÇÃO

U

ma avaliação nacional envolve muitas atividades, desde o momento em que se decide realizá-la até o momento em que alguém começa a ler um relatório com as constatações. Cada livro desta série de cinco volumes descreve algumas das atividades envolvidas numa avaliação nacional, com ênfase especial na realização dessa avaliação em países em desenvolvimento. Provavelmente, parte da tecnologia necessária para realizar uma avaliação nacional satisfatória em países que carecem de forte tradição em pesquisas educacionais empíricas não estará disponível localmente. Portanto, esta série buscou explicar em detalhes as atividades de uma avaliação e, onde se mostrar relevante, ajudar os leitores (que, presumimos, serão os responsáveis por pelo menos alguns dos aspectos de uma avaliação) a compreender por que é necessário desenvolver essas atividades. O Ministério da Educação ou a comissão de coordenação nacional (CCN) nomeada por ele terão, usualmente, a responsabilidade geral de orientar e apoiar uma avaliação nacional. Sob a supervisão do ministério ou da CCN, a maior parte do trabalho será realizada por um órgão de implementação que, por sua vez, supervisionará o trabalho do gerente de desenvolvimento de teste, dos especialistas em cada dis-

4 | SÉRIE P ESQ UISAS DO BA NC O M U NDI AL SOB R E AVAL I AÇ ÕE S DE DE SE M PE NH O E DU C AC I ONAL

ciplina e dos especialistas em análise estatística, além de ser o responsável pelas providências logísticas envolvidas na realização da avaliação nacional. Este livro, Desenvolvimento de testes e questionários para avaliação do desempenho educacional, cobre, basicamente, as atividades do gerente de desenvolvimento de teste e dos especialistas nas disciplinas, bem como as providências para o pré-teste (veja Figura 1.1). Outros tópicos que aparecem na Figura 1.1, tais como amostragem, aspectos logísticos da avaliação (inclusive o contato com as escolas) e entrada e limpeza de dados, são abordados no Volume 3, e o Volume 4 cobre a análise estatística. O fluxograma mostrado na Figura 1.2 resume os vários passos de uma avaliação nacional. Muitos dos passos estão descritos neste livro; os quadros ou atividades reticuladas referem-se aos aspectos da avaliação que

FIGURA 1.1

Fluxograma de uma Avaliação Nacional Ministério da Educação/ Comissão de Coordenação Nacional Órgão implementador/ Líder da equipe

Desenvolvimento do teste/Gerente Especialistas nas disciplinas Análise de currículo, desenvolvimento do marco de referência, elaboração de itens, pré-teste, seleção de itens finais, interpretação de resultados Pré-teste do teste e de itens do questionário Seleção de itens finais Interpretação de resultados Elaboração de relatório

Fonte: Elaborado pelo autor.

Análise

Logística

Amostragem Entrada e limpeza de dados Análise estatística

Administração do pré-teste Contato com as escolas Impressão

8. O órgão implementador realiza o pré-teste.

13. O órgão implementador providencia a impressão de testes, questionários e manuais.

18. O órgão implementador elabora versões preliminares de relatórios e os submete ao Ministério da Educação ou à CCN e outros para revisão.

9. O gerente de desenvolvimento de teste supervisiona a revisão de itens e questões e realiza pré-testes adicionais, se necessário.

12. O órgão implementador seleciona a amostra de escolas.

19. O Ministério da Educação ou a CCN publica os relatórios.

10. O líder da equipe e o gerente de desenvolvimento de teste supervisionam a elaboração preliminar da versão final dos itens, questionários e do manual de aplicação.

11. O órgão implementador organiza painel de revisão.

20. O Ministério da Educação e outros utilizam os resultados.

Fonte: Autores.

3. O órgão implementador, o líder da equipe, o gerente de desenvolvimento de teste e os especialistas nas disciplinas elaboram a versão preliminar da tabela de especificações dos testes e questionários.

2. O Ministério da Educação ou a CCN e outros concordam com o marco de referência (inclusive a respeito dos temas e da população-alvo a ser testada).

1. O Ministério da Educação ou a CCN indica o órgão implementador. O líder da equipe e o órgão implementador elaboram a versão preliminar do marco de referência da avaliação nacional.

Visão Geral das Atividades de Avaliação Nacional

FIGURA 1.2

16. O órgão implementador supervisiona a pontuação dos testes, gravando todos os resultados e fazendo a limpeza dos dados.

15. O órgão implementador supervisiona a aplicação da avaliação nacional.

14. O órgão implementador treina aplicadores de teste e questionário, usando o manual.

17. O órgão implementador analisa os dados.

6. O gerente de desenvolvimento de teste e o líder da equipe supervisionam a versão preliminar dos itens, das questões e do manual de aplicação.

5. O gerente de desenvolvimento de teste treina os elaboradores de itens.

7. O órgão implementador organiza painel de revisão.

4. Os especialistas nas disciplinas analisam o currículo e esclarecem os objetivos.

3

2

1

Etapa

2 semanas 1 semana

Fazer a entrada de dados do pré-teste.

2 a 3 semanas

Embalar e distribuir pré-testes e versão preliminar dos questionários.

Manual de pontuação de itens (se requerida).

2 semanas

Imprimir pré-testes e versão preliminar dos questionários.

2 a 3 semanas

4 semanas

Produzir pré-testes e versão preliminar de questionários.

Aplicar pré-testes e versão preliminar dos questionários nas escolas.

12 a 14 semanas (20 a 30 itens por elaborador por semana)

Elaborar itens do teste e do questionário.a

4 a 6 semanas

Criar a tabela de especificações e fazer amplas consultas para aprovação.

Órgão implementador, analista de dados e pessoal de entrada de dados

Líder da equipe, gerente de desenvolvimento de teste, especialistas nas disciplinas e elaboradores de itens

Órgão implementador e aplicadores de teste

Órgão implementador

Órgão implementador, líder da equipe, gerente de desenvolvimento de teste e elaboradores de itens

Líder da equipe, gerente de desenvolvimento de teste, elaboradores de itens, profissionais de design e diagramação, e revisores

Gerente de desenvolvimento de teste, especialistas nas disciplinas, elaboradores de itens e principais interessados

O Ministério da Educação ou a CCN, órgão implementador, gerente de desenvolvimento de teste, grupo de especialistas, professores experientes, especialistas nas disciplinas, analista de dados, elaboradores de itens com experiência, principais interessados e formuladores de políticas

Pessoas envolvidas O Ministério da Educação ou a CCN, o órgão implementador, especialmente o líder da equipe, o gerente de desenvolvimento de teste, os principais interessados e formuladores de políticas

Duração aproximada 4 semanas

Preparar o marco de referência da avaliação; esclarecer o objetivo da avaliação nacional, dos testes e questionários; e selecionar a população a ser avaliada.

Atividade

Etapas da Avaliação Nacional para Desenvolvimento de Teste e Elaboração de Questionário

TABELA 1.1

4 a 5 semanas

2 a 3 semanas

Analisar dados.

Produzir relatórios finais.

4 a 6 semanas

Entrar dados e limpar.

3 a 4 semanas

Pontuação manual de itens (se requerida).

2 a 3 semanas (dependendo de distância e acessibilidade)

Embalar e distribuir testes e questionários.

3 a 4 semanas

4 semanas

Imprimir testes e questionários.

Aplicar testes e questionários em escolas.

2 semanas

2 semanas

Selecionar itens para testes e questionários.

Produzir testes finais, questionários e manuais de aplicação.

2 semanas

Analisar dados do pré-teste e do questionário.

Analista de dados, elaboradores de itens e gerente de desenvolvimento de teste

Analista de dados, elaboradores de itens e gerente de desenvolvimento de teste

Analista de dados e pessoal de entrada de dados

Gerente de desenvolvimento de teste e elaboradores de itens

Órgão implementador, gerente de desenvolvimento de teste, e aplicadores de teste

Órgão implementador e gerente de desenvolvimento de teste

Órgão implementador, líder da equipe, e gerente de desenvolvimento de teste

Órgão implementador, gerente de desenvolvimento de teste, profissionais de design e diagramação, revisores e elaboradores de itens

Gerente de desenvolvimento de teste, analistas, elaboradores de itens e principais interessados

Órgão implementador, analista de dados, elaboradores de itens e gerente de desenvolvimento de teste

Fonte: Autores. aSerá necessário alocar tempo adicional se os itens tiverem de ser traduzidos para outros idiomas.

8

7

6

5

4

8 | SÉRIE P ESQ UISAS DO BA NC O M U NDI AL SOB R E AVAL I AÇ ÕE S DE DE SE M PE NH O E DU C AC I ONAL

recebem a maior parte da atenção neste livro. O livro também oferece vários pontos de destaque ou comentários comuns a mais de um aspecto da avaliação; foram repetidos em vários capítulos ou seções para facilitar a compreensão do leitor interessado em um único aspecto da avaliação nacional. Informações adicionais relacionadas com o desenvolvimento do teste e a elaboração de questionários são fornecidas na Tabela 1.1. A tabela descreve o processo de construção de testes de aproveitamento e questionários em oito etapas e também indica as pessoas responsáveis pelos componentes. Em http://go.worldbank.org/M2O1YDQO90 você encontrará muitos exemplos de itens, itens de questionário e manuais de aplicação de teste. Este material, obtido de avaliações nacionais e internacionais, é apresentado para familiarizar as equipes de avaliação nacional com itens e tipos de itens em diversas áreas de currículo e com questionários elaborados para alunos, professores, escolas ou diretores e pais.

CAPÍTULO

2

DESENVOLVIMENTO DE UM MARCO DE REFERÊNCIA DA AVALIAÇÃO

P

ara que se possa determinar os conteúdos de uma avaliação, é fundamental dispor de um marco de referência que forneça um quadro geral ou plano para orientar o desenvolvimento de testes de avaliação, questionários e procedimentos (Linn e Dunbar, 1992; Mullis et al., 2006). Tal marco de referência ajuda a fornecer uma boa compreensão do conceito que está sendo avaliado (por exemplo, aproveitamento em leitura ou matemática) e dos vários processos associados ao conceito. Deve incluir uma definição do que está sendo avaliado, identificar as características das tarefas realizadas durante o desenvolvimento do teste e fornecer uma base para a interpretação dos resultados (Kirsch, 2001; Messick, 1987). Um marco de referência pode ajudar a explicar o objetivo de uma avaliação. Pode facilitar discussões e o processo decisório entre os interessados nas questões educacionais, esclarecendo conceitos-chave antes que se dê início à avaliação. O marco de referência também pode identificar variáveis-chave que tenham a probabilidade de estar associadas aos resultados (a pontuação) do teste, e pode ajudar a garantir que essas variáveis sejam incluídas no projeto da avaliação nacional. Inicialmente, a comissão de coordenação deve concordar quanto à definição do que deve ser medido. Em muitas situações, o documento

10 | SÉRIE P ESQ UISAS DO BA NC O M U NDI AL SOB R E AVAL I AÇ ÕE S DE DE SE M PE NH O E DU C AC I ONAL

de currículo nacional conterá definições das principais áreas. As definições de leitura, por exemplo, têm variado ao longo do tempo e entre sistemas de educação. Em alguns casos, a leitura tem sido entendida como a habilidade de pronunciar palavras. Em outros, leitura se refere à habilidade de identificar palavras individuais e dar seu significado. A leitura também tem sido definida como a habilidade de compreender ou extrair significado de um texto. Definições mais recentes vão além de simples habilidades de decodificação e incluem a habilidade de usar a informação contida nos textos, bem como desenvolver uma compreensão sobre eles. Também reconhecem que alunos e adultos leem por motivos diversos – por prazer ou para obter informação, por exemplo. Essas novas definições refletem-se em testes que incluem diferentes formatos de textos, como pequenos contos, excertos de jornais, anúncios, sinais e gráficos. O objetivo para o qual os dados serão coletados deve estar claro no desenvolvimento do teste. Consultas preliminares com os principais interessados e grupos de especialistas são um primeiro passo crucial para esclarecer o objetivo de uma avaliação nacional e, consequentemente, o que o teste deve avaliar, o que deve ser avaliado, quando deve ser avaliado e em que idioma os testes devem ser feitos. Especialistas em currículo devem ser envolvidos nessas decisões, bem como formuladores de políticas e gestores de educação, que terão condições de usar os resultados de uma avaliação como base para políticas educacionais, alocação de recursos e implementação de reformas. As avaliações nacionais podem ser ferramentas poderosas para avaliar a eficácia de alguns aspectos do currículo. Avaliações bem concebidas também podem reforçar as intenções do currículo ao modelar os tipos de habilidades e entendimentos que os alunos devem ser capazes de demonstrar. Esses tipos de habilidades e os contextos nos quais são avaliados devem operar em conjunto para apoiar objetivos abrangentes de políticas educacionais em áreas-chave de aprendizado. Os exemplos de alguns contextos abrangentes para a realização de avaliações nacionais, apresentados nos Quadros 2.1 e 2.2, refletem diversas prioridades educacionais.

DESENVOLVIMENTO DE TESTES E QUESTIONÁRIOS PARA AVALIAÇÃO DO APROVEITAMENTO ESCOLAR

|

11

TABELA DE ESPECIFICAÇÕES DO TESTE

A tabela de especificações do teste é o documento fundamental que orienta o desenvolvimento do teste, a análise e a elaboração de relatórios. Descreve os dados que precisam ser coletados, define a extensão do teste e especifica a proporção de itens que tratarão dos vários aspectos de um currículo. Uma boa tabela de especificações deve indicar o seguinte:

yA proporção de itens de teste no formulário final que tratam de cada área de currículo (por exemplo, matemática, linguagem, ciências). yA proporção de itens dentro da área de currículo que avaliam diferentes habilidades (por exemplo, em matemática – número, medida, espaço e padrão; na escrita – ideias, conhecimento do conteúdo, estrutura, estilo, vocabulário, soletração e gramática).

QU A D R O 2 . 1

Currículo de Matemática em Papua Nova Guiné O currículo cultural básico de matemática em Papua Nova Guiné para 2003 tem o seguinte fundamento geral: Todos os cidadãos têm o direito de participar do futuro desenvolvimento da Papua Nova Guiné. Por isso, os alunos precisam desenvolver sólidos conhecimentos de matemática, bem como habilidades e compreensões matemáticas.... Os alunos no nível fundamental serão capazes de associar novos conceitos matemáticos contidos nos cinco elementos deste programa a seu conhecimento cultural, de modo que sintam segurança para usar a matemática na vida diária. O curso de Cultura Matemática Elementar fornece muitas oportunidades para um aprendizado relevante e objetivo baseado nos princípios da vida familiar. (Papua Nova Guiné, Departamento de Educação 2003: 2.) O foco deste fundamento (combinado com documentos ministeriais de políticas e com uma substancial reestruturação do ensino fundamental) é inserir a matemática primária na vida cultural dos alunos das aldeias. As reformas têm dado prioridade à integração da matemática primária e da cultura local e à aplicação de entendimentos matemáticos à vida diária. Uma recente avaliação nacional desenvolvida para monitorar o aproveitamento dos alunos enfatizou o uso de contextos realistas para as questões e a avaliação de habilidades e entendimentos que tenham aplicações práticas.

12 | SÉRIE P ESQ UISAS DO BA NC O M U NDI AL SOB R E AVAL I AÇ ÕE S DE DE SE M PE NH O E DU C AC I ONAL

QU A D R O 2 . 2

Currículo de Inglês da Nova Zelândia Os objetivos gerais do currículo de inglês da Nova Zelândia afirmam: Os alunos devem ser capazes de se envolver com a linguagem, apreciá-la em seus variados aspectos e compreender, responder e usar a linguagem oral, escrita e visual efetivamente em diferentes contextos. (Nova Zelândia, Ministério da Educação 2002: 9.) Esses objetivos destacam a importância do interesse e do prazer na leitura e na compreensão de uma ampla variedade de textos. Textos atraentes e tarefas significativas e prazerosas são considerações-chave nas avaliações nacionais de inglês. A ênfase na linguagem em todas as suas variedades reflete um forte compromisso com o reconhecimento e a valorização da cultura oral dos alunos Maori, bem como das formas escrita de inglês. Várias avaliações nacionais refletem esses objetivos.

yA proporção de itens que tratam de diferentes habilidades de processamento cognitivo (como conhecimento ou recuperação/memória, interpretação ou reflexão). yA proporção de itens de múltipla escolha e itens abertos. yA proporção de itens destinados a diferentes tipos de textos de estímulo em leitura (como narrativo, expositivo, processual e argumentativo) ou em matemática (como tabelas, gráficos e diagramas). A tabela de especificações do teste detalhada na Tabela 2.1 baseia-se num currículo de matemática para as séries intermediárias da escola primária. Subtestes separados foram concebidos para medir as habilidades dos alunos de fazer cálculos básicos, compreender conceitos matemáticos e solucionar problemas. Por exemplo, a célula formada pela interseção da área de conteúdo “Frações” e o comportamento intelectual “Habilidade de resolver problemas de rotina” representa o objetivo “Habilidade de resolver problemas de rotina que envolvem frações”. Um comitê de especialistas nas disciplinas, que incluía professores, decidiu devotar cinco itens àquele objetivo. A célula que contém itens que testam a habilidade de realizar operações com números inteiros recebeu a ponderação mais alta (25 itens). Muitas células ficaram vazias (sem itens). Os pesos relativos da importância atribuída a cada objetivo orien-

Fonte: Centro de Pesquisas Educacionais 1978: 44.

40

Total geral

37

0

6. Mapas e gráficos 3

0

2

8

4

26

5. Geometria

2

8

4. Medida

4

25

3. Decimais

1

2. Frações

1. Números inteiros

Áreas de conteúdo

Conceitos

7

2

4

1

7

2

1

4

14

5

2

7

5

3

2

7

2

1

4

40

0

4

5

6

7

18

27

3

5

14

Habilidade de HabiliConheciCompreen- Compreen- Compreentraduzir dade de Habilimento Habilisão de são de são de elementos ler e dade de de dade para conceitos princípios estrutura de um interpretar resolver termos realizar matemámatemámatemá- formulário gráficos e problemas e fatos operações ticos ticos tica para outro diagramas de rotina (A1) (A2) Total (B1) (B2) (B3) (B4) (B5) Total (C1)

Computação

Comportamentos intelectuais

Tabela de Especificações para um Teste de Matemática do Primeiro Ciclo do Ensino Fundamental

TABELA 2.1

6

4

2

Habilidade de analisar e fazer comparações (C2)

2

2

35

4

0

3

5

5

18

115

4

4

10

19

16

62

Habilidade de resolver problemas não rotineiros Total (C3) Total geral

Solução de problemas

14 | SÉRIE P ESQ UISAS DO BA NC O M U NDI AL SOB R E AVAL I AÇ ÕE S DE DE SE M PE NH O E DU C AC I ONAL

taram o desenvolvimento do teste e, posteriormente, a compilação da versão final do teste. A tabela de especificações de matemática do TIMMS (Tendências Internacionais no Estudo de Matemática e Ciências)1 mostrada na Tabela 2.2 define o formato dos itens e os processos cognitivos a serem avaliados nas 3a e 4a séries de uma forma um tanto diferente. Claramente, as tabelas de especificações variam, dependendo de como se compreenda o conceito que está sendo medido e o objetivo da avaliação. Todas as pessoas envolvidas no desenvolvimento do teste devem compreender e aprovar as implicações de uma tabela de especificações no que se refere ao que deve ser testado e ao que deve ficar de fora. TABELA 2.2

Tabela de Especificações de Matemática do TIMMS, 3a e 4a Séries Número total de itensa

Itens de múltipla escolha

Itens de resposta curta

Itens de resposta dissertativa

Conhecimento

42

35

7

0

Desempenho de procedimentos rotineiros

16

13

3

0

Uso de procedimentos complexos

24

21

2

1

Solução de problemas

20

10

3

7

Expectativas de desempenho

Fonte: IEA, http://timss.bc.edu/timss1995i/TIMSSPDF/AMitens.pdf. a O número de itens reflete o total do conjunto usado para formar 26 agrupamentos de teste em oito diferentes cadernos de prova. Nenhum aluno tinha de fazer o teste completo.

Dadas as limitações de tempo e recursos, não é possível testar todos os subelementos de uma área de currículo ou todos os tópicos cobertos num programa. Os itens do teste sempre devem referir-se às habilidades principais. Especialistas em currículo ou em disciplinas específicas devem ser consultados para determinar quais são essas habilidades. A importância dada na tabela de especificações da avaliação nacional aos subelementos ou domínios de um currículo também depende da forma como os dados do teste serão apresentados (por pontuação total ou por domínio do currículo). Os formuladores de políticas educacionais

DESENVOLVIMENTO DE TESTES E QUESTIONÁRIOS PARA AVALIAÇÃO DO APROVEITAMENTO ESCOLAR

|

15

devem ser consultados para se saber como gostariam que os dados do teste fossem apresentados. Se os dados do teste forem apresentados como uma pontuação única para cada aluno numa área de currículo (matemática, por exemplo), então são necessários pelo menos 25 ou 30 itens. Quando se pretende apresentar resultados sobre um subelemento, como a compreensão sobre espaço ou a capacidade de solucionar problemas num teste de matemática, poderia ser usado um número menor de itens. A Tabela 2.3 fornece o exemplo de uma tabela de especificações para um teste de matemática para alunos das 3a, 5a e 8a séries em Papua Nova Guiné. Note-se que, no teste da 3a série, mais de 80% dos itens cobrem número e aplicação, espaço e forma, e medida. Somente quatro itens se referem a acaso e padrões. À altura da 8a série, os itens estão distribuídos mais uniformemente entre os subelementos. Em geral, as tabelas de especificações se baseiam num currículo prescrito (ou pretendido). No entanto, se o currículo implementado (o que os professores ensinam) e o currículo alcançado (o que os alunos aprenderam) não são levados em consideração, um teste pode ser muito difícil ou muito fácil. Assim, não fornecerá uma descrição significativa da gama de aproveitamentos dos alunos na população-alvo. Se a maior parte dos alunos deixar de responder aos itens corretamente, o teste não revelará se esses alunos são capazes de demonstrar habilidades que estão logo abaixo, ou bem abaixo, do nível de dificuldade dos itens no teste. Do mesmo modo, se a maior parte dos alunos responder a todos os itens corretamente, o teste não indicará se são capazes de demonstrar habilidades que estão logo acima, ou bem acima, da dificuldade dos itens do teste. Quando os dados de testes são muito difíceis ou muito fáceis, têm uso limitado para formuladores de políticas, escolas ou professores. O grau de dificuldade do teste depende de seu objetivo. Se o objetivo é monitorar o desempenho de todos os alunos na população-alvo, então a distribuição de dificuldade dos itens do teste deve corresponder à distribuição do aproveitamento da população-alvo. Como regra geral, dois terços do teste devem consistir em itens que dois terços da população teriam entre 30% e 70% de probabilidade de responder corretamente.

16 | SÉRIE P ESQ UISAS DO BA NC O M U NDI AL SOB R E AVAL I AÇ ÕE S DE DE SE M PE NH O E DU C AC I ONAL

(Na média, a probabilidade deve ser de 50%, pois isso ajudará a maximizar a variação das pontuações nos testes dos alunos.) A outra terça parte do teste deve estar uniformemente dividida entre itens que mais de 70% dos alunos que fazem o teste tenham a probabilidade de responder corretamente e itens que menos de 30% tenham a probabilidade de responder corretamente. Embora a sensibilidade ao aproveitamento dos alunos refletida nesses números seja importante, não deve levar à exclusão de áreas importantes do currículo simplesmente porque os alunos se saem muito mal ou muito bem nelas. A adequação de itens deve ser estabelecida no programa de pré-teste, em que os itens são aplicados a alunos com características similares às encontradas na população-alvo da avaliação nacional.

TABELA 2.3

Tabela de Especificações do Conteúdo de Matemática em Papua Nova Guiné

Série

Número e aplicação

Espaço e forma

Medida

Acaso

Padrões e álgebraa

Total de itens

3a série

10

7

4

2

2

25

5a série

10

10

7

4

4

35

8a série

10

10

8

6

6

40

Fonte: Material não publicado do Departamento de Educação em Papua Nova Guiné. a Álgebra é aplicada somente na 8a série.

Algumas avaliações nacionais estabelecem níveis de aproveitamento ou desempenho com base num padrão predefinido e identificam alunos que alcançaram esse padrão. Se o padrão é muito alto, o teste identificará o pequeno número de alunos que demonstram esse nível de habilidade, mas dará pouca informação sobre o nível de aproveitamento do restante da população: apenas informará que o nível está abaixo do padrão. Se o padrão for baixo, o teste identificará o grande número de alunos que demonstram esse nível de habilidade, mas dará pouca informação sobre quaisquer níveis mais altos de habilidade que esses alunos poderiam também ter alcançado.

DESENVOLVIMENTO DE TESTES E QUESTIONÁRIOS PARA AVALIAÇÃO DO APROVEITAMENTO ESCOLAR

|

17

VALIDADE

Validade é um conceito amplo que envolve fazer interpretações das pontuações ou das informações de testes e lhes dar usos adequados (Messick, 1989). Uma faceta da validade é a medida em que o conteúdo de um teste é representativo do currículo ou do conceito que está sendo medido. O gerente de desenvolvimento de teste deverá coordenar-se com um grupo de referência de especialistas nas disciplinas (como especialistas em currículo, por exemplo), a fim de garantir que os itens constituam amostra adequada de um currículo ou conceito. O grupo de especialistas não deve incluir os elaboradores de itens. Neste caso, a validade é uma questão associada a uma decisão, e não a algo de natureza estatística. O grupo de especialistas deve decidir se o teste representa a cobertura adequada de um tema especificado (como matemática da 4a série) e deve considerar se o desempenho no teste fornece evidência adequada do aproveitamento dos alunos na área temática.

IDIOMA DO TESTE

O marco de referência do teste deve esclarecer e justificar o idioma a ser usado num teste de avaliação nacional, ou mais de um, se for o caso. O idioma de um teste é, em geral, o meio de instrução. A tradução de itens do teste nos casos em que a instrução ocorre em vários idiomas tende a ser cara e consumir muito tempo. As versões de testes traduzidos precisam ser tão equivalentes quanto possível se os dados forem usados com propósitos comparativos. A seguir, estão algumas questões que devem ser levadas em conta para decidir se o teste de uma área particular do currículo será feito em um idioma ou em mais de um.

yAvaliar alunos de séries mais avançadas num mesmo idioma de instrução pode ser preferível se os recursos forem limitados. yReduzir as palavras usadas em itens do teste ao mínimo possível pode reduzir os custos de tradução, mas, em geral, isso descontextualiza o item, tornando o teste menos autêntico.

18 | SÉRIE P ESQ UISAS DO BA NC O M U NDI AL SOB R E AVAL I AÇ ÕE S DE DE SE M PE NH O E DU C AC I ONAL

yExcluir alguns alunos da população-alvo da avaliação nacional pode ser preferível a tentar acomodar todos os grupos linguísticos. yÀs vezes, o idioma pretendido de instrução não é o idioma realmente usado no ensino. Nessas situações, os itens do teste de avaliação nacional poderiam usar o idioma real de instrução. yNo caso de alunos mais jovens, especialmente se o idioma de instrução não for seu primeiro idioma, o teste pode ser aplicado oralmente. O aplicador do teste lê cada questão em voz alta ou usa um gravador e dá aos alunos tempo suficiente para responder. Essa forma de assistência pode ser especialmente adequada para testes de matemática e ciências aplicados a alunos das séries iniciais, que talvez consigam demonstrar maior grau de domínio da disciplina num teste aplicado oralmente que noutro no qual teriam de ler os itens por conta própria. É óbvio que testes destinados a avaliar as habilidades de leitura independente dos alunos não devem ser aplicados oralmente.

FORMATO DO ITEM

Em avaliações que usam papel e lápis, os alunos respondem a uma série de questões ou estímulos. Suas respostas escritas ou desenhadas são usadas como evidência de seu nível de conhecimento, competência ou compreensão. Existem quatro formatos básicos de itens, ou modos de os alunos registrarem suas respostas:

yMúltipla escolha yResposta fechada yResposta curta aberta yRedação ou resposta dissertativa Itens de múltipla escolha (veja Quadro 2.3) requerem que os alunos selecionem uma entre várias (em geral, quatro) opções. As opções podem estar escritas ou ser mostradas como imagens com títulos. Podem ser listadas numa coluna, mostradas como uma fileira horizontal ou apresentadas em duas colunas. O aluno indica sua resposta sombreando

DESENVOLVIMENTO DE TESTES E QUESTIONÁRIOS PARA AVALIAÇÃO DO APROVEITAMENTO ESCOLAR

|

19

uma bolha, desenhando um círculo em torno de uma letra ou número, ou assinalando um quadro para selecionar um segmento de texto ou um diagrama. Os itens de múltipla escolha têm uma única opção inequivocamente “correta” e várias outras plausíveis, mas incorretas. Em http:// go.worldbank.org/M2O1YDQO90 você encontrará muitos exemplos de itens de múltipla escolha de linguagem, matemática e ciências para alunos do ensino fundamental. Itens de respostas fechadas (veja Quadro 2.4) têm uma resposta correta gerada pelo aluno. Pequenas variações na forma como a resposta é apresentada são, em geral, aceitáveis. Pode-se pedir aos alunos que escrevam uma ou duas palavras, sublinhem uma palavra ou um número num texto ou numa tabela, desenhem uma linha ou um quadriculado, ou indiquem uma área de um diagrama. Itens de respostas fechadas também podem requerer que os alunos selecionem várias opções que atendam a certos critérios ou combinem uma série de pares de sentenças ou diagramas. (Em http://go.worldbank.org/M2O1YDQO90, veja os itens 6, 9, 11 e 19 relativos ao Teste de Matemática da NAEP 1990–2000 para a 4a série e os itens C011032 e C031053 no Teste de Ciências do TIMSS 2003 para a 4a série.) QU A D R O 2 . 3

Exemplos de Itens de Múltipla Escolha 1.

O que teria maior probabilidade de ser medido em mililitros? A.

A quantidade de líquido numa colher de chá

B.

O peso (massa) de um alfinete

C.

A quantidade de gasolina num tanque

D. A espessura de 10 folhas de papel. Fonte: IEA 1998, item da amostra. Nota: A é a resposta correta.

2.

Uma caixa de suco de laranja custa R$3,35. Um pão de forma custa R$2,75. Qual dos valores a seguir é o menor de que você precisa para comprar o suco de laranja e o pão? R$5,75

R$7,00

R$6,10

R$6,00

Fonte: Conselho Australiano de Pesquisas Educacionais, s.d., item da amostra. Nota: A resposta correta é R$6,10.

20 | SÉRIE P ESQ UISAS DO BA NC O M U NDI AL SOB R E AVAL I AÇ ÕE S DE DE SE M PE NH O E DU C AC I ONAL

QU A D R O 2 . 4

Exemplo de um Item de Resposta Fechada Esta é uma sentença numérica: 2.000 +

… + 30 + 9 = 2.739

Que número deve ser colocado onde está o

… para que a sentença seja verdadeira?

Resposta: _________________ Fonte: IEA 1998, item da amostra.

Questões abertas de resposta curta (veja Quadro 2.5) requerem que os alunos gerem uma resposta para a qual pode haver várias opções diferentes e corretas. Em geral, a resposta correta requer alguma explicação, a demonstração de um processo ou um desenho detalhado (mais de uma ou duas linhas). Podem requerer que o aluno escreva uma ou duas sentenças; complete uma série de passos ou equações; ou complete vários aspectos de um mapa, gráfico ou diagrama. (Em http://go.worldbank.org/M2O1YDQO90, veja os itens 6, 7 e 11 em “Apêndice B: Resgate de Golfinho”, Itens da Amostra de Leitura Internacional da 4a série do PIRLS 2006.) QU A D R O 2 . 5

Exemplos de Questões Abertas de Resposta Curta a.

Como você pode saber a idade de uma árvore depois que ela é cortada? _____________________________________________________________________ _____________________________________________________________________

b.

Escreva um exemplo de como as máquinas ajudam as pessoas em seus trabalhos. _____________________________________________________________________ _____________________________________________________________________

Fonte: IEA 1998, item da amostra.

Itens de resposta dissertativa ou redação (veja Quadro 2.6) requerem que os alunos desenvolvam uma resposta extensa, às vezes complexa, a um estímulo (prompt, na expressão em inglês). A resposta pode cobrir uma ou mais páginas de texto, possivelmente incluindo

DESENVOLVIMENTO DE TESTES E QUESTIONÁRIOS PARA AVALIAÇÃO DO APROVEITAMENTO ESCOLAR

|

21

diagramas. Existem muitos modos “corretos” de responder numa redação ou dissertação. (Em http://go.worldbank.org/M2O1YDQO90, veja a questão 9, “Um Juiz Justo”, Itens de Leitura do PISA Internacional de Leitura 2000, e itens 33, 35 e 39 em Leitura Principal, NAEP 1990-2006: 4a Série.) QU A D R O 2 . 6

Exemplo de um Estímulo para Redação Os estímulos para redação podem ser escritos ou ilustrados. É importante que os alunos compreendam o tipo de elaboração que se está pedindo que façam. Por exemplo, pode-se pedir aos alunos que expliquem suas ideias, expressem uma opinião, escrevam um argumento persuasivo ou uma história. Em geral, essa informação é dada como parte das instruções de aplicação do teste. A imagem do estímulo mostrada no exemplo foi usada em Papua Nova Guiné a fim de avaliar as habilidades linguísticas dos alunos para elaborar uma história narrativa. O aplicador do teste disse aos alunos que poderiam usar as ideias contidas na figura ou elaborar suas próprias ideias para uma história sobre caçada.

Escreva uma história sobre uma caçada. Fonte: Papua Nova Guiné, Departamento de Educação, 2004.

22 | SÉRIE P ESQ UISAS DO BA NC O M U NDI AL SOB R E AVAL I AÇ ÕE S DE DE SE M PE NH O E DU C AC I ONAL

Os primeiros três formatos de itens são mais comumente usados em avaliações nacionais, em parte devido ao custo de se fazer uma pontuação manual confiável de um grande número de redações. O documento que contém o marco de referência do teste deve indicar os percentuais estimados de diferentes tipos de itens no teste final. Deve também incluir amostras de tipos de itens para ajudar os membros da comissão de coordenação e outros interessados a se familiarizarem com a abordagem da avaliação. A escolha do formato do item e a forma como os itens são pontuados alteram significativamente o custo total do teste. Itens que requerem pontuação manual custam mais e tomam mais tempo, atrasando, assim, a publicação de um relatório. É preciso desenvolver guias de pontuação manual, e os avaliadores têm de ser contratados e treinados. Quanto mais complexo o guia de pontuação, maiores os custos. Itens que envolvem redação e resposta dissertativa tendem a ser os mais caros. Custa menos pontuar itens de múltipla escolha, mas sua construção é mais dispendiosa que a de outros tipos de itens. A seguir, apresentamos algumas questões relativas ao custo dos itens que devem ser levadas em conta no processo de seleção do formato dos itens para o teste. Itens de múltipla escolha são, em geral, pontuados como corretos ou incorretos pelos programas de computação que fazem análise de dados. Não é necessário pontuar os itens antes da análise. Basta entrar com as respostas dos alunos num computador. Essas respostas são registradas eletronicamente com um escâner ou, então, a entrada é feita manualmente. O escaneamento é mais econômico para testes de grande escala; requer equipamento especial e, às vezes, suporte técnico. Itens escaneados podem ser limitados a um formato particular de resposta (como sombrear bolhas). Se a entrada de dados for feita manualmente, pode-se usar uma maior variedade de estilos de múltipla escolha (como desenhar círculos em torno de palavras, marcar quadros ou traçar linhas para selecionar opções). Itens de múltipla escolha não devem ser simplesmente pontuados como corretos ou incorretos antes da análise de dados. Podem ser obtidas valiosas informações diagnósticas sobre o desempenho dos alunos quando se registra cada opção. Se os dados estiverem sendo escaneados, deve-se garantir que todas as respostas sejam registradas. O custo da

DESENVOLVIMENTO DE TESTES E QUESTIONÁRIOS PARA AVALIAÇÃO DO APROVEITAMENTO ESCOLAR

|

23

entrada manual de dados para itens de múltipla escolha fica reduzido quando se usa uma diagramação consistente. Os itens de respostas fechadas devem ser pontuados manualmente porque diversas respostas diferentes podem ser aceitáveis. Os guias de pontuação devem especificar a faixa de respostas aceitáveis e inaceitáveis. Em geral, a faixa de possíveis opções corretas para itens de resposta fechada é limitada. Os guias de pontuação são relativamente simples e claros, e o tempo de treinamento dos avaliadores pode ser razoavelmente breve, mas os controles de qualidade têm de ser implementados e mantidos. Os itens abertos de resposta curta são pontuados manualmente. O número e a variedade de respostas aceitáveis e inaceitáveis podem ser grandes. Assim, os guias de pontuação podem ser bastante complexos e requerer cuidadoso treinamento dos avaliadores. A permanente verificação cruzada durante a classificação é essencial para o controle de qualidade. Os itens com resposta dissertativa têm guias de pontuação complexos e exigem treinamento detalhado dos avaliadores. É essencial que se faça uma permanente classificação dupla de algumas ou de todas as redações durante a pontuação para garantir o controle de qualidade. Os manuais de pontuação também precisam ser detalhadamente elaborados para que se tenha um treinamento eficaz. Devem incluir exemplos de respostas que correspondam a cada um dos níveis do guia de pontuação. Diferentes formatos de itens podem ser combinados no mesmo teste. Por exemplo, um teste pode consistir em alguns itens de múltipla escolha, alguns itens de respostas fechadas e algumas questões abertas de resposta curta. Os elaboradores de itens devem se esforçar para garantir que o formato de cada item do teste ajude a avaliar, de forma adequada e eficiente, determinado resultado do aprendizado. Também devem tentar minimizar a quantidade de leitura, escrita ou contas desnecessárias para se responder a um item em particular. As decisões sobre qual formato ou formatos usar num teste e em que proporção usá-los devem basear-se tanto na adequação do formato para medir um conceito, uma área de conhecimento ou habilidade, quanto nas limitações práticas (por exemplo, a qualificação requerida para desenvolver diferentes formatos de itens e o custo da pontuação manual). A Tabela 2.4 resume algumas vantagens e limitações de formatos de itens.

y Podem requerer que os alunos gerem altos y Requer-se competência para escrever itens claramente focalizados. níveis de compreensão. y Os itens podem avaliar uma variedade de y É necessário dispor de avaliadores treinados e medidas de controle de resultados. qualidade, o que eleva os custos. y A compreensão parcial às vezes pode ser y Itens que requerem tempo para o aluno medida. responder reduzem a gama de resultados que podem ser abordados.

Itens abertos de resposta curta (resposta com uma ou duas sentenças)

Fonte: Autores.

y Pode-se abordar uma gama limitada de resultados. y É necessário dispor de avaliadores treinados e medidas de controle de qualidade, o que eleva os custos.

y Os itens em geral avaliam uma gama limitada de resultados (basicamente, recuperação e lembrança).

y Os próprios alunos localizam a informação ou se lembram dela. y A pontuação manual é relativamente fácil.

Resposta fechada (resposta com uma ou duas palavras)

y Alunos podem demonstrar a profundidade de sua compreensão. y Pode-se medir uma gama de compreensões parciais.

y É necessário ter competência para desenvolver itens de alta qualidade. y Os alunos não geram compreensão. y Os alunos podem tentar adivinhar.

Múltipla escolha

Redação ou resposta dissertativa

Limitações

Vantagens y Muitos itens de um teste podem avaliar uma ampla variedade de resultados do aprendizado. y Os itens podem fazer distinções sutis entre conhecimentos e compreensões dos alunos. y Não se requer pontuação manual, e o teste fica relativamente barato.

Formato do item

Vantagens e Limitações de Diferentes Formatos de Itens

TABELA 2.4

DESENVOLVIMENTO DE TESTES E QUESTIONÁRIOS PARA AVALIAÇÃO DO APROVEITAMENTO ESCOLAR

|

25

Os testes de matemática de Papua Nova Guiné têm diferentes proporções de questões de múltipla escolha e questões abertas de resposta curta, dependendo da série avaliada (veja Tabela 2.5). A 8a série tem mais itens que a 3a. A maior parte desse aumento é representada pelo maior número de itens abertos de resposta curta. O tempo de que os alunos dispõem para responder ao teste deve ser suficiente para permitir que a maior parte deles tente responder ao máximo de itens. É importante obter informação sobre o tempo que os alunos levam para responder aos itens do pré-teste. Os testes variam em extensão, mas os alunos devem ser capazes de tentar responder à maioria dos itens em cerca de 40 minutos. Testes que contêm basicamente itens de múltipla escolha podem conter mais itens que aqueles em que predominam os itens de resposta curta. Os testes para alunos do ensino médio podem incluir mais itens, e os alunos podem ter mais tempo para responder às questões. Se os alunos não estiverem familiarizados com o formato dos itens de uma avaliação, provavelmente precisarão de mais tempo para responder aos itens.

TABELA 2.5

Formato de Itens do Teste de Matemática de Papua Nova Guiné Série 3a

Múltipla escolha

Aberto de resposta curta

série

20

5

5a série

25

10

8a série

25

15

Fonte: Papua Nova Guiné, Departamento de Educação, 2004.

POPULAÇÃO-ALVO DE ALUNOS A SER AVALIADA

O documento que contém o marco de referência do teste deve definir a população-alvo para a avaliação (por exemplo, 4a série) e deve indicar por que essa população em particular foi selecionada. Em determinado país, o documento com o marco de referência poderia, por exemplo, justificar a seleção da 3a série com base no fato de que, após essa série, a taxa de evasão é considerável; poderia justificar o teste na 4a série por-

26 | SÉRIE P ESQ UISAS DO BA NC O M U NDI AL SOB R E AVAL I AÇ ÕE S DE DE SE M PE NH O E DU C AC I ONAL

que, a essa altura, a maior parte dos alunos deve conseguir ler; ou poderia justificar um teste durante a 8a série para avaliar o aproveitamento do aprendizado dos alunos nesse importante ponto do sistema educacional. O documento do marco de referência também poderia especificar subpopulações de alunos que poderiam ser excluídos da amostra nacional, como alunos com necessidades educacionais especiais ou alunos de escolas pequenas em áreas muito remotas.

APRESENTAÇÃO DE RESULTADOS

Desde o início, deve-se chegar a um acordo com a comissão de coordenação sobre como os resultados devem ser apresentados. Na Irlanda, a Avaliação Nacional de Leitura em Inglês apresentou pontuações separadas relativas a tipo de texto e processo cognitivo. O documento do marco de referência da avaliação propôs avaliar duas escalas de tipo de texto (literário e informativo) e duas escalas de processo (recuperação de informação e inferência-interpretação) para a 1a série. Na 5a série, propôs avaliar três subescalas de tipo de texto (literário, informação-contínuo e informação-descontínuo) e três escalas de processo (recuperação de informação, inferência e interpretação-avaliação) (Eivers et al., 2005). A Pesquisa Internacional de Letramento de Adultos usou textos não contínuos para avaliar o desempenho na escala de documentos. O marco de referência para o Estudo Internacional sobre o Progresso do Letramento em Leitura (PIRLS) especificava que classificaria os itens do teste em função dos dois objetivos de leitura: leitura como experiência literária e leitura para adquirir e usar informação. Também propôs combinar as duas escalas e dar uma pontuação geral de letramento em leitura (Campbell et al., 2001). A comissão de coordenação deve ser informada de que a apresentação de resultados por subescalas depende dos resultados da análise de itens. Avaliações internacionais e muitas avaliações nacionais usam a modelagem de resposta ao item para determinar se os itens do teste se ajustam adequadamente às subescalas. Nessa etapa, a comissão de coordenação poderia receber uma introdução não técnica ao conceito

DESENVOLVIMENTO DE TESTES E QUESTIONÁRIOS PARA AVALIAÇÃO DO APROVEITAMENTO ESCOLAR

|

27

de apresentação de resultados por níveis de aproveitamento, usualmente chamados de níveis de proficiência, e seria pedido a seus membros que definissem a forma preferida de apresentação dos resultados do teste. O desempenho dos alunos poderia ser descrito em função do percentual de itens respondidos corretamente ou dos níveis, como avançado (excede o padrão esperado), proficiente (alcança o padrão esperado), básico (não alcança o padrão esperado) ou abaixo do básico (desempenho abaixo do nível básico). O número de níveis de proficiência talvez tenha de ser revisto em função dos resultados do pré-teste e da análise do teste final. O Volume 4 desta série cobre tanto a teoria de resposta ao item quanto os níveis de proficiência. O marco de referência também deve indicar os tipos de relatórios da avaliação nacional a serem publicados ao final de uma avaliação. Esses relatórios poderiam incluir um relatório técnico; uma série de relatórios resumidos para audiências específicas, como treinadores de professores, órgãos encarregados de currículos e formuladores de políticas; e notas de imprensa e sessões informativas.

CONTEXTOS

Muitos formuladores de políticas educacionais usam as avaliações nacionais para obter informações contextuais adicionais sobre fatores que podem afetar ou influenciar diretamente a qualidade do aprendizado dos alunos em áreas de currículo específicas. A comissão de coordenação deve dar uma orientação geral sobre a seleção das variáveis contextuais a serem avaliadas. Essa informação, por sua vez, pode ser usada pelo órgão implementador para orientar o desenvolvimento do questionário. Informações contextuais podem interessar particularmente a formuladores de políticas que buscam compreender as razões das diferenças nos níveis de aproveitamento dos alunos. Muitas avaliações enfocam o contexto familiar dos alunos e da escola. Fatores familiares normalmente incluem situação socioeconômica, às vezes medida em função dos bens existentes no domicílio, nível de educação dos pais, idioma falado em casa, estrutura e tamanho da família,

28 | SÉRIE P ESQ UISAS DO BA NC O M U NDI AL SOB R E AVAL I AÇ ÕE S DE DE SE M PE NH O E DU C AC I ONAL

ajuda para os estudos em casa, processos familiares (como leitura para as crianças e outras formas de orientação que encorajem o aprendizado) e relações casa-escola.2 Os contextos da escola frequentemente incluem recursos da escola e da sala de aula, administração e organização da escola, natureza e nível de treinamento dos professores, estratégias instrucionais e ambiente na sala de aula. Algumas avaliações coletam dados sobre atitudes dos alunos com relação à escola e à área temática individual, interesses e comportamentos (por exemplo, o total de tempo gasto fazendo trabalhos domésticos, trabalhando ou lendo por prazer). Os detalhes de como conceber e redigir os itens do questionário serão vistos mais adiante neste livro. Em http://go.worldbank.org/M2O1YDQO90 você também poderá encontrar exemplos de itens de questionário destinados a obter informação contextual sobre alunos, pais, professores e diretores.

NOTAS 1. Após o terceiro estudo, esta série de estudos passou a se chamar Tendências Internacionais no Estudo de Matemática e Ciências, e a sigla TIMSS foi mantida. 2. Note-se que, em alguns países, existe uma resistência à ideia de se coletarem dados sobre as características socioeconômicas.

CAPÍTULO

3

ELABORAÇÃO DE ITENS

E

ste capítulo descreve as características de bons itens num teste, as diretrizes para a elaboração de itens, a estruturação e organização de itens que comporão um teste, e a pontuação de itens.1 Também descreve os papéis do pessoal envolvido no desenvolvimento do teste – a equipe de elaboração de itens e outros revisores –, que trabalha sob a orientação do gerente de desenvolvimento de teste. Deve-se ter em mente que a qualidade de um teste depende, em grande medida, de quão claramente atenda a seu objetivo e da exatidão com que os itens correspondam a uma tabela de especificações bem concebida. Os itens de boa qualidade são claros, relevantes para o currículo e focalizam um aspecto claramente definido do aprendizado. Eles apresentam tarefas atraentes, genuínas, e não distinguem entre alunos de diferentes contextos idiomáticos e culturais. Um bom item tem as seguintes características:

yAvalia uma área-chave de aprendizado. yApresenta uma tarefa construtiva e significativa. yPode ser facilmente associado a importantes características contidas nos documentos do marco de referência ou na tabela de especificações.

30 | SÉRIE P ESQ UISAS DO BA NC O M U NDI AL SOB R E AVAL I AÇ ÕE S DE DE SE M PE NH O E DU C AC I ONAL

yÉ justo. yO estímulo gira em torno de questões centrais, e não de detalhes periféricos ou triviais.

yDeixa claro para os alunos o que se pede deles. yTem sentido intrínseco e não depende da compreensão de algo que constituía a base de um item anterior. ySe for um item sobre vocabulário, é direcionado para o significado da palavra no contexto do texto, e não para um conhecimento geral. yDe preferência, é expresso em termos positivos, pois formas negativas tendem a causar confusão. Os elaboradores de itens podem se beneficiar muito com o exame de modelos relevantes de itens de alta qualidade. Muitas organizações de testes publicam amostras de itens na internet. Itens de teste liberados para uso público também podem ter origem em testes internacionais, como o TIMMS (Tendências Internacionais no Estudo de Matemática e Ciências), o PISA (Programa Internacional de Avaliação de Alunos) e o PIRLS (Estudo Internacional sobre o Progresso do Letramento em Leitura), e em avaliações nacionais de outros países, como a Avaliação Nacional do Progresso Educacional (NAEP) dos Estados Unidos. Em http://go.worldbank.org/M2O1YDQO90, você pode encontrar muitos exemplos de itens dessas e de outras fontes. Endereços na internet são fornecidos no Apêndice B. Itens de teste liberados para uso público podem ser usados em outros testes, desde que o conteúdo e o fraseado sejam adequados. Esse tipo de material pode ser uma fonte barata e útil de itens de teste. Com frequência, esses itens (junto com as respostas) estão disponíveis na internet. Portanto, não devem ser usados caso haja a probabilidade de os alunos terem acesso a eles antes de fazer um teste de avaliação nacional. Também é possível obter a permissão de autoridades relevantes para usar itens adequados de testes seguros. Essa abordagem pode ser mais barata que o desenvolvimento de itens. No entanto, especialistas em currículo precisarão rever esses itens e fazer um teste prévio para avaliar sua adequação. Leva tempo até que se adquira sólida experiência na elaboração de itens para cada seção de uma tabela de especificações. Os elaboradores

DESENVOLVIMENTO DE TESTES E QUESTIONÁRIOS PARA AVALIAÇÃO DO APROVEITAMENTO ESCOLAR

|

31

de itens devem ter um entendimento comum da terminologia de itens e daquilo que os itens pretendem medir. Para alcançar essa compreensão, devem tentar classificar cada item rascunhado à medida que vão sendo desenvolvidos, usando critérios como os seguintes:

yFormato do item (por exemplo, múltipla escolha, fechado, aberto). yTipo de texto (para um teste de leitura) (por exemplo, narrativo, descritivo). ySérie pretendida (por exemplo, 5a série). yProduto do aprendizado (por exemplo, soma de números inteiros de dois dígitos ou identificação da ideia central numa história). yProcesso cognitivo (por exemplo, conhecimento, lembrança, interpretação ou síntese). Não há como saber, em todas as situações, o nível de processamento cognitivo envolvido na resposta a um item. Se os alunos não tiverem familiaridade com um processo, como resumir um parágrafo de informação, isso pode exigir um nível de processamento mais alto do que se estiverem acostumados a fazer resumos.

GRAU DE DIFICULDADE DO ITEM

Chegar ao nível adequado de dificuldade para os itens é uma tarefa desafiadora para a maior parte dos elaboradores de itens. Em muitos países, o conteúdo do currículo pretendido é muito difícil para a maioria dos alunos. Como consequência, os elaboradores de itens frequentemente têm de elaborar muitos itens para medir habilidades mais fáceis que as listadas nos currículos pretendidos. Por exemplo, testes de aproveitamento em matemática concebidos para a 5a série muitas vezes incluem itens baseados em objetivos que os alunos deveriam ter dominado nas 3a e 4a séries. Professores experientes, mais que funcionários da área de educação ou acadêmicos, apresentam maior probabilidade de ter uma boa percepção dos prováveis graus de dificuldade dos itens. No entanto, o julgamento

32 | SÉRIE P ESQ UISAS DO BA NC O M U NDI AL SOB R E AVAL I AÇ ÕE S DE DE SE M PE NH O E DU C AC I ONAL

do professor, embora possa ser útil, não é adequado. A realização de um pré-teste dos itens em amostras de alunos com características aproximadamente iguais às da população-alvo é essencial para se obterem dados preliminares objetivos sobre os graus de dificuldade dos itens. Isso pode ajudar a evitar o erro comum de se desenvolverem testes com itens que depois se revelam muito difíceis. Dependendo de inúmeros fatores, alguns itens considerados simples pelo elaborador de itens podem acabar se mostrando bastante difíceis. Do mesmo modo, itens concebidos para ser difíceis podem ser fraseados ou apresentados de tal modo que se revelem bastante fáceis. No caso de itens que usam o formato de múltipla escolha, os elaboradores devem evitar o seguinte:

yIntroduzir dicas gramaticais ou lógicas no comando e na chave que apontem a resposta correta, como um comando que corresponde a uma palavra no singular e todas as opções, menos uma, apresentadas como plurais. yIntroduzir termos absolutos, como “sempre” ou “nunca”, que poderiam eliminar algumas opções ou apontar a resposta correta. yFazer a resposta correta muito mais longa ou mais detalhada que as demais opções. yIncluir uma palavra ou frase-chave extraída do material de estímulo na opção correta, mas não nas outras opções. yApresentar as opções numa ordem ilógica ou num padrão confuso. yFazer com que as opções e a chave se superponham significativamente, de modo que discernir a “melhor” resposta dependa de habilidades linguísticas, e não do conhecimento sobre o que está sendo testado. yIncluir questões que podem ser respondidas sem referência ao estímulo. No caso de respostas construídas, é importante desenvolver critérios claros de pontuação que produzam como resposta aquilo que o item se destina a medir.

DESENVOLVIMENTO DE TESTES E QUESTIONÁRIOS PARA AVALIAÇÃO DO APROVEITAMENTO ESCOLAR

|

33

TENDENCIOSIDADE DO ITEM

Os alunos trazem para o teste uma grande diversidade de conhecimentos e entendimento cultural. Eles não devem ser penalizados ou privilegiados caso tenham experiências de vida que não sejam relevantes para o conhecimento, as habilidades e os entendimentos que o teste pretende avaliar. Por exemplo, itens sobre um esporte masculino popular poderiam deixar as meninas em desvantagem. Os itens também podem ser tendenciosos quando perturbam ou incomodam alguns alunos, mas não outros. O material de estímulo não deve violar sensibilidade ética, cultural ou de qualquer outro tipo. Não deve haver qualquer possibilidade de que alguns alunos possam se sentir ofendidos, amedrontados ou perturbados pelo material do teste. O gerente de desenvolvimento de teste deve sensibilizar os elaboradores de itens quanto às várias formas de tendenciosidade. Os painéis de revisão devem ser encorajados a ficar atentos a itens do teste ou do questionário que possam ser tendenciosos ou ofensivos. O Volume 4 desta série apresenta uma técnica estatística que pode ser usada para ajudar a identificar itens tendenciosos tanto na etapa de pré-teste quanto durante a elaboração do teste final.

MATERIAL DE ESTÍMULO

O material de estímulo fornece o contexto para um item. Pode ser parte de um texto, um diagrama, um gráfico, uma tabela, um mapa ou uma combinação de tudo isso. Em geral, o desenvolvimento do teste começa com a seleção ou criação do material de estímulo adequado. Os testes de leitura usualmente se baseiam em textos longos que se prestam a uma série de itens ou a uma unidade que cobre uma gama de habilidades relevantes. Os testes de matemática e ciências podem incluir material de estímulo curto, como vários números a serem somados ou uma equação a ser completada. Itens de matemática e ciências também podem incluir um estímulo mais complexo, como um gráfico, um

34 | SÉRIE P ESQ UISAS DO BA NC O M U NDI AL SOB R E AVAL I AÇ ÕE S DE DE SE M PE NH O E DU C AC I ONAL

mapa, uma tabela ou um diagrama com uma série de itens associados relativos a diversas habilidades. O material de estímulo deve apresentar claramente a principal característica a ser avaliada. Não deve conter detalhes supérfluos, repetitivos ou desnecessários. Um bom material de estímulo tem as seguintes características:

yÉ substantivo e merece ser examinado detidamente. yTem a probabilidade de interessar à audiência-alvo. yÉ bem escrito e bem desenhado. yÉ desafiador na medida certa, não muito difícil nem muito fácil. yNão apresenta desafios artificiais. yÉ factualmente correto. yOferece oportunidade para questões que estimulam a busca. yÉ completo. Onde adequado, é importante prover algum contexto para o material de estímulo. O contexto pode ser fornecido por meio de um título ou de uma breve introdução. Por exemplo, o trecho de um romance de ficção científica poderia ser apresentado assim: “Esta passagem foi extraída de um romance que se passa no futuro.” Preferencialmente, as imagens devem ser parte intrínseca do material de estímulo, oferecendo significado adicional. Se as imagens forem incluídas simplesmente como decoração, não ajudarão os alunos a compreender o texto. Às vezes, o material de estímulo cria um contexto artificial e desnecessário para um item. O Quadro 3.1 contém material irrelevante. Na realidade, este item aborda a superfície de uma área. Na vida real, Irene não estaria preocupada com a quantidade mínima de papel que deveria usar. De fato, ela poderia precisar de uma pequena quantidade adicional para dobrar sobre as bordas. Os alunos mais capazes poderiam responder a este item incorretamente se deixassem uma margem de papel adicional. Uma melhor redação para o item seria simplesmente a seguinte: “O comprimento de um lado de um cubo é 80cm. Qual a área da superfície do cubo?”

DESENVOLVIMENTO DE TESTES E QUESTIONÁRIOS PARA AVALIAÇÃO DO APROVEITAMENTO ESCOLAR

|

35

QU A D R O 3 . 1

Exemplo de Material de Estímulo Irrelevante Irene embrulhará este cubo com papel. Qual a menor quantidade de papel de embrulho que ela usará?

80 cm

Um estímulo que tente descrever um contexto real deve ser factualmente acurado. É provável que a informação contida no Quadro 3.2 seja factualmente inexata. Em geral, os seres humanos não apresentam o tipo de padrão de crescimento mostrado. As crianças que tendem a ser altas em geral demonstram esse traço desde bem novas. Se o material de estímulo requer padrões de crescimento desiguais, seria preferível usar plantas a pessoas para objetivos comparativos. QU A D R O 3 . 2

Exemplo de um Item com Informação Inexata ou Enganosa O gráfico mostra a mudança nas alturas de Mário e Rita à medida que ficam mais velhos.

Mario

altura (cm)

160

120 Lita 80

40

0

2

4

6 8 idade (anos)

10

36 | SÉRIE P ESQ UISAS DO BA NC O M U NDI AL SOB R E AVAL I AÇ ÕE S DE DE SE M PE NH O E DU C AC I ONAL

Os itens devem ser escritos na linguagem mais simples e clara possível. O fraseado deve ser simples o bastante para que se possa esperar, numa medida razoável, que os alunos sejam capazes de lê-lo:

yEvite vocabulário difícil. yEvite sentenças longas. yNão use sentenças enroladas. yNão use uma lógica difícil. yEvite questões ambíguas ou vagas. yEvite negativas duplas. yEvite inconsistências (por exemplo, usando diferentes unidades de medida nas opções ou diferentes termos para se referir à mesma coisa). yNão use fraseado vago ou termos não familiares que não estejam adequadamente definidos.

FORMATO DO ITEM

São descritos dois formatos principais: múltipla escolha e resposta curta (veja Capítulo 2).2 Considere usar um formato de múltipla escolha para:

yLimitar o número de opções. yProduzir uma resposta sucinta. yEvitar que os alunos tenham de copiar grandes trechos do texto de estímulo. yCobrir uma grande gama de tópicos eficientemente. Considere usar um formato de resposta curta (fechada ou aberta) para:

yTestar significados que os alunos precisem gerar por conta própria. yTestar diferentes níveis de compreensão, usando um item de crédito parcial que dê uma pontuação total para uma resposta que mostre compreensão de uma ideia complexa e uma pontuação parcial para uma resposta que mostre compreensão de apenas uma parte simples da ideia.

DESENVOLVIMENTO DE TESTES E QUESTIONÁRIOS PARA AVALIAÇÃO DO APROVEITAMENTO ESCOLAR

|

37

yTestar uma gama restrita e claramente definível de possíveis respostas corretas. yBuscar uma resposta numa situação em que a resposta correta seria claramente revelada num formato de múltipla escolha, dada a falta de opções incorretas plausíveis. Os alunos devem ter um comando adequado de vocabulário e expressão para responder a itens de resposta curta. Não use questões de resposta curta se houver a probabilidade de os alunos terem de copiar uma grande quantidade do texto de estímulo.

Elaboração de Itens de Múltipla Escolha Um item de múltipla escolha consiste em um comando e diversas opções de resposta. Às vezes, quando se requer uma resposta falso-verdadeiro, só são necessárias duas opções. No entanto, esses itens são, de certa forma, ineficazes. Oferecer quatro ou cinco opções é o mais usual. A opção correta é a chave, enquanto as opções incorretas são os distratores (Quadro 3.3). O comando de um item pode assumir várias formas, como:

yUma sentença incompleta. yUma pergunta explicitamente formulada. yUma sentença à qual falta alguma informação (Carlos tem ______ irmãos). QU A D R O 3 . 3

Exemplo de um Item de Múltipla Escolha Tânia tem três flores. Ganha mais duas flores do seu pai. Quantas flores Tânia tem ao todo? A 2 B 3

distratores

C 4 D 5

chave (resposta correta)

comando

38 | SÉRIE P ESQ UISAS DO BA NC O M U NDI AL SOB R E AVAL I AÇ ÕE S DE DE SE M PE NH O E DU C AC I ONAL

Se o comando é uma sentença incompleta, deverá conter informação suficiente para indicar a natureza da questão. O aluno não deve precisar ler os distratores para inferir a questão. Todas as opções de uma sentença incompleta devem:

ySer gramaticalmente consistentes com o comando. ySer escritas num estilo semelhante. ySer corretamente pontuadas. yComeçar com uma letra minúscula e terminar com um ponto final. Lembre-se dos seguintes pontos durante a elaboração de itens de múltipla escolha:

yPontue sentenças completas corretamente. No Quadro 3.4, todas as opções são sentenças completas com a pontuação adequada. yPontue listas adequadamente. No Quadro 3.5, as opções são listas de palavras. Essas opções não são pontuadas. QU A D R O 3 . 4

Pontuação em Sentenças Completas O que Miguel achou do mercado? A

Estava cheio de gente, e a comida era boa.

B

Era barato, e a comida era deliciosa.

C

A comida era boa, mas não havia ninguém lá.

D

Era barato, mas a comida não era muito boa.

QU A D R O 3 . 5

Pontuação numa Lista Quanto tempo Joel ficará na casa de seu avô? A

uma semana

B

duas semanas

C

um mês

D

dois meses

DESENVOLVIMENTO DE TESTES E QUESTIONÁRIOS PARA AVALIAÇÃO DO APROVEITAMENTO ESCOLAR

|

39

yMinimize a quantidade de leitura. Para minimizar a quantidade de leitura requerida, o elaborador de itens deve pôr a maior parte possível do item no comando (veja o Quadro 3.6). yEvite comandos negativos. Como um comando negativo causa confusão, seu uso deve ser evitado. Se o comando só pode ser expresso na forma negativa, destaque a palavra “não” usando negrito ou itálico (veja o Quadro 3.7). Se um comando negativo for inevitável, as opções nunca deverão ser negativas. yVarie o uso de distratores emparelhados. Os métodos de construção de distratores devem variar ao longo do teste, de modo que não surjam padrões para auxiliar os alunos. Por exemplo, não é aconselhável emparelhar a chave (B) com seu oposto (A) (Quadro 3.8). Se o padrão no Quadro 3.8 aparecer com frequência ao longo do teste, ficará óbvio para alguns alunos já familiarizados com testes que precisam considerar apenas os distratores emparelhados (A e B). Uma solução é escrever alguns itens nos quais a chave não é um dos opostos emparelhados. Outra solução é incluir dois pares de opostos no item, como mostrado na Quadro 3.9. QU A D R O 3 . 6

Reduzindo a Leitura Por quanto tempo Joel ficará na casa de seu avô? Não assim Carlos foi para A o rio com sua família. B a praia com sua família. C o campo com sua família. D as montanhas com sua família.

Mas assim Carlos e sua família foram para A rio. B praia. C campo. D montanhas.

QU A D R O 3 . 7

Item com um Comando Negativo O que os pais de Mário disseram que ele não podia ter em casa? A

seu cachorro de estimação

B

seus sapatos com chulé

C

a manta do cavalo

D

uma cesta de frutas

40 | SÉRIE P ESQ UISAS DO BA NC O M U NDI AL SOB R E AVAL I AÇ ÕE S DE DE SE M PE NH O E DU C AC I ONAL

QU A D R O 3 . 8

Distratores Mal Emparelhados Tom não gostou do casaco porque era A

muito grande.

B

muito pequeno.

C

da cor errada.

D

pouco agasalhante.

QU A D R O 3 . 9

Lidando com Pares de Distratores Tom não gostou do casaco porque era muito A

grande.

B

leve.

C

pequeno.

D

pesado.

yEvite usar certos distratores. Distratores que contêm palavras como sempre e nunca, nenhum dos acima e todos dos acima devem ser evitados porque, em geral, os alunos os eliminam facilmente. yUse números adequados de distratores. Desenvolva itens com a chave e quatro distratores plausíveis (cinco opções ao todo), se possível, e então faça um pré-teste de todos os distratores. Use os distratores que têm as melhores propriedades estatísticas (veja o Volume 4 desta série). yVarie a posição da chave. A posição da chave deve variar de um item para o seguinte. Não deve haver um padrão óbvio em seu posicionamento. As opções podem ser arrumadas começando da mais curta para a mais longa, ou da mais longa para a mais curta, ou podem ser ordenadas aleatoriamente. Certifique-se de que a chave nem sempre seja a opção mais longa. As boas opções apresentam as seguintes características:

yTêm comprimentos semelhantes e são escritas num estilo semelhante ao da chave. A chave não deve se destacar dos distratores por seu comprimento, fraseado ou outra qualidade superficial.

DESENVOLVIMENTO DE TESTES E QUESTIONÁRIOS PARA AVALIAÇÃO DO APROVEITAMENTO ESCOLAR

|

41

yVariam em estilo de item a item, ou seja, não são repetitivas. yNão dão uma dica da resposta a outro item. yNão incluem distratores parcialmente corretos, como opções emparelhadas em que cada distrator contém uma opção incorreta e uma correta. yNão induzem ao erro nem confundem devido à falta de clareza ou à ambiguidade. yNão se superpõem em significado. Os distratores têm de ter significados distintos uns dos outros. Os distratores não devem ser sinônimos. Um significado particular em um distrator não deve ser incluído no significado general de outro distrator. yIncluem uma chave inquestionavelmente correta ou que constitui uma resposta acurada defensável, e não simplesmente a melhor das opções apresentadas. yTêm distratores inquestionavelmente incorretos, embora sejam razoáveis e plausíveis. Qualquer distrator absurdamente incorreto reduz o número de escolhas reais disponíveis para o aluno e não agrega nada ao item.

Elaboração de Itens de Resposta Curta Itens de resposta curta devem ser claramente focalizados para produzir como resposta a expressão da habilidade que pretendem avaliar. Bons itens de resposta curta são claros e exatos. Os guias de pontuação devem ser desenvolvidos ao mesmo tempo em que se desenvolvem os itens. Em http://go.worldbank.org/M2O1YDQO90, você encontra exemplos de guias de pontuação para itens de resposta curta. Veja, por exemplo, Itens Liberados do PISA de Matemática de 2006 e Guia de Pontuação de Itens da Amostra de Leitura Internacional para a 4a série do PIRLS de 2001. Em geral, os itens de resposta curta são classificados como abertos quando a resposta correta exige uma ou duas sentenças ou vários acréscimos a um diagrama. Itens abertos, em geral, têm inúmeras possíveis respostas corretas. Itens de resposta curta são classificados como resposta fechada quando

42 | SÉRIE P ESQ UISAS DO BA NC O M U NDI AL SOB R E AVAL I AÇ ÕE S DE DE SE M PE NH O E DU C AC I ONAL

uma ou duas palavras ou uma linha num diagrama são suficientes para a resposta. Itens de resposta fechada em geral têm um número muito limitado de respostas corretas. Itens abertos devem se referir a habilidades significativas em áreas-chave do currículo, de modo a justificar o tempo de teste que os alunos gastarão para respondê-los. Os alunos também devem ter a possibilidade de dar breves respostas corretas a itens abertos. A maior parte do tempo que os alunos gastam com um item deve ser devotada a encontrar uma solução, e não a registrar suas respostas. Num item de resposta curta, é importante considerar qual poderia ser uma resposta incorreta. Se todas as respostas coerentes imagináveis têm a probabilidade de ser corretas, talvez o item pouco contribua para a avaliação de uma habilidade específica. O item deve ser construído de forma a garantir que existam respostas incorretas plausíveis. Certifique-se de que itens de resposta curta têm mais de duas respostas possíveis. Itens para os quais existam apenas duas possíveis opções, como “fechado” ou “aberto”, dão aos alunos uma chance de 50% de adivinhar a resposta correta. Tal item poderia ser ampliado pedindo-se aos alunos que deem razões para suas respostas. O item poderia, então, ser pontuado em função da seleção correta de “aberto” ou “fechado” e também da explicação. Alunos que selecionassem a opção correta, mas não dessem uma explicação, receberiam a pontuação zero. Os itens não devem dar ajuda excessiva ao leitor para que compreenda o significado do estímulo. Por exemplo, um item não deve resumir as ideias-chave num parágrafo do estímulo ou deixar explícita uma inferência no estímulo. É preferível citar algo do estímulo a resumir ou interpretar o significado. Um risco que se corre com os itens abertos é que os alunos podem respondê-los superficialmente. A resposta “porque é importante”, por exemplo, poderia ser tecnicamente correta em várias questões, mas seria uma resposta fraca. Às vezes, uma resposta potencialmente superficial pode ser incluída na questão para eliminá-la da gama de possíveis respostas corretas. Por exemplo, um item pode ser fraseado assim: “Por que o acidente de Renata é importante nesta história?” Os alunos não podem responder simplesmente “porque o acidente é importante”. Quando se

DESENVOLVIMENTO DE TESTES E QUESTIONÁRIOS PARA AVALIAÇÃO DO APROVEITAMENTO ESCOLAR

|

43

trata de itens abertos, em geral são necessárias instruções como, por exemplo, “explique sua resposta” ou “dê razões para sua resposta” para evitar uma resposta sucinta como “sim” ou “não”. Um item efetivo de resposta curta deve estabelecer uma tarefa clara e específica que busca uma resposta específica. O item deve permitir que os alunos demonstrem, com razoável rapidez, seu domínio da habilidade requerida. O exemplo no Quadro 3.10 não atende a qualquer desses objetivos. Não se diz aos alunos que eles precisam fazer uma caixa com as maiores dimensões possíveis. Essa resposta, no entanto, é o critério para que recebam uma pontuação 3. O item também é de baixa qualidade porque consome muito tempo. As habilidades que estão sendo avaliadas não justificam a quantidade de tempo de que os alunos precisariam para testar as possibilidades e chegar à resposta correta. O problema precisa ser simplificado para que os alunos possam demonstrar as habilidades relevantes de forma eficiente. QUADRO 3.10

Item Aberto Confuso com Instruções Pouco Claras Deve-se fazer uma caixa aberta com um retângulo de papelão de 150cm por 100cm, cortando quadrados do mesmo tamanho em cada canto e usando fita adesiva para emendar as partes. Qual o tamanho do quadrado que você cortaria de um dos cantos? Dê uma razão (ou razões) para escolher esse tamanho. ____________________________________________________________________________ ____________________________________________________________________________ Guia de pontuação: o número de pontos vai de 0 a 3. 3 pontos: descreve um quadrado de 20cm e uma caixa com dimensões de 110cm por 60cm por 20cm; também explica que esse tamanho de caixa tem a maior capacidade 2 pontos: descreve um quadrado de 20cm a ser cortado em todos os cantos, mas não dá qualquer explicação 1 ponto: descreve quaisquer tamanhos possíveis de quadrado com um lado de menos de 50cm 0 ponto: dá as dimensões de um quadrado com mais de 50cm (uma resposta impossível) 9: em branco

44 | SÉRIE P ESQ UISAS DO BA NC O M U NDI AL SOB R E AVAL I AÇ ÕE S DE DE SE M PE NH O E DU C AC I ONAL

Quando um aluno não responde a um item específico por uma entre diversas razões (como pular a questão porque a achou difícil ou por não ter tido a oportunidade de tentar respondê-la porque o item não estava no caderno de prova que recebeu), em geral se atribui um código 9 (não uma pontuação) para denotar dados em branco. A questão de dados em branco está coberta, com algum nível de detalhamento, no Volume 3. Os itens de resposta curta devem ter um fraseado claro e simples (veja o Quadro 3.11).

QU A D R O 3 . 1 1

Bom Exemplo de um Item de Resposta Fechada Cada pessoa cava à mesma velocidade. Uma pessoa pode terminar de cavar um jardim em 12 horas. Duas pessoas podem terminar de cavar o mesmo jardim em 6 horas. Quanto tempo levariam quatro pessoas? ________ Quanto tempo levariam x pessoas? ________

Desenvolvimento de Guias de Pontuação para Questões de Crédito Parcial As respostas a algumas questões de resposta curta têm duas ou mais categorias de respostas corretas. Essas são conhecidas como questões de crédito parcial. O guia de pontuação deve diferenciar entre respostas mais abrangentes, exatas ou sofisticadas, e respostas incompletas ou parcialmente corretas. As melhores respostas recebem uma pontuação mais alta. O exemplo no Quadro 3.12 tem o guia de pontuação para uma questão de crédito parcial para desenhar um quadrado, e pode receber até 3 pontos. Os seguintes tipos de itens podem ser pontuados como crédito parcial:

yPede-se aos alunos que deem duas razões para o comportamento de um personagem. Os alunos que dão duas razões corretas recebem a pontuação 2, e os que dão uma razão correta recebem a pontuação 1.

DESENVOLVIMENTO DE TESTES E QUESTIONÁRIOS PARA AVALIAÇÃO DO APROVEITAMENTO ESCOLAR

|

45

QUADRO 3.12

Item com Crédito Parcial O comprimento do lado de um quadrado é 10cm. Desenhe esse quadrado no espaço a seguir. Use sua régua. Guia de pontuação: 3 pontos: desenha um quadrado com 4 lados de 10cm de comprimento e 4 ângulos retos 2 pontos: desenha um retângulo com 2 lados de 10cm comprimento e 4 ângulos retos 1 ponto: desenha uma forma de 4 lados com 2 lados de 10cm de comprimento, mas sem ângulos retos 0 ponto: desenha qualquer outra forma 9: em branco

yOs alunos recebem uma pontuação mais alta para uma compreensão mais sofisticada; por exemplo, a pontuação 2 num teste de leitura poderia refletir a compreensão da ironia em determinada passagem, enquanto a pontuação 1 é atribuída para a leitura literal do texto. yUma pontuação 2 pode incluir a identificação tanto da causa quanto da consequência, enquanto uma pontuação 1 requer a identificação correta de apenas uma dessas. yEm matemática, uma pontuação 3 é dada para a solução correta de um problema e a explicação adequada do método, a pontuação 2 é atribuída para a solução correta sem uma explicação, enquanto a pontuação 1 é dada para a descrição de um método adequado com cálculos incorretos. A distinção entre pontuações de crédito total ou crédito parcial deve ser clara. Certifique-se de que os exemplos de respostas com pontuação 1 que aparecem no guia de pontuação não sejam simplesmente respostas breves ou com fraseado pobre, mas que realmente satisfaçam aos critérios de 2 ou 3 pontos. Também é importante deixar clara a diferença entre respostas de 1 ponto e respostas incorretas. Essa distinção pode ser a mais difícil de fazer na pontuação de algumas questões de crédito parcial.

46 | SÉRIE P ESQ UISAS DO BA NC O M U NDI AL SOB R E AVAL I AÇ ÕE S DE DE SE M PE NH O E DU C AC I ONAL

Os exemplos seguintes mostram que itens abertos de resposta curta nem sempre permitem crédito parcial. O item no Quadro 3.13 mostra que, embora os alunos possam dar diversas respostas, recebem pontuação 1 ou zero. É importante fazer o pré-teste de itens de crédito parcial para garantir que as categorias de crédito parcial sejam estatisticamente robustas (veja Capítulo 5). QU A D R O 3 . 1 3

Exemplo de um Item de Resposta Aberta com Guia de Pontuação João e Miguel encontram uma árvore com 400 mangas. João diz que Miguel agora tem uma chance de 160% de derrubar uma manga. Você concorda com João ou discorda dele? Explique. ____________________________________________________________________________ ____________________________________________________________________________ Guia de pontuação: 1 ponto: Discorda e menciona o limite percentual. Discorda porque não é possível ter 160%. Discorda porque é impossível. Discorda porque 100% é o máximo que se pode alcançar. 0 ponto: Concorda (com ou sem explicação). Discorda e não se refere ao limite percentual. Discorda porque existem mais de 160 mangas. 9: em branco Fonte: Departamento de Educação das Filipinas 2004.

Um exemplo de item de resposta curta com o guia de pontuação compactado está apresentado no Quadro 3.14. No pré-teste, os alunos que responderam “80%” ou “80 por cento” receberam pontuação 2, enquanto os que simplesmente escreveram “80” receberam pontuação 1. As estatísticas mostraram que os alunos que deram a resposta que valia 2 pontos tiveram uma pontuação média muito mais alta no teste de

DESENVOLVIMENTO DE TESTES E QUESTIONÁRIOS PARA AVALIAÇÃO DO APROVEITAMENTO ESCOLAR

|

47

matemática, enquanto aqueles que deram a resposta de valor 1 tiveram a pontuação geral média semelhante à dos que tiveram zero nesse item. Como resultado dessa informação do pré-teste, o guia de pontuação foi alterado: os alunos que responderam com “80%” ou “80 por cento” receberam 1 ponto, enquanto os que responderam “80” ou deram qualquer outra resposta inaceitável tiveram zero. QU A D R O 3 . 1 4

Exemplo de um Item Fechado com Guia de Pontuação Mangueira Miguel está em sua fazenda tentando acertar algumas mangas com a atiradeira. Quando a árvore tem 50 mangas, ele tem 20% de chance de acertar. Sua chance de acertar uma manga duplica quando o número de mangas duplica. Estime a chance de Miguel acertar uma manga numa árvore com 200 mangas. ________________________________________________________________________ Guia de pontuação: 1 ponto: 80% ou 80 por cento 0 ponto: qualquer outra resposta, inclusive simplesmente “80”, sem “%” ou “por cento” 9: em branco Fonte: Departamento de Educação das Filipinas 2004.

Elaboração de Itens para Unidades Unidades são grupos de itens com um estímulo comum. As unidades podem consistir em um conto ou um gráfico, seguidos por um conjunto de questões. Os princípios básicos para a elaboração de itens de múltipla escolha ou de resposta curta aplicam-se a itens associados a unidades. Diversos pontos devem ser considerados durante a redação preliminar de itens baseados em unidades:

yOs itens devem ser independentes uns dos outros. Os alunos não devem ter de responder a um item corretamente para responder a outros itens corretamente.

48 | SÉRIE P ESQ UISAS DO BA NC O M U NDI AL SOB R E AVAL I AÇ ÕE S DE DE SE M PE NH O E DU C AC I ONAL

yOs itens não devem se superpor. Cada item deve avaliar um aspecto claramente diferente do estímulo. yOs itens devem avaliar uma gama de habilidades. Por exemplo, os itens não devem avaliar repetidamente a recuperação de uma informação diretamente explicitada ou a ideia central de cada parágrafo do estímulo. yOs itens numa unidade devem cobrir uma gama de níveis de dificuldade, começando, em geral, com um item fácil. yA informação dada no comando ou nas opções de múltipla escolha de um item não deve ajudar o aluno a responder a outro item. yOs itens devem avaliar aspectos significativos (e evitar aspectos triviais) do estímulo. yOs itens devem estar na mesma página que a unidade ou na página ao lado (no caso de um estímulo longo). Unidades com oito ou mais itens associados tendem a ter alguns itens duplicados, superpostos ou triviais. Alguns itens podem ser eliminados durante o painel de itens. Alternativamente, a equipe de desenvolvimento de teste poderia desenvolver dois formulários para o pré-teste usando a metade dos itens em um formulário e os demais no segundo. A seção de linguagem encontrada em http://go.worldbank.org/ M2O1YDQO90 contém muitos exemplos de unidades seguidas de um conjunto de questões. (Veja, por exemplo, os itens que se seguem a “Lebre Anuncia o Terremoto”, em Itens da Amostra de Leitura Internacional para a 4a série do PIRLS de 2001 ou “O Acordo de Petra”, em Questões da Amostra de “Lendo a Austrália”, Ano 3.)

ITENS DE PRÁTICA

Os itens de prática são essenciais para garantir que os alunos não sejam penalizados pela falta de familiaridade com o formato de itens ou com a forma como devem apresentar suas respostas às questões do teste. Em geral, o aplicador do teste repassa os itens de prática com os alunos, de acordo com instruções muito específicas contidas no manual de aplicação.

DESENVOLVIMENTO DE TESTES E QUESTIONÁRIOS PARA AVALIAÇÃO DO APROVEITAMENTO ESCOLAR

|

49

Quando os testes incluem itens de resposta curta, é especialmente importante que os alunos compreendam que tipo de respostas se espera deles. Os alunos precisam compreender, por exemplo, onde escrever sua resposta para completar uma sequência numérica ou o quanto se espera que escrevam em resposta a um item que requer uma explicação. Deve-se explicar aos alunos que eles não serão penalizados por cometer pequenos erros de soletração ou gramaticais, a menos que isso seja parte do que está sendo medido. As instruções devem encorajá-los a tentar responder a todos os itens. Os itens de prática devem ser desenvolvidos para todos os formatos de resposta no teste. Por isso, esses itens são escritos, em geral, já perto do final da fase de desenvolvimento do teste, quando já se sabem os tipos de questões contidas no teste. Os itens de prática devem ser muito fáceis; por exemplo, pedir aos alunos para escrever a resposta a 2 + 2 numa linha ao lado da soma: 2 + 2 = __________ Dá-se ênfase a como os alunos registram suas respostas. Neste caso, os alunos devem escrever a resposta na linha. O painel de itens deve rever todos os itens de prática, que também devem passar por um pré-teste. Se vários formulários de pré-teste forem usados, os mesmos itens de prática devem ser usados em cada um deles.

DIAGRAMAÇÃO E ELABORAÇÃO DOS ITENS

A diagramação e o desenho dos itens são cruciais para a clareza e a atratividade de um teste. Os alunos têm maior probabilidade de tentar responder aos itens de um teste bem apresentado e de fácil leitura. Os especialistas que desenham os testes devem adotar um estilo consistente, com um formato agradável. Pode-se contratar um especialista em diagramação e desenho para criar todas as imagens. Em http:// go.worldbank.org/M2O1YDQO90, você encontra muitos exemplos de itens bem apresentados e apoiados por ilustrações de boa qualidade.

50 | SÉRIE P ESQ UISAS DO BA NC O M U NDI AL SOB R E AVAL I AÇ ÕE S DE DE SE M PE NH O E DU C AC I ONAL

Diretrizes Básicas A seguir, você tem algumas diretrizes básicas para diagramações e desenhos bem-sucedidos de testes.

yUse um tipo grande (por exemplo, 36) para numerar os itens, de modo que os alunos possam localizar facilmente cada item. yDeixe um espaço adequado se os alunos tiverem de anotar uma resposta. (Isso é especialmente necessário para alunos das primeiras séries do fundamental, que podem ter letras muito grandes.) yDeixe espaço suficiente entre os itens, de modo que os alunos possam ver claramente onde termina um item e onde começa o seguinte. yUse o comprimento da linha para a resposta de um item, deixando claro para os alunos o quanto se espera que escrevam. Uma linha curta é adequada a uma resposta de uma palavra. Duas ou três linhas mais longas sugerem que o aluno deve escrever uma ou duas sentenças em resposta ao item. yDê a cada item um título exclusivo, e imprima esse título perto do número do item, num tipo pequeno em escala cinza, na margem esquerda. Um título de identificação exclusivo ajudará a garantir o rastreamento acurado dos itens. Os números dos itens podem mudar, especialmente se os itens aparecem em múltiplos cadernos de prova. ySeja consistente no uso de aspas simples ou duplas, itálicos, sublinhados, negritos e maiúsculas. yCertifique-se de que a diagramação e as imagens usadas no pré-teste dos itens sejam o mais parecido possível com a apresentação dos itens no formulário final do teste. Mudanças no desenho e na diagramação de itens podem afetar a dificuldade de um item.

Qualidade das Imagens As imagens usadas no teste têm de ser claras, com linguagem e títulos simples, adequados. As imagens devem ser desenhadas por um artista gráfico. Imagens escaneadas ou tiradas da internet em geral não têm qua-

DESENVOLVIMENTO DE TESTES E QUESTIONÁRIOS PARA AVALIAÇÃO DO APROVEITAMENTO ESCOLAR

|

51

lidade adequada. Em geral, fotografias também são inadequadas, porque aumentam os custos de impressão. Usualmente, um artista gráfico deve redesenhar as fotos. O uso de um mesmo artista gráfico para desenhar todas as imagens, fotográficas ou não, dará consistência à diagramação e ao desenho do teste. Onde possível, devem ser usadas imagens para aprimorar a clareza e reduzir o número de palavras em um item (veja o Quadro 3.15). Imagens simples são mais eficazes. A imagem deve apresentar o conceito com clareza e de forma limpa (veja o Quadro 3.16). Não é necessário parecer real. Se possível, devem ser usados desenhos, e extensas áreas sombreadas devem ser evitadas. QU A D R O 3 . 1 5

Uso de Imagens para Reduzir Palavras A seguinte imagem descreve uma experiência científica muito melhor que um longo parágrafo: Qual a parte da planta que absorve A MAIOR QUANTIDADE de água?

Parte A

Parte B Parte C

Parte D

A

Parte A

B

Parte B

C

Parte C Parte D

D

Fonte: IEA 2007, item da amostra.

Gráficos e mapas devem receber títulos de forma clara e consistente (veja os Quadros 3.17 e 3.18).

52 | SÉRIE P ESQ UISAS DO BA NC O M U NDI AL SOB R E AVAL I AÇ ÕE S DE DE SE M PE NH O E DU C AC I ONAL

QU A D R O 3 . 1 6

Como Simplificar as Imagens Esta imagem transmite um sistema complexo de maneira simples:

B C A

D

E

Fonte: Departamento de Educação das Filipinas, 2004.

QU A D R O 3 . 1 7

Como Dar Nomes Claros aos Gráficos Nomes claros e consistentes como esses no seguinte gráfico ajudam os alunos a compreender questões complexas rapidamente: Esta tabela mostra temperaturas em vários momentos de quatro dias. Em que dia e em que momento a temperatura mostrada na tabela era a mesma que a mostrada no termômetro? TEMPERATURA 6h

9h

12h

15h

18h

Segunda-feira

15°

17°

24°

21°

16°

Terça-feira

20°

16°

15°

10°



Quarta-feira



14°

16°

19°

15°

Quinta-feira



11°

19°

26°

20°

40° 35° 30° 25° 20° 15° 10° 5°

Termômetro

A. Segunda-feira, 12h B. Terça-feira, 6h C. Quarta-feira, 15h D. Quinta-feira, 15h Fonte: Mullis et al., 2000.

DESENVOLVIMENTO DE TESTES E QUESTIONÁRIOS PARA AVALIAÇÃO DO APROVEITAMENTO ESCOLAR

|

53

QUADRO 3.18

Como Dar Nomes Claros aos Mapas Deve-se ter a preocupação de dar títulos claros aos elementos de um mapa. No mapa seguinte, os nomes de continentes são mostrados com todas as letras maiúsculas, enquanto os oceanos têm apenas a inicial maiúscula: Oceano Ártico

EUROPE

AMÉRICA DO NORTE

ÁSIA

Oceano Atlântico

Equador

Oceano Pacífico

ÁFRICA

Oceano Pacífico AMÉRICA DO SUL

Oceano Índico AUSTRÁLIA

Oceano Antártico

Áreas onde vivem dugongos Fonte: Papua Nova Guiné, Departamento de Educação 2004.

Conforme mostrado no Quadro 3.19, os espaços deixados nos gráficos permitem que o material de estímulo seja lido com facilidade. Ao decidir o tamanho da fonte e o comprimento da linha, os especialistas que desenham e formatam o teste devem considerar o seguinte:

yUsar tipo 14 para a 3a e a 4a séries e tipo 12 para séries mais avançadas. yReduzir a largura dos textos de estímulo a aproximadamente 10 a 14 palavras por linha. yCertificar-se de que a quebra de linha ocorra num ponto apropriado. Não permitir que uma palavra apareça sozinha numa linha.

54 | SÉRIE P ESQ UISAS DO BA NC O M U NDI AL SOB R E AVAL I AÇ ÕE S DE DE SE M PE NH O E DU C AC I ONAL

QUADRO 3.19

Deixando Espaço no Material de Estímulo O espaço neste desenho agrega legibilidade ao material de estímulo:

A figura anterior mostra uma caixa contendo um material que poderia ser um sólido, um líquido ou um gás. O material, então, é posto numa caixa quatro vezes maior.

Olhe as figuras a seguir. Elas mostram como diferentes tipos de material terão aparências diferentes quando postos numa caixa maior. A. Identifique qual figura mostra um sólido, qual mostra um líquido e qual mostra um gás. (Escreva as palavras Sólido, Líquido ou Gás na linha ao lado de cada figura a seguir. Use cada palavra apenas uma vez.)

S031372

B. Explique suas respostas.

Fonte: IEA, 2003, item da amostra.

DESENVOLVIMENTO DE TESTES E QUESTIONÁRIOS PARA AVALIAÇÃO DO APROVEITAMENTO ESCOLAR

|

55

As diagramações de opções de múltipla escolha devem ser consistentes. Cada opção deve ser identificada. As seguintes opções de diagramação são recomendadas:

yUma coluna vertical de opções nomeadas de cima para baixo: A B C D yUma linha horizontal de opções nomeadas da esquerda para a direita: A B C D yDuas colunas verticais de opções, nomeadas de cima para baixo na primeira coluna e também de cima para baixo na segunda coluna: A C B D

A EQUIPE DE ELABORAÇÃO DE ITENS

O gerente de desenvolvimento de teste lidera e gerencia a equipe de elaboração de itens e supervisiona todo o programa, desde a fase de desenvolvimento e realização de painéis, passando pelo pré-teste, até a seleção de formulários finais para o teste. O gerente deve saber lidar bem com pessoas e ter habilidades organizacionais. As responsabilidades do gerente de desenvolvimento de teste incluem:

ySelecionar uma equipe de elaboradores de itens. yCertificar-se de que os elaboradores de itens entenderam a tabela de especificações. yAperfeiçoar a tabela de especificações. yEstabelecer um conjunto de regras ou protocolos para apresentar, classificar e armazenar os itens. yCertificar-se de que os elaboradores de itens estejam cientes da quantidade de espaço que os itens podem ocupar na página.

56 | SÉRIE P ESQ UISAS DO BA NC O M U NDI AL SOB R E AVAL I AÇ ÕE S DE DE SE M PE NH O E DU C AC I ONAL

yDefinir e monitorar os processos do painel de itens. yMonitorar o progresso do desenvolvimento de itens de acordo com o estabelecido na tabela de especificações do teste.

yRever os itens com grupos de especialistas ou com os principais interessados. yMonitorar a qualidade dos itens. ySeguir o desenvolvimento dos itens para que esteja de acordo com o cronograma. yRegistrar detalhes de todos os itens desenvolvidos, incluindo a história do pré-teste e mudanças feitas durante a análise. yGarantir que a tabela de especificações esteja refletida no teste final. A elaboração de itens requer atenção a detalhes, criatividade, rigor intelectual, profundidade de conhecimento sobre o conteúdo e a boa compreensão do desenvolvimento dos alunos numa área de aprendizado. Idealmente, os elaboradores de itens devem demonstrar as seguintes características:

yDevem ter iniciativa e disposição para realizar uma ampla busca de materiais de estímulo interessantes e devem ser capazes de desenvolver materiais de estímulo de alta qualidade. yDevem ser capazes de aceitar retornos sobre seu trabalho e comentar o trabalho de outros elaboradores de itens com o mesmo grau de desapego, sem personalizar nada. yDevem demonstrar o desejo de alcançar a excelência em seu trabalho e disposição para estar atentos a detalhes durante o desenvolvimento e o refinamento dos itens. Vale a pena considerar a possibilidade de se fazer um teste de seleção inicial para escolher os elaboradores de itens. O teste poderia consistir em dar aos potenciais elaboradores 30 minutos para gerar itens baseados num conjunto de materiais de estímulo. Esse teste pode ser seguido por uma entrevista durante a qual se pediria aos candidatos para explicar a razão de suas respostas ao teste de seleção. O painel de entrevista poderia verificar se os potenciais elaboradores de itens estão preparados para aceitar críticas a seu trabalho.

DESENVOLVIMENTO DE TESTES E QUESTIONÁRIOS PARA AVALIAÇÃO DO APROVEITAMENTO ESCOLAR

|

57

Idealmente, alguns elaboradores experientes deveriam ser envolvidos no treinamento de novos elaboradores de itens. Esses elaboradores experientes talvez tenham de ser recrutados em outro país, como consultores, se não houver no país pessoas com o conhecimento adequado. Os consultores para elaboração de itens poderiam realizar sessões de treinamento, rever itens à medida que forem sendo desenvolvidos, ou desempenhar ambas as tarefas. Após receberem treinamento, os elaboradores de itens que trabalharem em tempo integral podem levar vários meses até chegar ao ponto de começar a produzir itens de qualidade razoável. As seguintes questões devem ser abordadas durante o treinamento:

yQual o objetivo geral do teste? yQuais os tipos de estímulos adequados para os itens? yQuais segmentos do currículo serão abordados pelo teste? yQual a proporção de itens que abordarão os diferentes aspectos do currículo? yQue idioma (ou idiomas) será usado? yQual o nível adequado de simplicidade do vocabulário e da gramática a serem usados? yQue formatos de item serão usados e em que proporção? yQuais as especificações para a publicação (número de páginas do caderno de prova, tamanho da página, número de itens por página)? yQuantos itens são propostos para a versão final do teste? yQuantos itens têm de ser desenvolvidos? yComo será revista a versão preliminar dos itens do teste? yQual o tempo destinado ao desenvolvimento, ao pré-teste e à seleção dos formulários finais? yExistem questões sensíveis ou limitações culturais que devam ser consideradas durante a produção da versão preliminar do material de estimulo e dos itens? Todos os elaboradores de itens devem ter o mesmo entendimento das respostas a essas questões. Também devem monitorar consistentemente o próprio trabalho e o dos demais. Todos os elaboradores de itens devem

58 | SÉRIE P ESQ UISAS DO BA NC O M U NDI AL SOB R E AVAL I AÇ ÕE S DE DE SE M PE NH O E DU C AC I ONAL

ter cópias da tabela de especificações final do teste, bem como a compreensão comum de seus conteúdos. No longo prazo, pode-se economizar muito tempo se o estilo de apresentação dos itens for especificado em detalhes desde o início. O gerente de desenvolvimento de teste deve criar uma folha de estilo que especifique exatamente como os itens e os guias de pontuação devem ser apresentados. A folha de estilo deve cobrir todos os aspectos da diagramação, incluindo a seleção das fontes, o tamanho das fontes, o uso de recuos, a colocação de títulos e todos os tipos de detalhes que precisam ser incluídos, como visto no exemplo do Quadro 3.20. QU A D R O 3 . 2 0

Exemplo de Folha de Estilo para Elaboradores de Itens TRADIÇÕES PASCAIS (título, Arial 16 em negrito) Questão 1: Tradições Pascais (subtítulo, Times New Roman 12 em negrito) O que as pessoas deram umas às outras no Domingo de Páscoa? (questão, Times New Roman 12 em negrito) (instrução para publicação em itálico e entre parênteses) Tipo de texto

Formato do item

Processo

Informação

Fechado

Recuperação

(tabela com 3 colunas e 2 linhas: títulos das colunas, Times New Roman 12 em negrito; corpo da tabela, Times New Roman 12 sem negrito) Guia de pontuação (subtítulo, Times New Roman 12 em negrito) 1 ponto: refere-se a ovos (Times New Roman 12 em itálico) y

Deram-se ovos de presente. (marcador, Times New Roman 10)

y

Decoraram ovos.

0 ponto: refere-se a panquecas, a outra coisa ou vago y

panquecas.

y

Deram-se outras coisas.

Esse guia mostra que os elaboradores de itens têm de dar à sua unidade um título usando Arial 16 em negrito com maiúsculas. O restante do texto do item é em Times New Roman. A maior parte é em tipo 12.

DESENVOLVIMENTO DE TESTES E QUESTIONÁRIOS PARA AVALIAÇÃO DO APROVEITAMENTO ESCOLAR

|

59

A questão deve ser intitulada, em negrito, “Questão 1”. O nome da unidade deve vir em seguida, conforme mostrado. O item e o espaço para a resposta do aluno ficam abaixo da questão. O elaborador de itens insere e completa uma tabela para mostrar o tipo de texto, o formato do item e o processo que os alunos usam para responder. O guia de pontuação é intitulado conforme se mostra. Os critérios para a pontuação são mostrados em itálico, e os exemplos de respostas dadas pelos alunos são recuados, destacados com marcadores em tipo 10. Seguindo o guia, os elaboradores de itens podem ajudar a garantir que o pré-teste e os itens finais sejam preparados de maneira consistente, funcional e eficiente. Os elaboradores de itens precisam receber um retorno claro e regular, bem como instruções construtivas a respeito dos próprios itens e de como correspondem à tabela de especificações. Desse modo, poderão aprender com seus erros, desenvolver suas habilidades e refinar seus itens. Os elaboradores de itens precisam reunir-se de modo regular e frequente em painéis de itens para analisar seu trabalho. O gerente de testes deve estar preparado para substituir elaboradores que não sejam capazes de desenvolver itens de alta qualidade após um período razoável de treinamento.

PAINÉIS DE ITENS

Um painel de itens consiste em um pequeno grupo (entre três e seis) de elaboradores de itens que revisam, em conjunto, o material desenvolvido por um deles ou por mais de um. O objetivo do painel é aceitar, modificar ou rejeitar o material. A abordagem de equipe, que é parte do processo de controle de qualidade, ajuda a obter múltiplas perspectivas de itens individuais. A menos que os elaboradores de itens sejam altamente experientes, os itens ainda passam por uma revisão considerável depois do painel de revisão. Os membros do painel devem preparar suas críticas antes do encontro do painel de itens. Devem ter bastante tempo para examinar os itens e anotar sugestões de aprimoramento.

60 | SÉRIE P ESQ UISAS DO BA NC O M U NDI AL SOB R E AVAL I AÇ ÕE S DE DE SE M PE NH O E DU C AC I ONAL

O painel deve criticar cuidadosamente o material de estímulo – contexto, conteúdo, fraseado, linguagem, diagramação e ilustrações – para se certificar de que todos os aspectos do estímulo sejam relevantes para a tabela de especificações, de que vale a pena incluí-los no teste e de que sejam claros e concisos. Depois disso, devem-se examinar detalhadamente todos os itens para garantir que o fraseado esteja sem ambiguidade e o formato adequado e que o item claramente se refira a habilidades e áreas de conteúdo especificadas na tabela de especificações. O conjunto de itens também é examinado para se avaliar em que medida o equilíbrio geral dos itens reflete a tabela de especificações. Os membros do painel devem explorar todas as possibilidades de melhorar o estímulo e os itens e, onde necessário, sugerir novos itens. Durante o painel de itens, os elaboradores de itens devem explicar seu trabalho e estar preparados para aceitar críticas construtivas. O líder do painel deve se certificar de que existe ampla concordância sobre as mudanças a serem feitas em itens individuais. Os elaboradores de itens devem documentar as mudanças sugeridas e, em seguida, fazer a revisão dos itens. Pode haver necessidade de um especialista em idiomas nos painéis nos quais os elaboradores de itens estejam elaborando testes em outro idioma que não o seu primeiro idioma. O especialista em idiomas precisa ter uma boa compreensão das habilidades linguísticas da população-alvo do teste. Um especialista nas disciplinas poderia ser incluído no painel, especialmente se a área de conteúdo for complexa. Pode ser útil envolver um desses especialistas em alguns painéis para esclarecer questões de conteúdo, mas esse envolvimento talvez não precise ser contínuo. Não é provável que o especialista no tema esteja preocupado com os pequenos detalhes da elaboração de itens. É aconselhável que os painéis de itens não incluam formuladores de políticas nem principais interessados. Os pequenos detalhes sobre os quais o painel delibera não são atribuições suas. Os membros do painel devem considerar todos os aspectos de um item:

yEstá sendo avaliado o conteúdo certo? yO formato do item está adequado para os alunos que serão testados?

DESENVOLVIMENTO DE TESTES E QUESTIONÁRIOS PARA AVALIAÇÃO DO APROVEITAMENTO ESCOLAR

|

61

yO item tem substância ou é trivial? yO item tem um fraseado claro e sem ambiguidade? yExistem erros de soletração ou palavras faltando? ySe o item é de múltipla escolha, as opções são semelhantes e significativas? ySe o item é de múltipla escolha, a resposta correta pode ser obtida, claramente e sem ambiguidades, da informação dada (o comando, o material de estímulo ou ambos)? yO formato do item está atraente e bem organizado? yO grau de dificuldade da maior parte dos itens permitirá que aproximadamente 40% a 80% dos alunos testados deem uma resposta correta? ySe o item requer pontuação de crédito parcial, cada pontuação tem a probabilidade de atrair pelo menos 10% dos respondentes? yO item parece ser desprovido de tendenciosidade e justo para os principais subgrupos da população-alvo? O painel também deve considerar formas de aprimorar o item:

yEncurtando-o. yAcrescentando mais informação. yMudando expressões ou o fraseado. yAcrescentando um diagrama ou imagem. yDando a ele um novo formato de item. Os elaboradores de itens devem receber retornos regulares e frequentes desde o momento em que começam a desenvolver os itens. Os painéis de itens devem se reunir pelo menos uma vez por semana, se possível. A revisão do material pode ser uma tarefa complexa. O painel precisa de um líder para garantir que as recomendações sejam unânimes e que se alcance um consenso sobre as mudanças a serem feitas. O elaborador de itens não é a pessoa adequada para decidir quais mudanças adotar ou quais sugestões ignorar. As recomendações do líder do painel devem ser exatas o bastante para que os elaboradores de itens tenham clareza sobre quais mudanças fazer.

62 | SÉRIE P ESQ UISAS DO BA NC O M U NDI AL SOB R E AVAL I AÇ ÕE S DE DE SE M PE NH O E DU C AC I ONAL

Às vezes, o trabalho de refrasear itens de outras pessoas pode gerar intensas discussões. O líder do painel deve focalizar a discussão no aprimoramento dos itens e garantir que o painel trabalhe construtivamente para alcançar seu objetivo. Todos os membros do painel, incluindo os elaboradores de itens experientes, devem ter seu trabalho revisto. É normal que surjam sugestões para amplas revisões, especialmente no caso do trabalho de elaboradores ainda sem muita experiência. A crítica de itens não deve ser vista como direcionada a uma pessoa. Os elaboradores de itens que não conseguem se engajar em discussões intensas e refrasear seus itens devem ser substituídos.

OUTROS REVISORES

O grupo de especialistas ou de principais interessados deve ter várias oportunidades de rever o conjunto de itens durante o trabalho de desenvolvimento de itens. Esse procedimento pode ajudar a garantir que os itens do teste sejam de boa qualidade e consistentes com a tabela de especificações. O gerente de desenvolvimento de teste em geral apresenta todos os itens, ou uma seleção deles, a um grupo de referência selecionado para esse propósito. A primeira revisão com o grupo de referência deve ocorrer razoavelmente no início do processo de desenvolvimento de itens, para garantir que os elaboradores de itens estejam trabalhando na direção certa. O grupo de referência pode sugerir refinamentos em alguns aspectos da tabela de especificações, especialmente se os elaboradores de itens estiverem tendo dificuldade para seguir algumas especificações. Os elaboradores de itens também podem necessitar de instrução mais específica sobre materiais aceitáveis e inaceitáveis. Normalmente, faz-se uma revisão depois de completada a elaboração preliminar de todos os itens para garantir que os principais interessados os aprovem antes da realização do pré-teste. Uma revisão final permite que os principais interessados aprovem a seleção de itens para o formulário final do teste.

DESENVOLVIMENTO DE TESTES E QUESTIONÁRIOS PARA AVALIAÇÃO DO APROVEITAMENTO ESCOLAR

|

63

RASTREAMENTO DE ITENS

O rastreamento de itens é fundamental. Cada item deve ter um título exclusivo que possa ser rastreado em cada etapa, desde o pré-teste até a análise. O número de itens que precisa ser desenvolvido é de aproximadamente 2,5 vezes a 3 vezes o número requerido para o formulário final do teste. Em geral, é necessário produzir diversos cadernos de pré-teste para cada série escolar. Alguns dos mesmos itens devem aparecer em diferentes cadernos. Isso permite que todos os itens do pré-teste sejam ligados à mesma escala e possam ser comparados. O título de cada item tem de ser independente da ordem do item no caderno, de modo que aqueles duplicados em diferentes cadernos e os exclusivos possam ser claramente identificados. O rastreamento de itens na etapa de análise pode ser complicado. Pode ser muito difícil acompanhar um item se o analista deixar de dar um título exclusivo a ele. O tipo de software utilizado pode complicar ainda mais o problema. O software em geral numera os itens automaticamente. Se alguns itens forem eliminados durante a análise do pré-teste, o software renumerará os itens; desse modo, o número de um item na análise talvez não corresponda mais ao número na análise inicial ou ao número no caderno de prova. A atribuição de um título único e exclusivo a cada item no caderno de prova e em cada uma das análises ajudará a evitar esse problema. O título de um item deve ser o mais significativo possível. O gerente de desenvolvimento de teste deve se coordenar com o analista de dados para estabelecer quantos caracteres podem ser usados num título. Pacotes de software de análise têm limites diferentes. A seguinte convenção para titulagem é utilizada por uma agência de testes num teste de leitura, escrita e matemática aplicado ao longo de vários anos:

yO primeiro caractere é L, M ou E para Leitura, Matemática ou Escrita. yCaracteres 2 e 3 indicam o ano em que o item foi aplicado (por exemplo, 07 para 2007). yCaracteres 4, 5 e 6 significam o item (começando com 001).

64 | SÉRIE P ESQ UISAS DO BA NC O M U NDI AL SOB R E AVAL I AÇ ÕE S DE DE SE M PE NH O E DU C AC I ONAL

Por exemplo, M06003 indica que o item é de um teste de matemática aplicado em 2006 e é o terceiro no conjunto de itens. Os itens devem receber um título durante o desenvolvimento. O mesmo título deve ser impresso nos cadernos de pré-teste e nos formulários finais. Os títulos podem ser impressos num tipo pequeno em escala cinza, na margem oposta ao número dos itens nos cadernos de prova, como mostrado a seguir: M06003

5

Complete esta soma. 6 + 7 = ________

É essencial manter a história completa de cada item desenvolvido. O analista de dados precisa de um registro das chaves para itens de múltipla escolha e da localização dos itens nos cadernos de pré-teste. Com frequência, os relatórios devem conter informações sobre o formato dos itens e os processos que cada item avaliou. O gerente de desenvolvimento de teste deve criar e manter uma planilha para manter um registro de cada item, de suas classificações e de sua situação, bem como de quaisquer mudanças que possam ter sido feitas no item. O exemplo a seguir mostra alguns títulos contidos numa planilha que registra todos os itens de leitura para um teste:

ynome da unidade ytítulo do item yconteúdo do item ysituação atual

ychave ypontuação máxima ytipo de texto

nome dado à unidade (por exemplo, “Carros de corrida”) título de seis dígitos (por exemplo, L06003) fraseado da questão do teste descrição indicando se o item está disponível para uso (por exemplo, liberado como um item de prática, rejeitado pelo cliente, permissão de direitos autorais recusada) resposta correta a uma questão de múltipla escolha número máximo de pontos naquele item gênero do texto (por exemplo, narração, informação)

DESENVOLVIMENTO DE TESTES E QUESTIONÁRIOS PARA AVALIAÇÃO DO APROVEITAMENTO ESCOLAR

yformato do item yprocesso ynotas da análise

|

65

formato da questão do teste (por exemplo, múltipla escolha) processo cognitivo (por exemplo, recuperação de informação) mudanças feitas no item depois do pré-teste

Os itens devem ser armazenados num local seguro. Todos os materiais relevantes associados ao desenvolvimento de uma unidade ou de um item devem ser armazenados com aquele item. Mesmo o material que não foi usado no pré-teste deve ser mantido, porque poderá ser usado mais tarde na mesma série ou em outras. A fonte de documentos ou ilustrações deve ser registrada e armazenada com a unidade ou o item, para que se possa pedir permissão para reprodução, se necessário. Devem ser mantidas cópias de documentos originais, de modo que quaisquer modificações subsequentes possam ser identificadas. A maior parte dos itens pode ser armazenada eletronicamente. Como medida de precaução, deve-se manter o backup dos arquivos de itens em outro computador ou em outro disco. O título correto e uma classificação completa e acurada ajudam a garantir que os itens estejam armazenados nas pastas adequadas do computador e possam ser recuperados facilmente por outras pessoas. Os itens tendem a sofrer constantes revisões, inclusive mudanças nos guias de pontuação e em ilustrações, bem como pequenos aprimoramentos no fraseado. A última versão do item deve ser facilmente identificável a partir da informação contida na pasta do arquivo.

NOTAS 1. Para informação adicional sobre a construção de itens de teste, ver Chatterji (2003), Haladyna (1999), Kubiszyn e Borich (2000) e Linn e Miller (2004). 2. A Avaliação Nacional do Progresso Educacional dos Estados Unidos inclui um componente de escrita (Conselho Diretor da Avaliação Nacional, s.d.).

CAPÍTULO

4

PRÉ-TESTE DE ITENS

A

construção de testes para uma avaliação nacional usa, na maior parte dos casos, a tecnologia que tem sido desenvolvida para o desenho de testes destinados a avaliar e divulgar o aproveitamento de alunos individuais. Como esses testes são usados para discriminar entre desempenhos de alunos, todos os alunos farão basicamente o mesmo teste. O objetivo de uma avaliação nacional é bastante diferente: não se trata de discriminar entre alunos, mas de descrever à medida que os alunos num sistema educacional como um todo (ou em partes dele claramente definidas) adquiriram os conhecimentos e habilidades prescritos em um currículo. Para fazer isso, o teste deve fornece uma cobertura adequada do currículo, o que pode requerer que se trabalhe com uma amostra do conteúdo do currículo muito maior que a usada em testes destinados a avaliar alunos individualmente. A necessidade de uma ampla cobertura do currículo é reforçada quando uma avaliação busca identificar áreas de currículo em que os alunos apresentam pontos fortes e pontos fracos. Para lidar com essas questões, muitas avaliações nacionais e internacionais usam um número muito maior de itens que o utilizado em um teste concebido para avaliar alunos individualmente. No entanto, para evitar pôr um peso muito grande sobre os alunos individualmente, cada

68 | SÉRIE P ESQ UISAS DO BA NC O M U NDI AL SOB R E AVAL I AÇ ÕE S DE DE SE M PE NH O E DU C AC I ONAL

um responde a apenas uma parcela do número total de itens numa avaliação. Assim, é preciso fornecer vários conjuntos alternativos de itens no planejamento de cadernos que passam de um aluno a outro. O número exato varia de uma avaliação nacional para outra. Essa abordagem, embora desejável em muitos sentidos, traz consigo diversas complicações para a aplicação de uma avaliação nacional. Em primeiro lugar, o desenho do teste é complexo, porque é necessário garantir a superposição e a correspondência de itens de diferentes subamostras. Segundo, a aplicação é mais complexa porque é necessário garantir que os alunos recebam os cadernos certos e que as instruções dadas sejam adequadas para todos os cadernos. Finalmente, a combinação de dados de múltiplos conjuntos de itens requer procedimentos estatísticos relativamente complexos. Por todas essas razões, muitos países em desenvolvimento não têm usado cadernos de teste que passam de um aluno a outro em suas avaliações nacionais. A maior parte dos comentários nas páginas seguintes e também no Capítulo 5 aplica-se tanto a situações em que uma equipe de avaliação nacional usa múltiplos cadernos de prova quanto àquelas em que se opta por um único caderno de prova para medir o aproveitamento do aprendizado numa área temática. As duas abordagens requerem que se dê grande atenção à realização de um cuidadoso pré-teste. O pré-teste, ou teste-piloto, é um elemento essencial do desenvolvimento do teste. Um pré-teste é aplicado a alunos com as mesmas características daqueles que farão o teste final. Devem ser incluídas escolas de diferente tamanhos, em diferentes áreas, com alunos de variados contextos socioeconômicos. Idealmente, o pré-teste é realizado um ano antes do teste, na mesma época em que se fazem as provas finais. Por exemplo, o pré-teste poderia ser dado aos alunos da 5a série em novembro de 2010 e o teste final aos alunos da 5a série, em novembro de 2011. Na prática, esse cenário talvez não seja possível, e o pré-teste poderia ser realizado com alunos que têm alguns meses a mais ou a menos de experiência escolar que a população-alvo. Por exemplo, alunos da 6a série podem passar por um pré-teste no início do ano escolar para fornecer dados a um teste que será aplicado aos alunos da 5a série no final do ano escolar.

DESENVOLVIMENTO DE TESTES E QUESTIONÁRIOS PARA AVALIAÇÃO DO APROVEITAMENTO ESCOLAR

|

69

Os alunos que participarem do pré-teste não devem fazer o teste final. Se o teste final for aplicado a uma amostra aleatória estatisticamente selecionada, a amostra final deve ser extraída antes da seleção de escolas para o pré-teste. É boa prática fazer o pré-teste de um número de itens que seja duas ou três vezes o número requerido para o teste final. A extensão de cada formulário do pré-teste deve ser semelhante à do teste final. É útil dar títulos aos formulários em ordem alfabética de acordo com a série; por exemplo, cinco formulários da 3a série receberiam títulos 3A, 3B, 3C, 3D e 3E, e cinco formulários da 8a série seriam 8A, 8B, 8C, 8D e 8E. Vários formulários de pré-testes serão necessários para cada série. Idealmente, os formulários para cada série devem ser distribuídos aleatoriamente em cada classe. Se forem usados três formulários para a 5a série (5A, 5B e 5C), cada escola deve receber uma combinação de todos os três formulários. Se não for possível seguir esse procedimento, é importante garantir que cada formulário seja distribuído em todos os segmentos do pré-teste da amostra. Por exemplo, o formulário 5A não deve ser dado apenas a alunos da cidade; o formulário 5B, somente a alunos das áreas rurais do norte; e o formulário 5C, apenas a alunos das áreas rurais do sul. Os formulários devem ser tão equivalentes quanto possível à tabela de especificações do teste. A ligação dos formulários do pré-teste é essencial para que os itens possam ser comparados. A ligação significa que parte dos mesmos itens aparece em diferentes formulários. Alguns formulários de pré-teste inevitavelmente serão mais difíceis que outros. Ao ligar os formulários, a dificuldade geral dos itens pode ser determinada independentemente do formulário no qual apareceram. É necessário fazer a ligação horizontal quando se testar apenas uma série. A ligação vertical será requerida se mais de uma série estiver sendo testada. Um mínimo de 200 alunos deve tentar todos os itens do pré-teste em cada série. Se existirem três formulários de pré-teste para a 5a série, então pelo menos 600 alunos farão o pré-teste. Dos 200 alunos que farão cada item do pré-teste, pelo menos 150 respostas são necessárias. Inevitavelmente, alguma perda de dados ocorrerá durante o pré-teste. Por qualquer razão inesperada, uma escola pode se retirar do programa

70 | SÉRIE P ESQ UISAS DO BA NC O M U NDI AL SOB R E AVAL I AÇ ÕE S DE DE SE M PE NH O E DU C AC I ONAL

de pré-teste no último minuto ou aplicar o teste a um número de alunos menor que o previsto. Também é improvável que todos os alunos tentem todos os itens do pré-teste. Dado que o pré-teste deve ser realizado sob as mesmas condições do teste final, o tempo de que os alunos dispõem para fazer o teste deve ser o mesmo que terão no teste final. Talvez não se saiba o número de itens que os alunos podem completar no tempo permitido. Se for esse o caso, então se deve montar um formulário com uma amostra dos itens do pré-teste e aplicá-lo em algumas classes antes que o pré-teste seja montado. Com isso, será possível garantir que o número de itens em cada formulário do pré-teste seja realista. Uma avaliação nacional não é um teste de velocidade. A maior parte dos alunos deve ter tempo de tentar a maior parte dos itens. Deve-se tentar completar todos os pré-testes no período de duas a três semanas. O pré-teste fornece a oportunidade de se avaliarem a adequação e a qualidade dos itens. Também permite que muitos aspectos da aplicação do teste sejam ajustados. Os aplicadores do pré-teste deverão fornecer as seguintes informações:

yOs alunos tiveram suficientes questões de prática, com instruções e explicações suficientemente claras? yO tamanho do teste foi adequado ou muito longo? E aproximadamente quantos alunos terminaram 10 minutos mais cedo? yOs alunos pareciam atraídos pelo teste? yOs alunos dispunham de recursos suficientes, como lápis e borrachas? yAs instalações da escola eram adequadas para a realização de um teste? yOs professores e alunos compreenderam o objetivo do teste?

DESENHO DO FORMULÁRIO DO PRÉ-TESTE

A análise dos dados do pré-teste fornece a base para a seleção dos itens que entrarão no teste final. Muitas avaliações nacionais preparam diferentes formulários de cadernos de prova associados a cada série. Essa

DESENVOLVIMENTO DE TESTES E QUESTIONÁRIOS PARA AVALIAÇÃO DO APROVEITAMENTO ESCOLAR

|

71

abordagem ajuda a conseguir uma cobertura do currículo maior que no caso de um teste único e, ao mesmo tempo, ajuda a garantir que os alunos não sejam submetidos a testes excessivamente longos. A diagramação e a ligação do teste devem ser feitas de forma adequada, para garantir que os dados possam ser combinados em uma única escala. O analista de dados, o estatístico ou o principal profissional de computação precisam estar envolvidos no desenho do pré-teste para garantir a observação das exigências relativas aos dados. Formulários ligados partilham itens comuns. Em geral, são requeridos entre 8 e 10 itens comuns. Existem vários modos de ligar os formulários. Com um único conjunto comum de itens de ligação, os mesmos 8 a 10 itens de ligação são repetidos em cada formulário. Observe que, se os itens de ligação têm um desempenho fraco na análise (com características estatísticas ruins), a ligação dos formulários será fraca e a qualidade geral da análise, consequentemente, será enfraquecida. O segundo modo é a ligação circular. Diferentes conjuntos de itens são usados entre pares de formulários. Por exemplo, o formulário 3A pode ser ligado ao formulário 3B por meio do conjunto X de itens, o formulário 3B ao formulário 3C por meio do conjunto Y de itens, e o formulário 3C ligado, por sua vez, ao formulário 3A por meio do conjunto Z de itens. Cada formulário também contém itens exclusivos que não aparecem em nenhum dos outros (Figura 4.1). Um terceiro modo é a ligação linear, que segue o modelo de ligação circular, sem, no entanto, excluir o conjunto Z de itens. Assim, o forFIGURA 4.1

Exemplo de Ligação Circular de Itens Formulário 3A

Formulário 3B

Formulário 3C

conjunto de itens X

conjunto de itens X

conjunto de itens Y

conjunto de itens Z

conjunto de itens Y

conjunto de itens Z

conjunto de itens exclusivo de 3A

conjunto de itens exclusivo de 3B

conjunto de itens exclusivo de 3C

Fonte: Criação dos autores.

72 | SÉRIE P ESQ UISAS DO BA NC O M U NDI AL SOB R E AVAL I AÇ ÕE S DE DE SE M PE NH O E DU C AC I ONAL

mulário 3A seria ligado ao 3B, e o 3B ligado ao 3C, mas não haveria qualquer ligação entre os formulários 3A e 3C. Se não estiver claro qual será o desempenho dos itens, é preferível usar a ligação circular e um número maior de itens de ligação que o necessário. Na ligação circular, mesmo que falhe um conjunto de itens de ligação, as ligações entre os formulários serão preservadas. As ligações podem ser tanto horizontais (em uma única série) quanto verticais (em diferentes séries – por exemplo, entre a 3a e a 5a séries). Se não se pretende estabelecer uma ligação vertical entre os formulários finais, então as ligações no pré-teste devem enfatizar fortes ligações horizontais. Podem ser incluídas ligações verticais mínimas para permitir a comparação de dados do pré-teste entre diferentes séries. Tecnicamente, são necessários apenas 8 ou 10 itens em comum entre as séries. Estimar o que define um bom item de ligação vertical é mais difícil que estimar o que define uma boa ligação horizontal. Como se trata de um pré-teste e como a qualidade dos itens de ligação é desconhecida, é aconselhável ter pelo menos 16 itens de ligação vertical distribuídos por cada formulário. Quando se pretende que os formulários finais sejam ligados verticalmente, é importante ter muitos mais itens de ligação vertical no pré-teste que o requerido no teste final, de modo que os melhores itens de ligação possam ser selecionados para o formulário final. Um modelo alternativo de pré-teste para formulários finais com ligação vertical é mostrado na Figura 4.2. O modelo se baseia na distribuição aleatória de formulários A, B e C em cada classe. Neste exemplo bastante elaborado, os formulários 3A, 5A, 7A e 10A são ligados verticalmente, de forma linear, a um conjunto de 8 a 10 itens. Os itens são ligados de modo semelhante nos formulários B e C. Existem, ao todo, 8 a 10 itens de ligação horizontal entre os formulários A e B da 3a série e da 7a série e, ao todo, 8 a 10 itens de ligação horizontal entre os formulários B e C da 5a série e da 10a série. Esse número de ligações horizontais é aceitável. Se os formulários de teste não serão distribuídos aleatoriamente dentro de cada classe, ou se os elaboradores de itens não estiverem seguros quanto à qualidade dos itens de ligação horizontal, devem ser incluídas mais ligações horizontais em cada série.

DESENVOLVIMENTO DE TESTES E QUESTIONÁRIOS PARA AVALIAÇÃO DO APROVEITAMENTO ESCOLAR

|

73

FIGURA 4.2

Modelo para Ligação Vertical de Itens 3ª série Formulário A

4 a 5 itens comuns a 3A e 3B

8 a 10 itens comuns a 3A e 5A

3ª série Formulário B

3ª série Formulário C

8 a 10 itens comuns a 3B e 5B

8 a 10 itens comuns a 3C e 5C 4a5 itens comuns a 5B e 5C

5ª série Formulário A

5ª série Formulário B

8 a 10 itens comuns a 5A e 7A

8 a 10 itens comuns a 5B e 7B

8 a 10 itens comuns a 5C e 7C

7ª série Formulário B

7ª série Formulário C

8 a 10 itens comuns a 7B e 10B

8 a 10 itens comuns a 7C e 10C

7ª série Formulário A 8 a 10 itens comuns a 7A e 10A

10ª Série Formulário A

4 a 5 itens comuns a 7A e 7B

10ª série Formulário B

4a5 itens comuns a 10B e 10C

5ª série Formulário C

10ª série Formulário C

Fonte: Criação dos autores.

Os itens de ligação devem ser localizados perto do começo ou no meio dos formulários de teste, em vez de no final, para evitar que os alunos não respondam aos itens. Os itens de ligação devem ser localizados numa ordem semelhante em cada um dos cadernos e também nos cadernos de prova. Isso evita que diferenças no desempenho dos alunos possam ser atribuídas à ordem ou à posição dos itens. Pequenas diferenças na localização dos itens de ligação são inevitáveis. Grandes diferenças devem ser evitadas. Os itens de ligação devem ficar na faixa média de dificuldade. Em geral, os alunos com habilidade média na população-alvo devem ter de 40% a 60% de probabilidade de responder a esses itens corretamente. Como se trata de um pré-teste, a dificuldade dos itens para a população

74 | SÉRIE P ESQ UISAS DO BA NC O M U NDI AL SOB R E AVAL I AÇ ÕE S DE DE SE M PE NH O E DU C AC I ONAL

do pré-teste não será conhecida; os elaboradores de itens terão de fazer a melhor estimativa possível do grau de dificuldade. Se não tiverem certeza da exatidão de suas estimativas, é aconselhável aumentar o número de itens de ligação. Se os itens estiverem organizados em unidades, é melhor ligar os formulários com itens tirados de duas ou mais unidades, caso os itens associados a uma delas não funcionem bem. Não é necessário usar todos os itens de uma unidade para fazer a ligação; alguns itens podem ser comuns e outros exclusivos, como mostrado na Tabela 4.1. Ambas as unidades, “Encontrando um animal de estimação” e “Monte Avarapa”, aparecem nos formulários 3A e 3B da 3a série. Há três itens comuns a cada unidade e a cada formulário. O pré-teste tem itens adicionais exclusivos.

TABELA 4.1

Itens de Ligação em Duas Unidades de Leitura Itens comuns a 3A e 3B

Itens exclusivos de 3A

Itens exclusivos de 3B

“Encontrando um Animal de Estimação”

3, 4, 6

2, 7

1, 5

“Monte Avarapa”

1, 2, 5

3

4

Unidades de Leitura

Fonte: Criação dos autores.

Se o pré-teste incluir uma combinação de formatos de itens, os itens de ligação devem refletir essa combinação. Os itens devem ter títulos exclusivos impressos em escala cinza próximos ao item em cada formulário de teste no qual apareça o item. Itens com o mesmo título devem ser idênticos em todos os aspectos, exceto em sua ordem de aparecimento num formulário de teste. Itens com ligeiras variações em seus fraseados devem ter títulos diferentes. Os elaboradores de itens devem criar uma planilha com uma lista de todos os itens; títulos separados devem mostrar quais itens aparecem em quais formulários e em que ordem. A Tabela 4.2 mostra parte de uma planilha de amostra que cobre três unidades (“Cachorros”, “Elisa” e “Bang”) de um teste de leitura da 5a série.

DESENVOLVIMENTO DE TESTES E QUESTIONÁRIOS PARA AVALIAÇÃO DO APROVEITAMENTO ESCOLAR

|

75

TABELA 4.2

Parte de uma Planilha para Rastrear Itens em Diferentes Formulários Nome da unidade

Título do item

Formulário 5A

Formulário 5B

Formulário 5C

Formulário 5D

“Cachorros”

R070101

1

1

4

4

“Cachorros”

R070102

3

3

5

5

“Cachorros”

R070103

“Cachorros”

R070104

“Elisa”

R070201

1

“Elisa”

R070202

2

1

“Elisa”

R070203

3

2

“Elisa”

R070204

“Bang”

R070301

4

6

“Bang”

R070302

5

7

2 2

3

Fonte: Criação dos autores.

Os itens de três unidades aparecem à esquerda. Os números nas colunas mostram a ordem em que aparece cada um desses itens em cada um dos formulários de pré-teste. Os primeiros dois itens em “Cachorros” são comuns aos quatro formulários.

IMPRESSÃO E REVISÃO DO PRÉ-TESTE

Cada item submetido a um pré-teste deve aparecer tal como aparecerá no formulário final. Assim também, materiais de estímulo, gráficos e ilustrações devem ser apresentados como se pretende que apareçam no teste final. Idealmente, a ordem de aparecimento dos itens de ligação deveria ser idêntica, mas, na prática, pode variar ligeiramente. O material de estímulo para itens de leitura deve aparecer (a) na mesma página que os itens ou (b) no lado esquerdo da página, ficando os itens no lado direito da página, para permitir que os alunos passem com facilidade dos itens para o texto. A página de rosto do caderno de pré-teste não precisa conter todos os detalhes exigidos no formulário final. Deve pedir informações

76 | SÉRIE P ESQ UISAS DO BA NC O M U NDI AL SOB R E AVAL I AÇ ÕE S DE DE SE M PE NH O E DU C AC I ONAL

sobre escola do aluno, série, gênero, primeiro idioma e idioma falado na família, e idade. Como, de maneira geral, os dados do pré-teste não são divulgados, não há necessidade de obter os nomes dos alunos no pré-teste. Alguns detalhes relativos a características socioculturais são necessários no formulário final e podem não ser exigidos no pré-teste. A diagramação dos itens deve ser consistente em todos os formulários de teste. A seguinte lista de verificação pode ser útil durante a preparação ou a revisão da impressão dos materiais do pré-teste:

yTítulos (grandes e claros). yMargens – superior, inferior, esquerda e direita (consistentes). yNumeração das páginas (consistente). yNúmeros dos itens (grandes e claros). yTítulos dos itens (aplicados). yLinhas para os alunos escreverem as respostas (claras e de comprimento adequado). yFraseado dos itens (tipo tamanho 12 ou 14). yNúmero de palavras por linha (10 a 12). yMaterial de estímulo (claro, preferentemente num tipo diferente do usado nos itens). yMaterial de estímulo e itens associados (na mesma página ou na oposta). yCabeçalhos e legendas (consistentes e úteis). yVerificação da soletração (feita). Alguns testes incluem opções de pontuação em escala cinza. Por exemplo, 0 ou 1 poderiam ser dados para um item a ser pontuado incorreto ou correto, respectivamente. A opção de pontuação para itens que não são mostram uma tentativa de resposta pelo aluno normalmente é 9, conforme visto no Capítulo 3. Os avaliadores podem simplesmente fazer um círculo em volta da pontuação adequada. A inserção de pontuações relembra aos avaliadores a gama de opções de pontuação. Todos os cadernos de prova e manuais de aplicação precisam passar por uma revisão detalhada e completa. Os revisores devem avaliar os

DESENVOLVIMENTO DE TESTES E QUESTIONÁRIOS PARA AVALIAÇÃO DO APROVEITAMENTO ESCOLAR

|

77

itens do teste como se eles mesmos estivessem respondendo às questões. Devem certificar-se de que o material atende aos seguintes critérios:

yAs instruções iniciais e os itens de prática estão claros e sem ambiguidade. yOs itens estão claros e sem ambiguidade. yO material de estímulo está claro e é de leitura fácil. yAs opções de múltipla escolha incluem uma resposta correta e outras opções que são todas claramente incorretas. yCada uma das opções da múltipla escolha faz sentido. yExiste um espaço adequado para os alunos registrarem as respostas, quando solicitados. yO material de estímulo para leitura está na mesma página que os itens ou na página da esquerda, com os itens na página oposta à direita. yOs itens numa unidade são independentes; isto é, a resposta a um item não está dada no comando ou nas opções de outro item. yOs itens de ligação são idênticos. yNão existe qualquer erro de soletração ou gramatical. yA diagramação dos vários formulários de teste é consistente. A revisão é fundamental. Erros graves podem ocorrer e têm ocorrido em praticamente todas as etapas do processo de pré-teste. O pré-teste representará uma séria perda de tempo, esforços e fundos se contiver erros tipográficos e inconsistências. Isso reduz a utilidade dos dados, porque itens incorretos do pré-teste não podem ser usados no formulário final do teste. Portanto, é importante usar revisores experientes e alocar tempo suficiente para a revisão. Os cadernos do pré-teste devem ser conferidos quando chegarem da impressão. Devem ser feitas conferências aleatórias de cada pacote ou caixa de cadernos para garantir o seguinte:

yTodas as páginas foram impressas claramente. yAs páginas estão na ordem correta. yAs páginas não estão duplicadas. yA leitura de estímulo para cada unidade está na página correta. yAs ilustrações estão claras.

78 | SÉRIE P ESQ UISAS DO BA NC O M U NDI AL SOB R E AVAL I AÇ ÕE S DE DE SE M PE NH O E DU C AC I ONAL

Os cadernos de pré-teste devem ser impressos e conferidos bem antes de seu envio para as escolas. Essa providência dará tempo para reimpressão, caso seja necessário. Como as tiragens para o pré-teste são, em geral, pequenas, a reimpressão, se necessária, custará relativamente pouco.

REALIZAÇÃO DO PRÉ-TESTE

Os alunos não devem ter qualquer dúvida sobre como apresentar suas respostas a cada item ou questão do pré-teste ou do teste final. Os testes são projetados para testar o conhecimento de uma importante área do currículo – não as habilidades dos alunos de adivinhar como devem apresentar suas respostas. Os alunos devem receber oportunidades adequadas durante o pré-teste, tanto no começo do pré-teste quanto no início das seções dentro do pré-teste, para que façam os itens de prática. É particularmente importante dar um número adequado de itens de prática (por exemplo, 3 ou 4) aos alunos de sistemas educacionais nos quais não exista uma tradição de testes do tipo múltipla escolha. O número de itens nos formulários de pré-teste pode ser igual ao dos formulários finais ou ligeiramente menor. É importante que todos os alunos tentem responder a todos os itens do pré-teste. Se o pré-teste for muito longo, ou se contiver muitos itens difíceis na parte final, então poucos itens do final do teste serão respondidos. Comece cada formulário com alguns itens fáceis, para que os alunos mais fracos sintam-se encorajados a tentar fazer todo o teste. Em geral, é desejável distribuir a dificuldade dos itens subsequentes de tal modo que os alunos persistam, em vez de abandonarem todo o teste quando se defrontarem com uma série de itens difíceis. Tente fazer com que a dificuldade geral de cada formulário do pré-teste seja basicamente igual. Evite que qualquer um dos formulários esteja cheio de itens difíceis, porque os alunos podem desistir. Se isso acontecer, os itens na parte final do formulário não terão dados suficientes para que se possa fazer uma boa análise do pré-teste. O pré-teste oferece a oportunidade de se experimentar versões alternativas de itens em diferentes formulários. Por exemplo, um item pode

DESENVOLVIMENTO DE TESTES E QUESTIONÁRIOS PARA AVALIAÇÃO DO APROVEITAMENTO ESCOLAR

|

79

ser testado como uma questão de múltipla escolha e como um item aberto (Quadro 4.1). Diferentes fraseados de itens abertos também podem passar por um pré-teste. Observe que versões alternativas de itens não devem ser usadas como itens de ligação; itens de ligação devem ser idênticos. QU A D R O 4 . 1

Exemplo de um Item nos Formatos de Múltipla Escolha e Aberto 13 + 17 + 8 = (A) 28

(B) 30

(C) 38

(D) 110

OU 13 + 17 + 8 = _______

PONTUAÇÃO DO PRÉ-TESTE

O objetivo de coletar dados de pré-teste é obter informações que ajudarão a selecionar itens de boa qualidade para o teste final. Em geral, as pontuações e os nomes dos alunos não precisam ser ligados. As principais questões para pontuação do pré-teste são controle de qualidade e consistência no tratamento das respostas dos alunos. Todas as pontuações exigem procedimentos de controle de qualidade. Em geral, é mais econômico fazer a pontuação do pré-teste e a entrada de dados manualmente, porque o número de itens é manejável. Os avaliadores e o pessoal que faz a entrada de dados devem ser treinados adequadamente. O gerente de desenvolvimento de testes deve providenciar para que a qualidade dos trabalhos seja conferida duas vezes por dia, a fim de garantir consistência e confiabilidade. Essas conferências podem ser feitas com mais frequência nas etapas iniciais e talvez com menos frequência nas etapas mais avançadas se o trabalho de um avaliador for considerado satisfatório. Saber o percentual de alunos que não tentaram responder a itens do pré-teste fornece uma informação útil sobre como estruturar o formulário final do teste. A seguir, as diretrizes gerais relativas a esta questão:

80 | SÉRIE P ESQ UISAS DO BA NC O M U NDI AL SOB R E AVAL I AÇ ÕE S DE DE SE M PE NH O E DU C AC I ONAL

ySe 15% ou mais dos alunos não tiverem tentado responder a vários itens no final de um teste, o pré-teste pode ter sido muito longo. Considere fazer o teste final mais fácil, mais curto ou ambos. ySe 15% ou mais dos alunos não tiverem tentado responder a um item que não está no final do teste, pode haver algo errado na forma como o item foi apresentado ou ele pode ser muito difícil. Os alunos podem ter ignorado o item, não souberam como registrar sua resposta ou não compreenderam o fraseado. Considere rever e fazer o pré-teste de um novo item. ySe certo grupo na população (por exemplo, 15% ou mais de meninas) não tiver tentado responder a um item que foi respondido pela maior parte dos alunos, o item pode ser tendencioso. Considere não incluí-lo no teste final. ySe 15% ou mais dos alunos consistentemente não tentaram responder a itens num formato específico (por exemplo, itens abertos), esses alunos podem não ter compreendido como registrar suas respostas ou podem ter precisado de mais itens de prática para aprender a responder a esse tipo de item. Considere acrescentar itens de prática adicionais ou faça uma amostra de itens desse formato e teste-os novamente. Em geral, pontuações em branco ou que não foram tentadas aparecem como 9. Assegure-se de que nenhum item do teste tenha uma possível pontuação correta de 9. Se isso ocorrer, pode-se usar X (ou outra letra do alfabeto) para denotar pontuações em branco. Pontuadores e avaliadores precisam ter clareza sobre as regras para pontuar as respostas em branco. Uma resposta em branco é, em geral, aquela em que o aluno não fez qualquer marca de lápis. Qualquer tentativa de responder a um item, ainda que ilegível ou ininteligível, é, em geral, tratada como resposta incorreta, e não em branco. Devem ser criados guias de pontuação para itens de múltipla escolha, a fim de permitir que o elaborador de teste ou o revisor obtenham o maior número possível de dados úteis de cada item. Um item de múltipla escolha com quatro opções, por exemplo, poderia ser codificado como 1, 2, 3, 4, 8 ou 9. Podem ser usados números

DESENVOLVIMENTO DE TESTES E QUESTIONÁRIOS PARA AVALIAÇÃO DO APROVEITAMENTO ESCOLAR

|

81

adicionais para refletir mais opções. Os números 1, 2, 3 e 4 indicam a opção que o aluno selecionou. Um código 7 pode ser usado para mostrar que um aluno selecionou duas ou mais opções e possivelmente não compreendeu como responder a um item de múltipla escolha. No Volume 4 desta série usamos o código 8 para indicar que o aluno não tentou o item e 9 para mostrar que aquele item não foi aplicado ao aluno (estava em outro formulário de teste) e, portanto, não deve ser pontuado como incorreto. Itens de múltipla escolha nunca devem entrar no computador como “correto” ou “incorreto”. O formato dos itens de múltipla escolha deve ter uma numeração-padrão implícita de 1 a 4 ou 5, dependendo do número de opções. O avaliador ou a pessoa que faz a entrada de dados simplesmente registra o número (implícito) da opção que o aluno selecionou para cada item de múltipla escolha. Nem o avaliador nem quem faz a entrada de dados têm necessidade de saber qual a opção correta ou se a resposta do aluno está certa ou errada. A entrada da folha de dados poderia se parecer com o exemplo da Quadro 4.2. QU A D R O 4 . 2

Exemplo de uma Folha de Entrada de Dados para o Pré-teste

Aluno

Q1

Q2

Q3

Q4

Almir Barros

2

3

2

1

Míriam Campos

4

3

2

4

Alberto Duarte

2

3

1

4

Ordem de aparecimento das questões no formulário do teste

Opções escolhidas por cada aluno para cada item

Fonte: Autores.

O elaborador de itens tem de dar ao analista de dados uma lista das opções corretas, ou chaves, para cada item, enquanto o analista de dados as registrará no programa de software. O software de análise, então, computará cada resposta do aluno como correta ou incorreta, de acordo com a lista de chaves.

82 | SÉRIE P ESQ UISAS DO BA NC O M U NDI AL SOB R E AVAL I AÇ ÕE S DE DE SE M PE NH O E DU C AC I ONAL

O conhecimento das opções incorretas selecionadas pelos alunos dá aos elaboradores de itens uma informação importante sobre a qualidade dos itens de múltipla escolha e sua possível utilidade para o formulário final do teste. Por exemplo, se quase nenhum aluno selecionar qualquer de duas opções incorretas, essas duas opções evidentemente não funcionaram como distratores efetivos. Itens abertos e de resposta fechada são, em geral, pontuados com 0 (incorreto), 1 (correto) ou 9 (em branco). As questões de crédito parcial poderiam ser pontuadas com 0, 1, 2 ou 9. A pontuação manual de itens do pré-teste requer treinamento e controle de qualidade semelhantes à pontuação manual do teste final. Um elaborador de itens com experiência deverá fazer o treinamento e supervisionar a pontuação de itens do pré-teste. Em http://go.worldbank.org/ M2O1YDQO90, você encontra exemplos de guias de pontuação para itens abertos de linguagem, matemática e ciências. Os elaboradores de itens devem usar respostas do pré-teste para rever e refinar seus guias de pontuação e suas categorias de pontuação antes que comece a pontuação do pré-teste. Antes do início da pontuação manual, os elaboradores de itens devem extrair uma amostra de cadernos de prova completos do pré-teste e comparar as respostas efetivas dos alunos a itens de resposta curta com aquelas antecipadas no guia de pontuação. Os elaboradores de itens devem usar a amostra para incluir exemplos de respostas dos alunos em seus guias de pontuação. Os guias de pontuação devem incluir tanto respostas incorretas quanto as corretas. O guia de pontuação de crédito parcial no Quadro 3.12 mostra exemplos de respostas reais de alunos que correspondem a cada uma das categorias do guia de pontuação, inclusive as pontuações zero. Os elaboradores de itens devem refinar ou expandir seus guias de pontuação para levar em conta a gama de respostas realmente dadas pelos alunos. Às vezes, essas revisões podem ser bastante amplas. Os alunos tendem a surgir com respostas não antecipadas, mas corretas, ou com formas não costumeiras, mas exatas, de expressar suas ideias. Tais exemplos devem ser acrescentados aos manuais de pontuação, se forem razoavelmente comuns. Se muitos alunos derem respostas de difícil clas-

DESENVOLVIMENTO DE TESTES E QUESTIONÁRIOS PARA AVALIAÇÃO DO APROVEITAMENTO ESCOLAR

|

83

sificação como corretas ou incorretas, os elaboradores de itens precisam deixar claro em seus guias de pontuação como fazer essas distinções. Um painel ou o gerente de desenvolvimento de teste devem rever os guias de pontuação antes que os cadernos do pré-teste sejam pontuados. Durante a pontuação manual, os elaboradores de itens devem receber retornos dos avaliadores a respeito de quaisquer outros aperfeiçoamentos que possam ser necessários no guia de pontuação. Se houver necessidade de revisões significativas em um item do guia, o item talvez tenha de ser repontuado, de acordo com o guia de pontuação revisto, para garantir a consistência. É essencial rever os guias de pontuação de forma que os critérios para pontuar e os exemplos dados correspondam à gama real de possíveis respostas dos alunos. Se os guias de pontuação não forem revistos, alguns itens serão perdidos, porque nenhuma das respostas dos alunos pode atender às excessivas demandas do guia. A pontuação de outros itens pode ser não confiável porque os avaliadores, não sabendo como pontuar as respostas que não se enquadram nas diretrizes de pontuação, terão de tomar as próprias decisões individualmente. Em geral, pontuações mais altas para questões de crédito parcial indicam uma resposta mais sofisticada ou extensa. Uma pontuação 2 sugere uma resposta “melhor” que uma pontuação 1. Dados de crédito parcial do pré-teste podem ser usados para colher informação sobre categorias de respostas dos alunos, e isso pode ajudar a refinar itens do pré-teste ou os guias de pontuação. As respostas a um item de crédito parcial do pré-teste podem ser codificadas como 0, 1, 2 ou 3, embora essas pontuações possam não ser hierárquicas. Nesses sistemas de pontuação não hierárquicos, uma pontuação 3 não é considerada mais sofisticada que uma pontuação 2 ou 1. Cada pontuação 1, 2 e 3 denota um tipo de resposta correta, mas diferente. Por exemplo, pode haver três diferentes modos de resolver um problema de matemática. O guia de pontuação pode ser bastante complexo de modo a permitir essas três possibilidades. Se todos os alunos do pré-teste escolherem o mesmo método, o elaborador de itens poderia rever o guia de pontuação para se concentrar no método mais popular, com uma breve referência às outras possibilidades. O guia de pontuação seria revisto para o teste final, mostrando uma pontuação 1

84 | SÉRIE P ESQ UISAS DO BA NC O M U NDI AL SOB R E AVAL I AÇ ÕE S DE DE SE M PE NH O E DU C AC I ONAL

para a resposta correta, independentemente do método usado para resolver o problema. Os elaboradores de itens devem informar ao analista de dados quando itens de crédito parcial são usados para indicar categorias, em vez de hierarquias, pois isso permitirá que o analista diferencie entre as respostas. O analista pode atribuir uma pontuação 1 a cada categoria de resposta correta. Assim, é muito importante que os avaliadores compreendam quando estão pontuando itens hierárquicos de crédito parcial e itens de crédito parcial relativos a categorias. Todas as questões de crédito parcial no teste final devem ser tratadas como hierárquicas. O Volume 4 desta série tem uma seção especial sobre análise de dados do pré-teste. Nela, estão cobertas as duas abordagens de análise: a teoria clássica dos testes (TCT) e a teoria de resposta ao item (TRI). A TRI é frequentemente usada para analisar itens de teste, fazer a ligação de formulários de teste e desenvolver escalas para apresentar os resultados de uma avaliação nacional (Beaton e Johnson, 1989); tem diversas vantagens quando usada para desenvolver escalas a partir dos dados da avaliação. A TRI permite que um item seja caracterizado independentemente de qualquer amostra de indivíduos que tenha respondido a ele, assim como permite que um respondente individual seja caracterizado independentemente de qualquer amostra de itens aos quais tenha respondido. Assim, a TRI é particularmente útil quando múltiplos conjuntos de itens são aplicados aos alunos em uma avaliação. No entanto, também apresenta algumas desvantagens – em especial, a complexidade do procedimento, que requer níveis consideráveis de habilidade e experiência. Quando essas habilidades e experiências não estão disponíveis num país, a aplicação da teoria clássica dos testes pode ser vista como aceitável.

CONFIABILIDADE

Tanto o pré-teste quanto o teste final devem demonstrar evidências de que foi feito um teste de confiabilidade. Uma medida de confiabilidade é um indicador da consistência dos resultados do teste. A confiabilida-

DESENVOLVIMENTO DE TESTES E QUESTIONÁRIOS PARA AVALIAÇÃO DO APROVEITAMENTO ESCOLAR

|

85

de depende da qualidade dos itens do teste, do próprio teste, da forma como os testes foram aplicados, das características do grupo de alunos (como o grau de empenho com que fazem o pré-teste ou os testes de avaliação nacional) e da qualidade da pontuação dos itens do teste. A questão da confiabilidade está coberta no Volume 4 desta série. Os índices de confiabilidade do teste variam de 0 a 1; o 0 representa um teste no qual as respostas dos alunos são totalmente inconsistentes (por exemplo, um teste no qual todos os alunos dão respostas aleatórias a todos os itens), enquanto o 1 representa um teste que mede um domínio com consistência perfeita. O órgão implementador deve obter evidência do grau de confiabilidade com que os itens individuais do pré-teste se correlacionam. Essa informação fornece uma medida da consistência interna dos itens do teste. Observe que essa abordagem presume que os itens selecionados meçam um único conceito ou traço, como habilidade matemática ou linguística. Normalmente, as equipes de avaliações nacionais e internacionais tendem a omitir itens que não sejam relativamente homogêneos, isto é, itens que não meçam um único conceito ou traço. A homogeneidade pode ser avaliada usando-se uma abordagem como alfa de Cronbach, as fórmulas 20 ou 21 de Kuder-Richardson, ou um coeficiente de confiabilidade split-half; todos eles encontrados no software de estatística SPSS©. Se o teste de avaliação inclui itens de resposta aberta ou livre, o órgão implementador deve definir que o método de pontuação é confiável. O órgão deve certificar-se de que cada avaliador ou corretor de itens abertos esteja treinado para julgar se as respostas de um aluno são aceitáveis. Tal treinamento exigirá que os avaliadores trabalhem com a equipe de desenvolvimento de teste para documentar a lista de respostas aceitáveis e inaceitáveis para cada questão aberta. Depois do treinamento, pares de avaliadores trabalhando de forma independente devem pontuar cada item aberto de pelo menos 60 cadernos de prova do pré-teste selecionados aleatoriamente, e o percentual de concordância exata entre pontuadores para o conjunto geral de itens deve ser calculado. O órgão implementador deve pedir esclarecimentos aos elaboradores do teste nos casos em que os avaliadores tenham dúvidas quanto à aceitabilidade

86 | SÉRIE P ESQ UISAS DO BA NC O M U NDI AL SOB R E AVAL I AÇ ÕE S DE DE SE M PE NH O E DU C AC I ONAL

de determinada resposta. Uma cuidadosa pontuação de itens abertos do pré-teste deve ajudar a garantir que haja pouco espaço para discordância sobre respostas aceitáveis e inaceitáveis durante a pontuação de itens numa avaliação nacional. Em http://go.worldbank.org/M2O1YDQO90, você encontra diversos exemplos de pontuação de itens abertos.

CAPÍTULO

5

SELEÇÃO DE ITENS DO TESTE

A

seleção de itens do pré-teste para o teste final (coberta, em mais detalhes, no Volume 4) depende, em primeiro lugar, e principalmente, do marco de referência, especialmente da tabela de especificações. Em segundo lugar, das propriedades de mensuração dos itens. Tipicamente, os seguintes critérios de seleção são adotados para cada item:1

yO item corresponde à tabela de especificações. yO percentual de alunos que acerta o item fica entre 40% e 80%. yO item mostra uma baixa taxa de respostas em branco. yO índice de discriminação (correlação entre a pontuação do item e a pontuação total do teste) é superior a 0,2. yA confiabilidade do teste é aprimorada com a inclusão do item. yA tendenciosidade do item está dentro de limites aceitáveis para os principais grupos de alunos. As seguintes considerações são específicas para itens de múltipla escolha:

88 | SÉRIE P ESQ UISAS DO BA NC O M U NDI AL SOB R E AVAL I AÇ ÕE S DE DE SE M PE NH O E DU C AC I ONAL

yO ponto bisserial para a chave é positivo e superior a 0,2. yTodos os distratores são plausíveis (isto é, foram selecionados por pelo menos 5% de alunos) e têm pontos bisseriais zero ou negativos. A Tabela 5.1 mostra o resultado típico de uma análise de um item de múltipla escolha. Estatisticamente, o item funciona bem.

TABELA 5.1

Exemplo de Resultado da Análise de um Item de Múltipla Escolha Critério

Opção A (0)

B (0)

C (0)

D (1)

Contagem

90

14

21

254

Percentual

23,7

3,7

5,5

67,0

Ponto bisserial

−0,26

−0,21

−0,16

0,39

Habilidade média

−0,02

−0,48

−0,14

0,54

Fonte: Criação dos autores.

Os cabeçalhos da coluna mostram o número de categorias ou opções no item (A, B, C, D). A opção D é a chave, ou opção correta, e é mostrada com a pontuação 1 entre parênteses. As opções A, B e C são mostradas com pontuações 0 entre parênteses. A linha “Contagem” mostra o número de alunos que selecionaram cada opção; 254 alunos selecionaram a opção correta. A linha “Percentual” apresenta o percentual de dados (a contagem expressa como um percentual do número de alunos): 67% dos alunos selecionaram a opção correta. Esse resultado mostra que o item está dentro de uma faixa aceitável de dificuldade. O item é bastante fácil. Apenas 3,7% dos alunos selecionaram a opção B, o que sugere que essa opção é fraca ou implausível. A reelaboração dessa opção para torná-la mais plausível possivelmente poderia aprimorar o item; o item precisaria passar por um pré-teste mais uma vez. A linha seguinte mostra o ponto bisserial para cada opção. O ponto bisserial para a resposta correta é 0,39. Os pontos bisseriais para as opções incorretas são todos negativos. Nos itens de múltipla escolha, o ponto bisserial para a chave é o mesmo que o índice de discriminação para o item. A última

DESENVOLVIMENTO DE TESTES E QUESTIONÁRIOS PARA AVALIAÇÃO DO APROVEITAMENTO ESCOLAR

|

89

linha mostra a habilidade média. A habilidade média dos alunos que selecionaram a opção correta é consideravelmente mais alta que a dos alunos que selecionaram as opções incorretas. Esse resultado também mostra que o item está funcionando bem. As seguintes considerações são específicas de itens abertos:

ySe o item é pontuado dicotomicamente, o índice de discriminação (correlação entre a pontuação do item e a pontuação total) é superior a 0,2. ySe o item confere crédito parcial, a discriminação é positiva e superior a 0,3. ySe o item é pontuado dicotomicamente, a maior parte dos itens deve estar na faixa de dificuldade de 40% a 80%. ySe o item confere crédito parcial, cada categoria de pontuação atrai pelo menos 5% de respostas. ySe o item confere crédito parcial, o percentual geral (calculado combinando-se as respostas a diferentes categorias parcialmente corretas) de alunos que conseguem acertar um item está na faixa de 40% a 80%. ySe o item confere crédito parcial, a habilidade média dos alunos claramente decresce, da mais alta até a mais baixa categoria de respostas para questões de crédito parcial. Um resultado típico de uma análise de um item aberto de crédito parcial com boas estatísticas é mostrado na Tabela 5.2. Os títulos das colunas mostram as categorias de respostas dos alunos. Alunos que responderam ao item incorretamente receberam pontuação zero. Uma resposta parcialmente correta ganhou pontuação 1, enquanto a resposta totalmente correta recebeu pontuação 2. Respostas em branco são mostradas como 9 e também são pontuadas como zero. O índice geral de discriminação é 0,47, o que é alto. Observe-se que, para itens de crédito parcial, o índice de discriminação não é o mesmo que o ponto bisserial para a categoria de pontuação mais alta. A contagem e o percentual corretos são mostrados nas duas primeiras linhas. Praticamente a metade dos alunos que tentaram esse item deu uma resposta incorreta. Mais de 5% responderam a cada categoria de crédito parcial, o que sugere que vale a pena manter essas categorias.

90 | SÉRIE P ESQ UISAS DO BA NC O M U NDI AL SOB R E AVAL I AÇ ÕE S DE DE SE M PE NH O E DU C AC I ONAL

TABELA 5.2

Exemplo de Resultado da Análise de um Item Aberto de Crédito Parcial Categoria de resposta dos alunos Critério

0 (0)

1 (1)

2 (2)

9 (0)

Contagem

1.466

425

268

809

Percentual

49,4

14,3

9,0

27,3

Ponto bisserial

0,09

0,11

0,45

−0,48

−1,66

0,53

0,90

−1,90

Habilidade média

Índice de discriminação = 0,47

Fonte: Criação dos autores.

O ponto bisserial aumenta de zero até a pontuação 2, mostrando que as categorias estão tendo o desempenho esperado. A habilidade média dos alunos que receberam pontuações 2 é −0,9. Alunos que receberam pontuações 1 têm habilidade média de −1,53. A diferença é superior a 0,5 e sustenta a manutenção das duas categorias no guia de pontuação porque mostram alunos com habilidades bastante diferentes. O percentual de alunos que não tentaram responder a esse item é bastante alto: 27,3%. Esse número precisa ser considerado no contexto do padrão de itens em branco no conjunto do teste. Nesse caso, a maior parte dos itens abertos teve percentagens de respostas em branco acima de 20. O problema foi causado pela falta de familiaridade dos alunos com esses tipos de itens e pela relutância em respondê-los, e não por um problema específico com o item. O nível geral de dificuldade do teste final deve ser adequado ao seu objetivo. Um teste final concebido para monitorar o desempenho de todos os alunos na população-alvo deve ter uma gama de dificuldades que corresponda às habilidades da população. Avaliações desenhadas para objetivos diferentes, como identificar alunos que atendam a um padrão de referência predefinido, podem incluir itens muito fáceis ou muito difíceis, dependendo do nível em que se estabeleça o padrão de referência. Até o momento, a experiência adquirida no desenvolvimento de pré-testes para uma avaliação nacional sugere que os elaboradores de itens tendem a desenvolver itens que, na média dos casos, são muito difíceis.

DESENVOLVIMENTO DE TESTES E QUESTIONÁRIOS PARA AVALIAÇÃO DO APROVEITAMENTO ESCOLAR

|

91

Parte dessa tendência pode derivar de suas experiências anteriores com a elaboração de questões para exames públicos, em que as questões tendem a ser calibradas num nível de dificuldade relativamente alto. Além disso, muitos elaboradores de itens de pré-teste tendem a viver em áreas urbanas e não têm compreensão dos baixos níveis de aproveitamento que podem ser encontrados em áreas rurais remotas. Se muitos itens do pré-teste forem muito difíceis e se o pré-teste não tiver o número suficiente de itens fáceis que correspondam aos critérios da tabela de especificações, deve-se fazer outra rodada de pré-teste com um novo conjunto de itens mais fáceis. Do mesmo modo, se houver um número insuficiente de itens difíceis, será necessário um pré-teste adicional com itens mais difíceis. As pessoas que analisarão os dados do teste final também devem analisar os dados do pré-teste. Quaisquer problemas com a forma como os elaboradores de itens fornecem informações sobre a classificação dos itens e das chaves, ou com a forma como os itens foram pontuados, podem ser resolvidos durante a análise do pré-teste. A equipe de elaboração de itens deve ser envolvida na interpretação da análise de dados do pré-teste e nas decisões sobre quais itens excluir do teste final e quais itens com estatísticas fracas deveriam ser incluídos. As decisões sobre a inclusão ou exclusão de itens devem levar em conta a tabela de especificações e as áreas do currículo que o teste deve avaliar. Em geral, apenas um formulário final de um teste é usado em cada série. Pode consistir em dois ou três testes separados, como um teste de matemática, um teste de leitura e um teste de escrita. Esses testes podem ser combinados em um único caderno ou impressos em cadernos separados. As questões que se aplicaram ao pré-teste, relativas à necessidade de itens de ligação e sua seleção e localização, também se aplicarão ao teste final se houver vários formulários. Alguns itens fazem excelente sentido conceitual, mas têm estatísticas fracas. Esse resultado pode indicar um problema na forma como o item foi apresentado. Os alunos podem não ter familiaridade com o vocabulário ou com a forma como devem dar suas respostas, ou o material de estímulo pode ser confuso. Idealmente, itens com estatísticas muito

92 | SÉRIE P ESQ UISAS DO BA NC O M U NDI AL SOB R E AVAL I AÇ ÕE S DE DE SE M PE NH O E DU C AC I ONAL

fracas devem ser revistos e passar por um novo pré-teste. No entanto, quando itens com estatísticas ruins se referem a critérios importantes na tabela de especificações e não existem outros itens disponíveis, talvez seja necessário incluí-los no teste final. Em princípio, os itens nunca devem ser alterados entre o pré-teste e os formulários finais, porque as alterações poderiam afetar as estatísticas do item de forma desconhecida. Na prática, as agências de testes tendem a fazer pequenas alterações em alguns itens – em geral, não mais que em quatro ou cinco num teste de 30 itens. Essas pequenas alterações poderiam incluir:

yMudar uma ou duas palavras para aprimorar a clareza ou reduzir a dificuldade de vocabulário. yEliminar a opção mais fraca entre as cinco opções de um item de múltipla escolha. yCorrigir erros gramaticais ou melhorar a clareza de expressão. yMelhorar a diagramação, como a posição dos títulos num diagrama ou a consistência dos títulos.

NOTA 1. Os exemplos usados neste capítulo baseiam-se em análises de itens que usam a abordagem da teoria clássica dos testes. O Volume 4 contém essa abordagem de forma mais detalhada. Também apresenta outro método de análise de itens, a teoria de resposta ao item, que usa uma abordagem estatística diferente e uma terminologia um pouco diferente.

CAPÍTULO

6

PRODUÇÃO DO TESTE FINAL

DESENHO DO TESTE FINAL

O analista de dados ou estatístico deve ser envolvido no desenho do formulário final. É sua atribuição certificar-se de que o desenho atende aos seguintes requisitos:

yO formato em que são fornecidas as informações socioeconômicas e os dados sobre os fatores de contexto dos alunos é adequado à análise. yO método de registrar as respostas ao item é adequado para a análise. yA natureza e abrangência dos guias de pontuação são adequadas para a análise. yAs ligações horizontais com dados do testes dos anos anteriores ou as ligações verticais que podem ser necessárias são estatisticamente sólidas. As informações sobre dados socioeconômicos e fatores de contexto dos alunos requeridas na folha de rosto dos cadernos de prova relacionam-se com o objetivo do teste e a forma como os dados do teste serão apresentados. Os alunos devem ser capazes de completar as informações pedidas com facilidade e exatidão. Em geral, as informações da folha de rosto incluem o seguinte:

94 | SÉRIE P ESQ UISAS DO BA NC O M U NDI AL SOB R E AVAL I AÇ ÕE S DE DE SE M PE NH O E DU C AC I ONAL

yNome da escola yNome completo do aluno yGênero do aluno yIdade ou data de nascimento do aluno ySérie ou classe do aluno yIdioma do aluno [primeiro idioma e o falado em casa]. Em alguns países, os alunos podem ter números exclusivos de identificação nacional. Esses números devem ser usados quando disponíveis. Também é útil incluir uma opção na página de rosto para o aplicador do teste registrar se os alunos perderam todo o teste ou parte dele devido a ausências ou doenças, ou se os alunos com deficiências receberam assistência especial para escrever suas respostas (veja o Quadro 6.1).

QU A D R O 6 . 1

Exemplo de uma Folha de Rosto de Teste MONITORAMENTO DA AVALIAÇÃO DA EDUCAÇÃO: 4a SÉRIE Seção para o aluno completar: Escola _____________________________________________________________________ Estado _____________________________________________________________________ Série _______________________________________________________________________ Primeiro nome ______________________________________________________________ Sobrenome _________________________________________________________________ Sou um menino. …Sou uma menina. …

Idade: … anos e … meses

O idioma que uso com mais frequência em casa é o português. Sim … Não … Seção para o aplicador do teste completar: Este aluno esteve ausente no seguinte teste deste caderno: Leitura …

Matemática …

Este aluno recebeu assistência especial para Leitura … Matemática … Descreva a assistência especial fornecida: ______________________________________ Fonte: Papua Nova Guiné, Departamento de Educação, 2004.

DESENVOLVIMENTO DE TESTES E QUESTIONÁRIOS PARA AVALIAÇÃO DO APROVEITAMENTO ESCOLAR

|

95

Em geral, é mais fácil garantir que as identidades dos alunos estejam corretamente registradas e ligadas aos dados adequados se os testes de todas as disciplinas estiverem em um único caderno. Evitam-se potenciais problemas de identificação se as informações contidas na folha de rosto do caderno de prova único forem completadas, de forma acurada e legível, antes da primeira sessão de teste. Se for usado um único caderno, o aplicador do teste deve tomar muito cuidado para garantir que os cadernos de prova sejam entregues aos alunos certos antes de cada subsequente sessão de teste. Se forem usados múltiplos cadernos, serão necessários procedimentos efetivos para fazer a correspondência entre candidatos e cadernos. Os seguintes riscos estão associados ao uso de múltiplos cadernos:

yOs alunos podem escrever seus nomes de formas diferentes em diferentes cadernos. yOs alunos podem usar nomes diferentes em diferentes cadernos: uma forma reduzida num caderno e o nome completo em outros; um nome religioso ou cultural num caderno e o nome de família em outro; ou o primeiro nome em um e o nome do meio em outro. yOs alunos podem escrever todo o nome ou parte dele de forma ilegível em pelo menos um dos cadernos. yOs alunos podem deixar de escrever seus nomes em um caderno ou em mais de um deles. A diagramação e as diretrizes sobre a aplicação do teste devem ser claras e consistentes. Na medida do possível, a diagramação do pré-teste e o formato do teste final devem ser idênticos. O teste deve começar com alguns itens fáceis para encorajar os alunos mais fracos. Em seguida, devem vir itens que cobrem diferentes níveis de dificuldade, sem seguir qualquer padrão específico, de modo que os alunos não tenham de batalhar com uma série de itens difíceis até desistirem. Também é importante que alguns alunos mais lentos tenham uma chance de tentar parte dos itens mais difíceis, colocando esses itens mais ou menos no início do teste. O teste deve terminar com alguns itens mais difíceis, porque os alunos com menores habilidades têm menor probabilidade de

96 | SÉRIE P ESQ UISAS DO BA NC O M U NDI AL SOB R E AVAL I AÇ ÕE S DE DE SE M PE NH O E DU C AC I ONAL

terminar o teste. Os itens que se referem a um estímulo comum (por exemplo, um parágrafo ou mapa) devem ser apresentados juntos, independentemente de seu grau de dificuldade. As diretrizes para a colocação de itens de ligação no formulário final são as mesmas observadas no pré-teste (veja Capítulo 4). Itens de ligação horizontal são necessários para se ligar a um teste anterior se o aproveitamento estiver sendo comparado ao longo do tempo. Ligações verticais são necessárias para comparar o aproveitamento entre séries. Os itens de ligação devem ser colocados (a) no começo do caderno de prova ou perto da metade dele e (b) numa posição semelhante em cada caderno de prova. Os títulos dos itens devem ser impressos em escala cinza nos cadernos de prova, a fim de facilitar a localização e o rastreamento dos itens (veja Capítulo 3). O gerente de desenvolvimento de teste deve fornecer ao analista de dados uma planilha mostrando onde o item aparece em cada caderno, incluindo os itens de ligação. As decisões sobre como os alunos registrarão suas respostas devem ser tomadas durante a fase de desenho da tabela de especificações (veja Capítulo 2). Com frequência, os alunos preenchem as respostas ao item no caderno de prova. A diagramação dos itens deve permitir espaço adequado para que os alunos registrem suas respostas. A diagramação dos itens também deve designar um espaço para os avaliadores registrarem suas pontuações. Em outras situações, especialmente nas séries mais avançadas, podem ser usadas folhas de respostas separadas. Essas folhas de respostas devem mostrar com clareza como fazer a ligação entre a resposta e o item, ou entre a opção impressa no caderno de prova e a posição correspondente na folha de respostas. Se os itens no caderno de prova estiverem organizados em unidades, será útil organizar a diagramação da folha de respostas em unidades semelhantes.

IMPRESSÃO E REVISÃO

Estes são alguns dos fatores que determinam a extensão do caderno de prova:

DESENVOLVIMENTO DE TESTES E QUESTIONÁRIOS PARA AVALIAÇÃO DO APROVEITAMENTO ESCOLAR

|

97

yNúmero de áreas temáticas cobertas yAmplitude da cobertura dentro das áreas temáticas yFormato do item yUso de ilustrações yExtensão dos materiais de estímulo yTamanho da fonte yFundos disponíveis para custear a impressão. Os elaboradores de itens devem saber, desde o início, o número de páginas proposto para o formulário final do teste. Se ficar evidente que a extensão do teste será limitada, o material de estímulo, bem como os diagramas e outras ilustrações, devem ser limitados. Qualquer que seja a quantidade de espaço disponível, a diagramação dos itens deve ser clara e bem organizada. Em geral, cadernos com menos de 20 páginas (10 folhas) são impressos em papel A4 (210mm-297mm) e grampeados em um dos lados. Cadernos maiores tendem a ser impressos em papel A3 (420mm-297mm) e grampeados no meio. Cadernos com maior número de páginas em geral permitem o uso de maior diversidade de material de estímulo interessante e itens mais imaginativos. Do lado negativo, gasta-se mais com sua impressão e distribuição. Também requerem mais espaço de armazenagem para embrulhar e durante a fase de pontuação, o que pode aumentar consideravelmente os custos gerais. Em geral, os testes são impressos dos dois lados de uma folha. A qualidade mínima do papel tem de ser suficiente para garantir que os itens impressos de um lado da página não interfiram com a legibilidade dos itens impressos do outro lado da mesma página. As fotografias requerem papel de mais alta qualidade para garantir boa reprodução. Finalmente, diagramas detalhados também requerem papel de melhor qualidade. Se os alunos tiverem de escrever no caderno de prova, o papel deve ser forte o bastante para que escrevam suas respostas sem rasgar o papel e para que o escrito num lado da página não apareça do outro lado.

98 | SÉRIE P ESQ UISAS DO BA NC O M U NDI AL SOB R E AVAL I AÇ ÕE S DE DE SE M PE NH O E DU C AC I ONAL

O papel da folha de rosto às vezes é de melhor qualidade que o usado no restante do caderno de prova, mas isso tende a aumentar os custos e, em geral, não é necessário. Muitas vezes, é útil imprimir os cadernos para diferentes séries com tintas de cores diferentes. Isso ajuda a garantir que os alunos recebam os cadernos adequados. As cores das tintas escolhidas devem ser de fácil leitura. Um revisor com grande experiência deve revisar os formulários finais. Também vale a pena pedir que colegas competentes que não estiveram envolvidos no desenvolvimento do teste leiam o formulário final para garantir que ele faça sentido da perspectiva do usuário do teste. Existem dois períodos fundamentais para a revisão dos formulários finais do teste. Depois que os formulários finais tiverem sido montados, devem ser revisados pelo gerente de desenvolvimento de teste, pelos elaboradores de itens encarregados dessa tarefa e, finalmente, por um revisor profissional. Os elaboradores de itens devem conferir as correções feitas pelo revisor. Os formulários finais deverão ser revisados uma segunda vez quando as matrizes chegarem da gráfica. As matrizes são imagens das páginas do teste tal como serão reproduzidas por uma impressora. Em geral, a gráfica entregará as matrizes poucos dias depois de receber o teste. O gerente de desenvolvimento de teste pode assumir a responsabilidade de revisar as matrizes ou pode preferir contratar um revisor profissional para essa tarefa. Deve-se alocar pelo menos duas semanas para revisão e correção dos formulários finais. Pode haver necessidade de mais tempo, dependendo da disponibilidade dos membros da equipe encarregados de fazer as correções dos cadernos. Com frequência, os revisores encontram centenas de pequenos erros, especialmente o uso inconsistente de maiúsculas, pontuação, formatação, desenho final e soletração incorreta. Se as revisões do pré-teste tiverem sido minuciosas e amplas, e se apenas mudanças substantivas mínimas tiverem sido feitas nos itens, então, em teoria, a revisão dos formulários finais deve revelar poucos erros, ou nenhum. Na prática, isso raramente acontece. Podem surgir erros nos formulários finais em lugares onde não haviam aparecido antes. Em geral, os revisores preci-

DESENVOLVIMENTO DE TESTES E QUESTIONÁRIOS PARA AVALIAÇÃO DO APROVEITAMENTO ESCOLAR

|

99

sam de vários dias para revisar inteiramente os formulários finais do teste e as orientação para aplicação, mesmo que os pré-testes tenham sido revisados anteriormente. Quando for necessário imprimir uma grande quantidade de material, deve-se fazer uma reserva na agenda dos impressores com várias semanas ou até meses de antecedência. A gráfica informará o tempo previsto para realizar a tarefa. Às vezes, a equipe da avaliação nacional pode negociar um pagamento adicional para a entrega do material antes da data prevista e estabelecer desincentivos ou penalidades caso haja atraso. Os impressores podem cometer erros de impressão nos cadernos de prova. O erro mais comum é a falta de algumas páginas em alguns cadernos. O gerente de elaboração de testes deve conferir aleatoriamente as caixas com os cadernos finais para detectar algum erro.

CAPÍTULO

7

PONTUAÇÃO MANUAL DOS ITENS DO TESTE

A

equipe da avaliação nacional deve se certificar de que os avaliadores que vão fazer a pontuação manual dos formulários finais do teste estejam bem treinados. A essa altura, os guias de pontuação já terão sido revisados durante o pré-teste e deverão estar na forma quase final. Antes de começar a pontuação manual final, os elaboradores de itens poderiam selecionar uma pequena amostra de formulários finais completados, conferir a clareza e eficiência dos guias de pontuação e, possivelmente, fazer pequenas revisões. É preciso planejar com bastante antecedência o estabelecimento de um centro de classificação para a pontuação manual e definir processos eficazes de pontuação. A equipe da avaliação nacional deve ter respondido às seguintes questões antes de dar início à pontuação manual:

yOnde os materiais do teste serão armazenados? yComo serão levados até os centros de classificação? yComo será garantida a segurança dos materiais do teste? (Os testes e manuais de pontuação não devem sair da sala.)

102 | SÉRIE P ESQ UISAS DO BA NC O M U NDI AL SOB R E AVAL I AÇ ÕE S DE DE SE M PE NH O E DU C AC I ONAL

yQual é o cronograma da pontuação manual? A pontuação será organizada em unidades diárias, em turnos (incluindo um turno noturno)? Os avaliadores trabalharão nos fins de semana? yComo os avaliadores registrarão os dados? yQual é o equipamento de classificação necessário? Em geral, dá-se preferência a canetas vermelhas ou verdes, porque as pontuações nessas cores podem ser vistas claramente nos cadernos dos alunos. Pequenos adesivos são úteis para sinalizar os itens a respeito dos quais os avaliadores têm dúvidas. yOs avaliadores serão pagos pelo número de testes que classificarem ou pelo tempo gasto na classificação? Ambos os métodos apresentam vantagens e desvantagens. No primeiro caso, os avaliadores podem se apressar e ser menos cuidadosos na medida em que tentem pontuar o maior número possível de testes. No último, os avaliadores podem não se dedicar inteiramente à tarefa, e sua produção pode ser baixa. Um meio-termo adequado poderia ser o pagamento pelo tempo gasto, mas com um número mínimo de testes que deveriam ser completados a cada dia. A equipe necessária num centro de classificação é composta por um avaliador-chefe, avaliadores líderes e avaliadores. As pessoas responsáveis pela seleção de avaliadores devem entrevistar os candidatos e confirmar suas referências. O avaliador-chefe é responsável pelas operações rotineiras. Deve garantir que os avaliadores observem o cronograma, resolver quaisquer questões relativas à classificação, supervisionar o gerenciamento dos procedimentos de controle de qualidade e manter a segurança do teste. O avaliador-chefe deve ser um avaliador experiente, com habilidades comprovadas em operações de gerenciamento, e deve estar preparado para substituir os membros da equipe cujo desempenho se prove insatisfatório. Os avaliadores líderes são responsáveis por monitorar a classificação de uma área temática determinada e implementar procedimentos de controle de qualidade. Cada teste deve ter pelo menos um avaliador líder (por exemplo, um avaliador líder para matemática e um avaliador líder para leitura).

DESENVOLVIMENTO DE TESTES E QUESTIONÁRIOS PARA AVALIAÇÃO DO APROVEITAMENTO ESCOLAR

|

103

Os avaliadores líderes devem ser especialistas numa área temática, ter experiência com classificação e impor respeito. Os avaliadores pontuarão as respostas dos alunos. Em geral, os professores são bons avaliadores. Os avaliadores devem ser diligentes, consistentes e confiáveis, e conhecer sua área temática. O gerente de desenvolvimento de teste em geral indica elaboradores de itens com experiência em áreas temáticas relevantes para treinar os avaliadores. De preferência, a pessoa que fizer o treinamento dos avaliadores também deveria ter tido grande envolvimento no desenvolvimento dos itens e dos guias de classificação. A pessoa que fizer o treinamento dos avaliadores deve ser especialista nos temas relevantes. O gerente de desenvolvimento de teste poderia assumir o papel de treinar avaliadores em sua área temática. Idealmente, a pessoa que fizer o treinamento de avaliadores para o pré-teste também deverá treinar os avaliadores dos formulários finais. Deve-se alocar tempo suficiente para vários períodos de treinamento de avaliadores em cada grupo de avaliadores. O treinamento deve enfatizar que os avaliadores terão de ler uma variedade de respostas corretas possíveis. Algumas podem não ser aquilo com que o avaliador está habituado, podem ter pouca semelhança com as respostas contidas em livros didáticos ou estar expressas numa linguagem pobre ou num vocabulário não convencional. O treinamento de avaliadores deve cobrir os seguintes pontos:

yOs avaliadores têm pouca ou nenhuma liberdade para determinar a adequação de uma resposta; suas opiniões ou preferências pessoais não poderão influenciar a avaliação. yOs alunos não devem ser penalizados por erros de soletração ou gramaticais em leitura, matemática ou ciências, a menos que seja impossível decifrar o trabalho do aluno. yOs avaliadores têm de buscar o conselho do avaliador líder quando não tiverem certeza de como pontuar determinada resposta. yOs avaliadores devem usar a mesma pontuação (em geral 0) consistentemente para todas as respostas incorretas e todas as ilegíveis ou ininteligíveis, inclusive nos casos em que o aluno escreveu uma única letra ou garatujou uma única linha.

104 | SÉRIE P ESQ UISAS DO BA NC O M U NDI AL SOB R E AVAL I AÇ ÕE S DE DE SE M PE NH O E DU C AC I ONAL

yOs avaliadores devem usar o mesmo código de pontuação (em geral, 9) consistentemente para mostra que o aluno não fez nenhuma tentativa de responder ao item – ou seja, nenhuma marca de lápis aparece no espaço fornecido para a resposta. yPara facilitar a entrada de dados, os avaliadores devem usar apenas o espaço fornecido no caderno de prova quando estiverem fazendo a pontuação manual. yOs avaliadores não devem ser responsáveis por combinar pontuações para dar um total geral. No treinamento, a ênfase deve ser posta em garantir que os avaliadores compreendam o que está incluído na tarefa de pontuação e em alcançar consistência na pontuação. Os métodos de treinamento tendem a variar. O exemplo seguinte mostra um dos métodos sugeridos, mas existem muitos outros.

yO treinador pede aos avaliadores que respondam a cada item pontuado manualmente no teste. Esse processo familiariza os avaliadores com o item e garante que o leram e entenderam adequadamente. yO treinador dá a cada avaliador 4 ou 5 cadernos de prova respondidos por alunos. O treinador discute o primeiro item e o guia de pontuação e, então, os avaliadores pontuam esse item em seus cadernos de prova. O treinador encoraja o grupo a discutir quaisquer discrepâncias ou dúvidas sobre como pontuar uma resposta. Os avaliadores são encorajados a partilhar respostas que possam ser diferentes dos exemplos no guia de pontuação. Depois que o primeiro item tiver sido adequadamente discutido, o treinador passa para o item seguinte e para as orientações para pontuá-lo. Em geral, esse método de treinamento requer várias horas. yOs avaliadores têm uma segunda sessão de treinamento na qual trabalham em pares. Pontuam alguns testes individualmente e, então, conferem o trabalho uns dos outros e discutem os itens sobre os quais tiveram julgamentos diferentes. Se não puderem chegar a um acordo, devem consultar o treinador. Depois de encerradas as sessões de treinamento, o avaliador líder assume a responsabilidade pelo gerencia-

DESENVOLVIMENTO DE TESTES E QUESTIONÁRIOS PARA AVALIAÇÃO DO APROVEITAMENTO ESCOLAR

|

105

mento dos avaliadores. O avaliador-chefe deve informar o treinador se surgir alguma questão durante a pontuação dos testes. yNo processo de pontuação dos cadernos de prova, o avaliador-líder deve selecionar alguns itens problemáticos a cada dia e fazer discussões rápidas sobre eles para manter o foco e a consistência. O trabalho de checar a qualidade de itens de resposta curta para uma avaliação nacional poderia incluir uma segunda checagem de quase 100% de todos os cadernos de prova. Em geral, os avaliadores líderes fazem a checagem. Podem reduzir gradualmente o processo de checagem dupla a entre 10% e 20% dos cadernos de prova à medida que os avaliadores se tornam consistentes e confiáveis em suas pontuações. Se houver um grande grupo de avaliadores trabalhando, vários avaliadores líderes principais serão necessários para garantir a qualidade da checagem e fornecer retorno imediato aos avaliadores sobre quaisquer erros que estejam cometendo. O avaliador-chefe deve requerer que os avaliadores façam novamente a pontuação de itens nos primeiros cadernos que pontuaram e nos quais cometeram erros de pontuação. Os procedimentos para pontuações discrepantes também devem ser esclarecidos. Em geral, a pontuação do avaliador-chefe é a que conta. Um teste de linguagem poderia incluir um ou mais itens cuja resposta requeira uma redação. Em geral, as redações são pontuadas duas vezes. O segundo avaliador pontua a redação sem saber a pontuação dada pelo primeiro. As duas pontuações são então comparadas. Em geral, aceita-se a diferença de um ponto e tira-se a média das duas pontuações. Diferenças maiores entre as pontuações dos avaliadores exigem que, pelo menos, uma delas seja alterada. Essa mudança pode basear-se numa discussão entre os dois avaliadores. Se não puderem chegar a um acordo, a questão deve ser levada ao avaliador-chefe para decisão. A pontuação manual requer uma intensa concentração. Os avaliadores não devem trabalhar durante muito tempo num mesmo dia ou durante muito tempo sem fazer um intervalo. Em geral, um período de trabalho entre seis horas e seis horas e meia por dia é considerado a jornada máxima. Um dia de trabalho pode consistir em uma sessão de

106 | SÉRIE P ESQ UISAS DO BA NC O M U NDI AL SOB R E AVAL I AÇ ÕE S DE DE SE M PE NH O E DU C AC I ONAL

três horas pela manhã, com um breve intervalo, e uma sessão de três horas à tarde, com um breve intervalo. As pessoas que trabalham mais lentamente podem necessitar de uma meia hora extra para completar o número esperado de testes por dia. Deve-se exigir dos avaliadores que completem uma folha de presença diária.

PA R T E

II

CONSTRUÇÃO DE QUESTIONÁRIOS

CAPÍTULO

8

DESENHO DE QUESTIONÁRIOS

U

m questionário é um conjunto de itens desenhados para obter informações sobre uma pessoa. O tipo de informação pode variar amplamente e incluir dados sobre características pessoais; qualificações e práticas de trabalho; condições de trabalho e recursos; ou fatores socioeconômicos e contextuais de uma pessoa, bem como suas atitudes, crenças ou opiniões a respeito de certas questões. Uma avaliação nacional busca obter uma estimativa confiável do aproveitamento dos alunos (medido num teste especialmente concebido para isso) e informações (obtidas com um questionário) sobre variáveis-chave associadas a diferenças no aproveitamento. Os testes coletam informação sobre o desempenho dos alunos, e os questionários – quando usados junto com os testes – coletam dados sobre variáveis que poderiam estar associadas a diferenças nos níveis de desempenho dos alunos ou ajudar a explicá-las. Por exemplo, os dados do questionário podem sugerir que escolas que não têm bibliotecas estão associadas ao baixo desempenho dos alunos ou que escolas em que os professores participam regularmente de programas de desenvolvimento profissional estão associadas ao alto desempenho dos alunos. Esses dados sugerem formas úteis de redirecionar os recursos educacionais para aprimorar o aprendizado dos alunos.

110 | SÉRIE P ESQ UISAS DO BA NC O M U NDI AL SOB R E AVAL I AÇ ÕE S DE DE SE M PE NH O E DU C AC I ONAL

Um bom questionário coleta dados sobre variáveis para as quais os formuladores de políticas desejam ter informações acuradas, variáveis sobre as quais têm a possibilidade de atuar e que pretendem influenciar, bem como variáveis que, segundo as evidências de pesquisas, podem afetar o aproveitamento dos alunos. Um erro comum que se comete durante o desenho de questionários é coletar um excesso de informações. Em geral, os formuladores de políticas estão interessados apenas em informações sobre algumas variáveis-chave. Além disso, mesmo quando possam existir boas razões científicas para se coletarem certos tipos de dados, considerações sobre as consequências políticas e sociais de se coletar o dado poderiam indicar que uma avaliação nacional não é o mecanismo mais adequado para fazê-lo. Com frequência, as informações podem ser coletadas de outras fontes, sem necessidade de usar questionários, em países que mantêm registros acurados e confiáveis de características das escolas, dos professores e dos alunos. Vale a pena descobrir se os registros governamentais são uma fonte útil de informação, porque o acesso a esses registros pode ser mais barato e mais fácil que a aplicação de questionários. O desenho do questionário deve descrever claramente os tipos de dados que serão coletados, como serão analisados e apresentados e como as constatações poderiam contribuir para melhorar a educação. Os principais passos no desenho de um questionário são os seguintes:

yDecidir qual o objetivo de um questionário e como os dados serão usados. yDesenvolver uma tabela de especificações que especifique os respondentes, as áreas principais, os tipos de itens, os protocolos de codificação ou pontuação e o protocolo de aplicação (a ser completado por um entrevistador ou autoaplicado). yEscrever os itens, usando grupos (ou painéis) de indivíduos experientes para rever e refinar os itens, e diagramar o formulário de modo que os respondentes possam usá-lo sem dificuldade, e que as pessoas que farão a entrada dos dados possam processar os dados com eficiência.

DESENVOLVIMENTO DE TESTES E QUESTIONÁRIOS PARA AVALIAÇÃO DO APROVEITAMENTO ESCOLAR

|

111

yEspecificar um plano de análise de dados para processar a informação coletada e criar variáveis e indicadores para a análise estatística subsequente. yFazer o pré-teste dos questionários para estabelecer a adequação de itens e de categorias de respostas. yAnalisar os dados do pré-teste do questionário, refinar os questionários e produzir os questionários finais para aplicação. A Tabela 8.1 oferece detalhes sobre os passos para o desenvolvimento de um questionário e sobre as pessoas envolvidas. Os questionários e as instruções para sua aplicação devem ser preparados e pré-testados simultaneamente aos testes. Assim, as tabelas de especificações dos questionários devem ser desenvolvidas ao mesmo tempo em que as tabelas de especificações do teste e os questionários devem ser escritos e submetidos a um painel, e os itens do teste estão sendo escritos e submetidos a um painel.

CONTEÚDO DO QUESTIONÁRIO

Um questionário deve colher informações sobre variáveis-chave que poderiam ajudar a explicar diferenças no desempenho de alunos num teste de aproveitamento. No entanto, há um número infindável de variáveis interligadas que podem afetar o desempenho dos alunos. Um questionário pode focalizar apenas algumas delas. Os formuladores de políticas em geral querem informações sobre variáveis associadas a importantes questões da educação em seu país, como idioma de instrução, disparidades na distribuição de recursos educacionais ou atitudes relativas à educação de meninas. Possivelmente, os formuladores de políticas não saberão quais variáveis investigar. Eles podem fornecer uma longa lista de variáveis obtidas de sua experiência pessoal e de observações ou que considerem que “teriam” de estar num questionário. Essa lista precisa ser reduzida a alguns tópicos bem focalizados que tenham possibilidade de ser úteis para modelar o conteúdo do questionário.

Gerente de desenvolvimento de teste e elaboradores de itens. Gerente de desenvolvimento de testes e elaboradores de itens. Gerente de desenvolvimento de testes, formuladores de políticas e principais interessados.

Desenhar a tabela de especificações do questionário para especificar respondentes, áreas principais, tipos de itens, codificação e protocolo de aplicação. Anotar os itens do questionário. Aumentar a clareza e a utilidade em painéis de questionário. Revisar os questionários.

2. Tabela de especificações

3. Itens

Pessoas envolvidas

Esclarecer o objetivo e o uso potencial dos dados do questionário.

1. Objetivo

Gerente de elaboração de testes, elaboradores de itens e analista de dados. Gerente de desenvolvimento de testes, elaboradores de itens, profissionais de design e diagramação e revisores.

Refinar questionário e instruções de aplicação com base nos dados do pré-teste e nos retornos dos aplicadores do pré-teste. Produzir o formulário final do questionário.

Fonte: Criação dos autores.

Gerente de desenvolvimento de testes e analista de dados.

Gerente de elaboração de testes, gerente de logística e aplicadores de teste.

Fazer o pré-teste dos questionários, ao mesmo tempo em que os testes estão passando por um pré-teste. Analisar dados do pré-teste do questionário.

Gerente de elaboração de testes e elaboradores de itens.

Escrever instruções para pré-teste de questionários e treinar aplicadores.

6. Questionário final

Gerente de desenvolvimento de testes, elaboradores de itens, profissionais de design e diagramação e revisores.

Desenhar, produzir e revisar questionários para pré-teste.

5. Pré-teste

Analista de dados e gerente de desenvolvimento de testes.

Especificar o plano para processar informação, para criar variáveis e indicadores para medição, e para tipos de análise.

4. Plano de análise dos dados

Gerente de desenvolvimento de testes, especialistas nas disciplinas, analista de dados, elaboradores de itens experientes, professores experientes, formuladores de políticas e principais interessados.

Formuladores de políticas, principais interessados e gerente de desenvolvimento de testes.

Descrição

Componente

Componentes do Desenvolvimento de Questionário

TABELA 8.1

DESENVOLVIMENTO DE TESTES E QUESTIONÁRIOS PARA AVALIAÇÃO DO APROVEITAMENTO ESCOLAR

|

113

Os formuladores de políticas podem não saber que o processo de analisar e relatar dados do questionário é dispendioso e requer conhecimentos técnicos. Como os recursos são invariavelmente limitados, os questionários precisam ser concisos e altamente relevantes. Os dados coletados também têm de ser tecnicamente aceitáveis, caso se pretenda que sejam usados para explicar o desempenho dos alunos. Os modelos usados por outras avaliações nacionais podem fornecer uma orientação aproximada. No entanto, cada país tem as próprias necessidades, que devem determinar o que é apropriado para o questionário. O gerente de desenvolvimento de testes ou a pessoa responsável pela produção do questionário talvez precise fornecer aos formuladores de políticas alguma orientação a respeito de variáveis-chave que tenham a probabilidade de produzir informações úteis. Para fazer isso, talvez precisem apresentar aos formuladores de políticas alguns exemplos relevantes para ajudá-los a considerar como poderiam usar as informações coletadas. Essas informações ajudarão a refinar um pouco mais a lista de variáveis que serão levadas em conta. Como os questionários serão desenhados para tratar de tópicos que os respondentes provavelmente conhecem, os tópicos variarão para alunos, pais, professores e diretores. As seções seguintes sugerem tópicos adequados para os questionários de cada um desses grupos.

Questionários dos Alunos Os questionários dos alunos podem coletar as seguintes informações:

yGênero, idade e idioma (em geral, esses dados são coletados na página de rosto do caderno de prova). yAntecedentes educacionais, como anos de escolaridade e períodos fora da escola. yOportunidades de frequentar uma escola. yExpectativas de sucesso e atitudes pessoais ou familiares sobre os valores da escola. yPercepções sobre o ambiente da sala de aula, como sentimento de segurança, camaradagem de outros alunos ou apoio dos professores.

114 | SÉRIE P ESQ UISAS DO BA NC O M U NDI AL SOB R E AVAL I AÇ ÕE S DE DE SE M PE NH O E DU C AC I ONAL

Questionários dos Pais Os questionários dos pais podem coletar as seguintes informações:

yNacionalidade, gênero e idioma. yAmbiente em casa, como acesso a livros, escrivaninhas e iluminação. yAntecedentes da família, como educação dos pais e idioma falado em casa. yAtitudes relativas à educação, como compromisso de mandar os filhos para a escola, percepções sobre o valor e relevância da educação ou percepções sobre a qualidade da educação. yAtenção aos deveres de casa e recursos disponíveis em casa para o estudo dos filhos. yDisponibilidade de educação a um custo possível e acessibilidade da educação para os filhos. yExpectativas do aproveitamento escolar dos filhos. yEnvolvimento com a escola, como participação na sala de aula ou em comitês. yNatureza dos boletins escolares sobre o progresso dos filhos e seu valor. yApoio financeiro à escola na forma de pagamentos de livros didáticos e taxas..

Questionários dos Professores Os questionários dos professores podem coletar as seguintes informações:

yGênero e idade. yPrimeiro idioma. yCondições de ensino, como tamanho da classe, acesso a recursos, percentual de alunos que têm livros didáticos, acesso a professores substitutos em casos de doença e assistência para lidar com alunos desafiadores. yExperiência educacional, qualificações como professor e número de anos nesta escola.

DESENVOLVIMENTO DE TESTES E QUESTIONÁRIOS PARA AVALIAÇÃO DO APROVEITAMENTO ESCOLAR

|

115

yCompromisso profissional com o aprendizado, como interesse pelo desenvolvimento profissional e acesso a ele, interesse em ensinar e tempo gasto para preparar as aulas. yDisponibilidade de apoio instrucional, como visitas à sala de aula por diretores, inspetores ou supervisores escolares. yMetodologia de ensino, como idioma de instrução, uso de avaliação e estilo de ensino adotado. ySatisfação com as condições de trabalho, como carreira, remuneração e nível de supervisão. yRelacionamento com a comunidade escolar, como interações com os pais, envolvimento em comitês escolares e participação em eventos da comunidade local. yDistância entre a casa do professor e a escola.

Questionários do Diretor da Escola Os questionários para diretores podem coletar as seguintes informações:

yGênero e idade. yExperiência educacional e gerencial, e qualificações. yAmbiente da escola, como qualidade dos prédios e instalações, bem como disponibilidade de recursos. yRegistros da escola, como flutuações no número de alunos, taxa de absenteísmo de alunos ou professores, e frequência com que os alunos mudam de escola. yCompromisso profissional com a liderança da escola, como interesse pelo desenvolvimento profissional e acesso a ele, e interesse pela educação. yEstilo de liderança e uso do tempo. ySatisfação com as condições de trabalho, como carreira, remuneração, e nível e frequência de supervisão. yRelacionamento com a comunidade escolar, como interações com os pais e participação em eventos da comunidade local.

116 | SÉRIE P ESQ UISAS DO BA NC O M U NDI AL SOB R E AVAL I AÇ ÕE S DE DE SE M PE NH O E DU C AC I ONAL

TABELA DE ESPECIFICAÇÕES DO QUESTIONÁRIO É necessária uma tabela de especificações para guiar o desenvolvimento de um questionário. Ela descreve as questões de políticas mais importantes que fornecerão o foco do questionário; identifica os respondentes; lista as variáveis-chave que serão abordadas; e especifica o formato dos itens, os tipos de categorias de respostas e o protocolo de aplicação. O Quadro 8.1 fornece um exemplo da tabela de especificações de um questionário usado para coletar informações sobre valores e atitudes dos alunos com relação à escola e à sua comunidade local. Recentes reformas na educação e novas disciplinas curriculares estão sendo introduzidas em escolas, enfatizando a necessidade de se ensinar aos alunos a valorização de sua comunidade local e a aquisição de habilidades que os ajudarão a contribuir, de forma construtiva, para a vida de sua comunidade como adultos. Os formuladores de políticas em Papua Nova Guiné queriam colher informações sobre as expectativas dos alunos a respeito da escola e suas percepções sobre a escola e a comunidade. O questionário foi aplicado a todos os alunos que participaram de testes de avaliação nacional.

ITENS DO QUESTIONÁRIO

Várias considerações devem ser feitas no processo de decidir sobre o número de itens num questionário, incluindo quantidade de tempo disponível para responder às questões, recursos disponíveis para a análise e complexidade da análise requerida. Um questionário curto e limitado que seja analisado adequadamente e forneça informações úteis é preferível a um longo e abrangente que nunca seja totalmente processado. O número de itens necessários para medir uma variável específica depende da natureza da variável. Algumas variáveis, como gênero ou idade, podem ser medidas diretamente. Outras, como situação socioeconômica, tendem a ser construídas a partir de vários itens, como nível de educação dos pais, situação de trabalho, localização do domicílio e posse de bens.

DESENVOLVIMENTO DE TESTES E QUESTIONÁRIOS PARA AVALIAÇÃO DO APROVEITAMENTO ESCOLAR

|

117

QU A D R O 8 . 1

Atitudes e Valores da Tabela de Especificações do Questionário Parte I

Áreas Número de questões Respondentes

Categorias de respostas

Atitudes com relação à escola 10 3a série 5a série 8a série Sim ou Não

Crenças sobre a vida em Papua Nova Guiné 15 5a série 8a série

Percepções da comunidade local 15 5a série 8a série

Sim ou Não

Sim ou Não

Parte II Atitudes com relação à escola Crenças sobre aproveitamento pessoal, duração pretendida da escolarização e planos pessoais para o futuro

Crenças sobre a vida em Papua Nova Guiné Atitudes com relação à educação: ensino no idioma local, educação compulsória, papel da escola, educação de meninas e papéis das mulheres Atitudes com relação à comunidade: intenção pessoal de permanecer na comunidade local ou razões para sair

Percepções da comunidade local Nível de cooperação percebido na comunidade local: apoio à escola, envolvimento local em eventos da comunidade e partilha de recursos Atitude percebida da comunidade local com relação a meninas e mulheres

Valores Valores sobre resolução de conflitos

Crenças sobre a vida em Papua Nova Guiné Atitudes com relação a conflitos e solução de disputas

Valores sobre hábitos de higiene pessoal

Atitudes com relação a álcool e drogas

Percepções da comunidade local Nível percebido de emprego construtivo na comunidade local e uso de meios pacíficos para resolver problemas Percepções de problemas causados pelo uso de drogas e álcool na comunidade local

Percepções de ajuda recebida de professores, camaradagem dos alunos, intimidação e disposição para fazer amizade com pessoas de fora da comunidade Parte III

Fonte: Papua Nova Guiné, Departamento de Educação 2004.

118 | SÉRIE P ESQ UISAS DO BA NC O M U NDI AL SOB R E AVAL I AÇ ÕE S DE DE SE M PE NH O E DU C AC I ONAL

Uma variável direta é o dado derivado de uma medida direta. Uma variável agregada combina dados de dois ou mais itens para representar um conceito. Em geral, os formuladores de políticas têm mais facilidade para interpretar os resultados de análises baseadas em variáveis diretas, e não em variáveis agregadas. As decisões sobre se é necessário dispor de uma variável direta ou de uma variável agregada para apoiar um conceito devem basear-se em boas práticas de pesquisa e nas condições do país. Tanto pesquisas nacionais quanto internacionais têm usado variáveis agregadas. Em um estudo internacional, por exemplo, as variáveis “leitura com um objetivo utilitário” e “leitura por prazer” se basearam em variáveis agregadas (veja Tabela 8.2).

TABELA 8.2

Funções da Leitura num Estudo Internacional: Pesos Usados para Criar Duas Novas Variáveis , “Leitura com um Objetivo Utilitário” e “Leitura por Prazer” Pesos Item (abreviado)

Objetivo utilitário

Ajuda-me na escola.

0,75

Ajuda-me a passar nas provas.

0,74

Ajuda-me com temas futuros na escola.

0,73

Ajuda-me a trabalhar melhor.

0,65

Posso passar para a faculdade.

0,65

Ajuda-me a conseguir um bom emprego.

0,63

Meus pais acham que é importante.

0,58

Prazer

É prazeroso.

0,76

É empolgante.

0,72

É interessante.

0,71

É como entrar em outro mundo.

0,68

É bom pensar sobre coisas que leio.

0,54

É divertido pensar que sou um personagem numa história.

0,53

É bom ficar sozinho.

0,53

Ajuda-me a relaxar.

0,50

Fonte: Dados extraídos de Greaney e Neuman, 1990 (Tabela 8, registros inferiores a 0,20 foram excluídos).

DESENVOLVIMENTO DE TESTES E QUESTIONÁRIOS PARA AVALIAÇÃO DO APROVEITAMENTO ESCOLAR

|

119

As questões específicas de um país são relevantes para se decidirem quantos itens serão necessários para medir uma variável. Por exemplo, num país em que os professores têm formação bastante uniforme, e todos têm pelo menos dois ou três anos de educação superior em instituições reconhecidas, uma única variável direta pode ser suficiente para medir os anos de educação terciária. No entanto, num país em que as condições dos professores variam muito, a qualidade das instituições de ensino é desigual e muitos professores podem ter recebido apenas um treinamento prático no trabalho, pode haver necessidade de agregar diversas variáveis diretas para representar um conceito “educação dos professores” que reflita adequadamente a situação. Do mesmo modo, num país rico, os recursos educacionais em casa podem ser medidos por uma única variável direta relativa ao acesso à internet, mas, num país pobre, os recursos educacionais em casa podem ser mais bem representados por um agregado de variáveis diretas que incluam acesso a uma escrivaninha, uma cadeira, uma lâmpada, lápis, papel e livros didáticos. As decisões sobre o uso de uma única variável direta ou de uma variável agregada para obter uma medida também dependem das crenças sobre a significância das possíveis variáveis diretas. Por exemplo, para medir a experiência de ensino, se sua qualidade varia amplamente em função de onde os professores estejam empregados e se existe a crença de que o local do emprego anterior do professor também poderia afetar o desempenho dos alunos; então, deve-se coletar a informação de onde o professor tem trabalhado e o tempo que passou em cada emprego. Se existe uma crença de que o número de anos de experiência de ensino poderia afetar o desempenho dos alunos, independentemente de onde os professores adquiriram sua experiência, então é provável que uma única variável direta seja suficiente.

FORMATO DO ITEM

Itens de escolha obrigatória são processados com muito mais facilidade, rapidez e economia que itens abertos. Como os itens de escolha obri-

120 | SÉRIE P ESQ UISAS DO BA NC O M U NDI AL SOB R E AVAL I AÇ ÕE S DE DE SE M PE NH O E DU C AC I ONAL

gatória fornecem um número limitado de categorias entre as quais selecionar uma resposta, o processamento dos dados é simplesmente uma questão de entrar com a seleção do respondente num computador. As respostas às questões abertas, em contraste, têm de ser processadas manualmente antes de se entrar no computador. Em geral, os dados de questionários são resumidos para apresentação. Por exemplo, respostas à questão de quanto tempo os alunos gastam para chegar à escola todo dia podem ser categorizadas em alguns poucos grandes blocos, como menos de uma hora, entre uma e duas horas, e mais de duas horas. Numa versão aberta desse item, alguns alunos informarão o tempo em minutos e outros em horas; outros podem escrever “muito tempo” e outros ainda podem dar uma resposta ilegível. A faixa de respostas será grande, e a classificação das respostas necessariamente envolverá um elemento de subjetividade, dificultando, inclusive, a decisão de como classificar a resposta “muito tempo”. Itens de escolha obrigatória são preferíveis quando se pode fazer uma boa estimativa da provável gama de respostas que a maior parte dos respondentes dará. No entanto, se houver algum grau de incerteza, então podem ser usadas categorias com distinções mais refinadas do que as requeridas para a elaboração de relatórios. Depois da entrada dos dados num computador, podem ser tomadas decisões sobre quais categorias dão pouca informação e quais podem ser combinadas ou abandonadas (por exemplo, se nenhum aluno as selecionou). O uso de itens abertos pode ser factível se o questionário estiver sendo aplicado a uma pequena amostra e se existirem recursos disponíveis para classificar as respostas manualmente. Itens de pré-teste que permitam respostas abertas às vezes são úteis para obter informação destinada a gerar categorias para uma versão com escolha obrigatória que integrará o formulário final do teste.

IDIOMA DO QUESTIONÁRIO

O idioma usado num questionário deve ser um idioma no qual os respondentes tenham a maior probabilidade de conseguir ler e escrever

DESENVOLVIMENTO DE TESTES E QUESTIONÁRIOS PARA AVALIAÇÃO DO APROVEITAMENTO ESCOLAR

|

121

fluentemente. No entanto, a escolha do idioma precisa ser balanceada com as economias de escala. Em geral, os questionários são aplicados no mesmo idioma do material do teste.

RESPONDENTES

Considerando-se que sempre se coletam informações sobre a situação socioeconômica dos alunos e sobre seus fatores contextuais na página de rosto dos cadernos de prova, a seleção dos respondentes do questionário depende do que os formuladores de políticas queiram saber e da factibilidade de se obter essa informação de maneira confiável e eficiente. Estes são alguns problemas que podem estar associados aos respondentes:

yOs alunos podem ser muito jovens para preencher um questionário de forma confiável e exata. yA falta de recursos pode limitar a aplicação dos questionários a um pequeno grupo, como professores ou encarregados de turma, e não a milhares de alunos. yMuitos pais podem ser analfabetos ou não retornar os questionários. yOs professores e os encarregados de turma podem não estar motivados para preencher um longo questionário, ou achar muito ameaçador responder às questões honestamente. Qualquer que seja a decisão sobre os respondentes, a amostra selecionada para um questionário deve ser representativa da população. Se o questionário estiver sendo aplicado a alunos, a amostra que foi extraída para o teste deve ser a mesma que responderá ao questionário. Devem ser consultados especialistas em amostragem sobre os tamanhos de amostra requeridos para a aplicação a professores, encarregados de turma e pais.

122 | SÉRIE P ESQ UISAS DO BA NC O M U NDI AL SOB R E AVAL I AÇ ÕE S DE DE SE M PE NH O E DU C AC I ONAL

APLICAÇÃO DO QUESTIONÁRIO

Com frequência, os questionários são respondidos por escrito ou aplicados numa entrevista. A entrevista requer a presença de um entrevistador treinado para fazer as perguntas e anotar as respostas dos entrevistados (talvez aplicando códigos fornecidos no formulário do questionário). Em avaliações de grande porte, a maior parte dos questionários é escrita e aplicada em grupos para minimizar os custos. Os questionários devem conter instruções sobre como as questões devem ser respondidas. As instruções poderiam incluir as razões da coleta daquelas informações. A coleta dos dados dos questionários pode ser feita sob a supervisão de uma pessoa que recolherá os formulários depois de completados pelos respondentes.

PLANO DE ANÁLISE DE DADOS

Um plano de análise de dados especifica o tipo de informação que será fornecida em cada item do questionário e como essa informação será usada na análise. A assistência de um estatístico durante a fase de desenho do plano aumentará a confiança de que os dados podem ser analisados significativamente e de que as constatações serão rigorosas e defensáveis (veja o Volume 4 desta série). O plano deve mostrar o seguinte:

yAs características de mensuração das variáveis. A forma como os dados do questionário podem ser analisados depende das características de mensuração das variáveis. Números agregados a variáveis nominais ou categóricas (por exemplo, gênero) são, de fato, apenas rótulos e só podem ser usados para distinguir entre grupos. Números agregados a escalas ordinais (por exemplo, para representar respostas a um questionário indicando o grau de concordância com uma afirmação) fornecem informações sobre valores relativos, embora frequentemente sejam tratados em análises estatísticas como

DESENVOLVIMENTO DE TESTES E QUESTIONÁRIOS PARA AVALIAÇÃO DO APROVEITAMENTO ESCOLAR

|

123

se possuíssem as propriedades de intervalos (por exemplo, temperatura) ou de escalas de razão (por exemplo, número de anos de experiência como professor). yComo os dados de diversas variáveis serão agregados para produzir uma nova variável e como a nova variável será usada. Por exemplo, um índice de pobreza poderia ser construído com diversas variáveis, como renda familiar, localização do domicílio, número de cômodos da casa, posse de bens, número de filhos e nível de educação dos pais. No desenho do plano, deve-se considerar como as variáveis serão agregadas para representar pobreza.

CAPÍTULO

9

ELABORAÇÃO DE ITENS DE QUESTIONÁRIOS

A

partir da forma como um item é construído, deve estar claro qual é a informação requerida. Além disso, os respondentes devem ser capazes de fornecer essa informação. Assim, não se pediria a alunos das primeiras séries para lembrar quantos dias faltaram às aulas durante o ano escolar, porque provavelmente não seriam capazes de dar uma resposta confiável. Na melhor das hipóteses, poderiam se lembrar de quantos dias faltaram na semana anterior. O fraseado dos itens deve ser o mais simples e claro possível. O vocabulário deve ser familiar, e as sentenças devem ser curtas e diretas. A menos que seja aplicado oralmente, todos os respondentes devem ser capazes de ler o questionário. Também é importante que todos interpretem os itens do questionário do mesmo modo. Caso contrário, será difícil interpretar os resultados de maneira significativa. A primeira parte do item de um questionário pode ser uma questão, uma sentença incompleta ou uma afirmação que os respondentes devem avaliar. Os respondentes devem ser abordados num estilo consistente. Uma das duas formas pode ser usada:

126 | SÉRIE P ESQ UISAS DO BA NC O M U NDI AL SOB R E AVAL I AÇ ÕE S DE DE SE M PE NH O E DU C AC I ONAL

yReferindo-se a “você”, por exemplo, “Quantos anos você tem?” yReferindo-se a “Eu”, por exemplo, “Eu venho para a escola …” QUESTÕES

As questões devem ser claras e sem ambiguidade. A seguinte questão é ambígua: Há quanto tempo você é professor? Essa questão confunde o tempo transcorrido desde o treinamento e o tempo dedicado a ensinar. Qualquer pessoa que tenha parado de lecionar por algum tempo e retornado, como no caso de mulheres que ficaram algum tempo cuidando de suas famílias, terá dúvidas sobre como responder à questão. Não é claro se essa questão é uma medida da experiência do professor ou do tempo transcorrido desde o seu treinamento. Existem pelo menos duas questões aqui: Quando você completou seu treinamento como professor? Quantos anos de experiência de ensino você tem? A segunda questão ainda é problemática porque não está claro como poderiam ser medidos os anos de experiência de ensino. Por exemplo, cinco anos de experiência lecionando em tempo parcial, uma vez por semana, devem ser contados como cinco anos ou como o equivalente a um ano? Se quase todos os postos de ensino no país forem de horário integral, então a ambiguidade é improvável, mas, se muitos forem de tempo parcial, a situação se complica. A questão poderia ser apresentada assim: Quantos anos de experiência de ensino em tempo integral (ou o equivalente a tempo integral) você tem? Pode ser necessário definir o que se quer dizer com “equivalente”.

AFIRMAÇÕES

Itens que começam com uma afirmação em geral requerem que os respondentes façam algum tipo de avaliação da afirmação, como “concordo fortemente”, “concordo”, “discordo” ou “discordo fortemente”.

DESENVOLVIMENTO DE TESTES E QUESTIONÁRIOS PARA AVALIAÇÃO DO APROVEITAMENTO ESCOLAR

|

127

Afirmações na forma negativa, como “Eu não gosto de escola”, devem ser evitadas, porque podem ser confusas. Se solicitados a responder se concordam ou discordam, os alunos que gostam de escola devem selecionar uma categoria “discordo”. Em geral, as crianças menores consideram difícil lidar com negativas duplas. Mantenha as afirmações tão neutras quanto possível. Uma afirmação que diz “Eu gosto de escola” é melhor que outra que diz “Eu adoro escola”. Os alunos podem expressar seu amor pela escola selecionando a resposta “concordo fortemente”. As afirmações devem se centrar numa questão. Assim, afirmações como “Eu dou duro e me saio bem em meus deveres de casa” devem ser evitadas. Os alunos que se saem bem na escola, mas não dão duro, ficarão sem saber qual resposta selecionar. Os alunos que dão duro podem concordar fortemente com essa afirmação, embora não se saiam bem em seus deveres de casa. A afirmação ficaria melhor se dividida em duas: “Eu dou duro na escola”; “Eu me saio bem nos meus deveres de casa”.

CATEGORIAS DE RESPOSTAS

Boas categorias de respostas têm o mesmo significado para todos os respondentes. As seguintes categorias de respostas têm a probabilidade de apresentar diferentes significados para diferentes pessoas: Quantos livros estão na biblioteca da sala de aula? A. nenhum B. poucos C. alguns D. muitos As categorias de respostas para o item devem ser quantificadas de forma que o significado seja claro:

128 | SÉRIE P ESQ UISAS DO BA NC O M U NDI AL SOB R E AVAL I AÇ ÕE S DE DE SE M PE NH O E DU C AC I ONAL

Quantos livros estão na biblioteca da sala de aula? A. não há biblioteca B. 1 a 10 C. 11 a 20 D. mais de 20 Às vezes, as categorias de respostas podem ter significado diferente para diferentes respondentes, mas essa diferença é parte da informação buscada, conforme mostra o seguinte item: Quão boa é a biblioteca de sua escola? A. não há biblioteca B. ruim C. adequada D. boa E. excelente Se o item é sobre o nível de satisfação do respondente com a biblioteca da escola, independentemente de qualquer medida objetiva de sua qualidade, então é um bom item. Se o item estiver combinado com itens que quantifiquem – por exemplo, aproximadamente quantas estantes de livros ou computadores existem na biblioteca –, então a percepção do respondente pode ser comparada com medidas mais objetivas sobre as instalações da biblioteca. As categorias de respostas precisam levar em conta o nível de exatidão das respostas que os respondentes têm a probabilidade de conseguir dar. É improvável que os respondentes saibam, com alguma precisão, o número de livros numa biblioteca, a menos que seja um número muito pequeno. As categorias de respostas precisam cobrir todas as respostas possíveis. Se houver algumas categorias importantes e várias outras secundárias, é melhor listar as mais importantes e incluir a opção “outras”. O pré-teste ajuda a identificar as principais categorias. As categorias de respostas não devem se superpor nem deixar hiatos. Ambos os erros são mostrados na seguinte questão:

DESENVOLVIMENTO DE TESTES E QUESTIONÁRIOS PARA AVALIAÇÃO DO APROVEITAMENTO ESCOLAR

|

129

Há quanto tempo você leciona nesta escola? A. menos de 5 anos B. menos de 10 anos C. mais de 10 anos Os professores com menos de 5 anos de experiência de ensino não saberão se devem selecionar a primeira ou a segunda opção. Professores com 10 anos de experiência não têm opção que lhes sirva. Os itens do questionário que começam com uma afirmação que os respondentes deverão avaliar podem ter muitas categorias diferentes de respostas. É importante que as categorias não se superponham. Alguns exemplos de categorias de respostas que têm sido usadas no questionário do professor pelo TIMMS (Tendências Internacionais no Estudo de Matemática e Ciências) são:

ySim, não yConcordo fortemente, concordo, discordo, discordo fortemente yQuase todos os dias, uma ou duas vezes por semana, uma ou duas vezes por mês, nunca ou quase nunca yDe jeito nenhum, um pouco, bastante, muito yNão tem importância, um pouco importante, muito importante.

LIDANDO COM QUESTÕES DELICADAS

Algumas questões são delicadas, como perguntar se os professores têm um segundo emprego para complementar seu salário. Se a maior parte dos respondentes provavelmente não responderá à questão honestamente, ela deve ser deixada de lado. Os formuladores de políticas podem estar muito interessados nessa informação, mas não faz sentido coletar dados não confiáveis. Às vezes, podem ser coletadas informações relacionadas que não sejam tão delicadas. Incluir perguntas sobre questões delicadas pode ofender aos respondentes, que se recusarão a responder ao restante dos itens ou devolverão o questionário. Se existe preocupação quanto à sensibilidade a alguma questão, o melhor é não incluí-la no questionário.

130 | SÉRIE P ESQ UISAS DO BA NC O M U NDI AL SOB R E AVAL I AÇ ÕE S DE DE SE M PE NH O E DU C AC I ONAL

DIAGRAMAÇÃO DO QUESTIONÁRIO

Existem duas considerações fundamentais quanto à diagramação e ao desenho de questionários: (a) facilidade de uso para o respondente e (b) facilidade de uso para o processamento dos dados. É fácil usar os questionários quando eles têm as seguintes características:

yUm modo simples e consistente de responder às questões. yUma apresentação limpa e clara. yQuestões separadas e facilmente identificáveis. yCategorias de respostas claramente associadas a cada questão. yTítulos, fontes e diagramação consistentes. yCategorias de respostas codificadas para a entrada de dados. As categorias de respostas podem ser apresentadas de muitas maneiras. Podem estar numa coluna vertical ou numa linha horizontal. Os respondentes podem fazer um círculo em torno de uma letra ou de um número, ou marcar uma caixa para indicar sua seleção. É preferível manter a consistência no estilo de resposta. O Quadro 9.1 apresenta o exemplo de um item no qual as respostas não estão claramente identificadas com as categorias de respostas. O Quadro 9.2 mostra melhor alinhamento.

QU A D R O 9 . 1

Alinhamento Ruim de Caixas e Categorias de Respostas O seguinte exemplo mostra um alinhamento ruim de caixas e categorias de respostas: Quanto tempo você leva para chegar à escola na maior parte dos dias? Menos de 15 minutos …

15 minutos …

30 minutos …

1 hora …

mais de 1 hora …

45 minutos

…

As caixas estão situadas entre as categorias de respostas, em vez de estarem claramente alinhadas com apenas uma categoria. Fonte: Autores.

DESENVOLVIMENTO DE TESTES E QUESTIONÁRIOS PARA AVALIAÇÃO DO APROVEITAMENTO ESCOLAR

|

131

QU A D R O 9 . 2

Melhor Alinhamento de Caixas e Categorias de Respostas O seguinte exemplo mostra um bom alinhamento de caixas e categorias de respostas: Com que frequência as seguintes pessoas de sua família o ajudam em seu dever de casa?

a) Sua mãe b) Seu pai c) Seus irmãos e irmãs d) Um de seus avós

Nunca ou quase nunca

Algumas vezes por ano

Cerca de uma vez por mês

Várias vezes por mês

Várias vezes por semana

… … … …

… … … …

… … … …

… … … …

… … … …

Fonte: Autores.

REVISÃO DOS QUESTIONÁRIOS

A elaboração de questionários é muito mais difícil do que parece. Todos os itens têm de ser cuidadosamente examinados e revistos para garantir que sejam claros e não contenham ambiguidade. Recomenda-se que um painel faça a revisão do questionário. Os membros do painel devem incluir elaboradores de itens, alguém que tenha familiaridade com as características da população respondente e alguém capaz de garantir que os itens sejam culturalmente adequados. Hoje em dia, algumas avaliações nacionais e internacionais checam como os respondentes interpretam os itens antes da aplicação principal do questionário. Será útil que os membros do painel tentem completar o questionário como se fossem os respondentes. Esse processo ajudará a identificar onde as categorias de respostas poderiam estar pouco claras, superpostas ou deixando de incluir alguns tipos de resposta. Os membros do painel devem criticar os itens, especialmente para deixar claros o fraseado e a adequação das categorias de respostas. Devem se certificar de que o fraseado é tão simples e claro quanto possível, que o estilo de itens é consistente e que os itens estão apresentados numa ordem lógica, com instruções adequadas.

132 | SÉRIE P ESQ UISAS DO BA NC O M U NDI AL SOB R E AVAL I AÇ ÕE S DE DE SE M PE NH O E DU C AC I ONAL

Os membros do painel devem conferir se os itens correspondem à tabela de especificações do questionário e certificar-se de que cada item fornece a informação requerida. Também precisam checar se o número de itens usados é adequado para medir cada variável com um nível suficiente de exatidão. Depois que o questionário tiver sido aprimorado, os formuladores de políticas devem ter a oportunidade de revê-lo. Os formuladores de políticas precisam aprovar os itens, especialmente se tocam questões politicamente delicadas. Os formuladores de políticas também devem checar se os itens fornecerão informações úteis. Depois de aprimorados, os questionários devem passar por um pré-teste, junto com os materiais do teste. O pré-teste fornece a oportunidade de melhorar a qualidade dos itens e reduzir o tempo e o custo de processamento dos dados do questionário final. Os itens que não funcionarem (por exemplo, aqueles em que os respondentes ficam confusos) podem ser abandonados, e as categorias de resposta podem ser expandidas ou reduzidas. Depois da aplicação do questionário, o aplicador deve ouvir a opinião dos respondentes (alunos ou professores) a respeito dos itens que não estão claros ou que não contêm informação adequada. Os aplicadores devem se certificar de que nenhum item seja considerado ofensivo por tocar em questões delicadas. Uma análise estatística mais formal das respostas pode indicar que as categorias de respostas precisam ser mais sutilmente diferenciadas. Por exemplo, se a maior parte dos alunos selecionar determinada categoria de resposta para um item, a categoria deve ser dividida em categorias mais sutilmente diferenciadas, para que se possa obter informação mais exata. Se a faixa de possíveis respostas a um item for potencialmente muito ampla e difícil de prever, o item deve ser deixado em aberto no pré-teste. Então, as respostas obtidas poderão ser classificadas e usadas para gerar categorias para um item de escolha forçada no questionário final. Em http://go.worldbank.org/M2O1YDQO90, você encontra exemplos de avaliações nacionais e internacionais de questionários para alunos, professores, encarregados de turma e pais. Também inclui exemplos de guias de pontuação para respostas abertas.

CAPÍTULO

10

CODIFICAÇÃO DAS RESPOSTAS DOS QUESTIONÁRIOS

A

ntes de dar entrada no computador, as categorias de respostas têm de ser codificadas. A codificação pode ser alfabética ou numérica. Os códigos alfabéticos em geral requerem que os respondentes façam um círculo em torno de uma letra para dar sua resposta. Esse método pode não ser adequado para alunos mais jovens. Marcar uma caixa ou sombrear círculos pode ser uma tarefa mais fácil para pessoas com habilidades de letramento limitadas. Se os itens usarem esse tipo de diagramação, deverão ser codificados numericamente. Se for usada a codificação numérica, a primeira categoria de resposta recebe, em geral, o código 1, a segunda recebe o código 2, e assim por diante. A entrada de dados é mais eficiente se os códigos estiverem impressos no questionário. Pode-se usar uma fonte pequena em escala cinza, conforme se vê no Quadro 10.1. No exemplo, as categorias de resposta estão numeradas sob as caixas: andando é a categoria 1, transporte público é a categoria 2, e assim por diante. O aluno marca a caixa que se aplica ao seu caso. A pessoa que faz a entrada de dados dá entrada no número da caixa que o aluno selecionou. Se os respondentes tiverem a oportunidade de selecionar mais de uma categoria de resposta para um item, cada categoria deve ser tratada como

134 | SÉRIE P ESQ UISAS DO BA NC O M U NDI AL SOB R E AVAL I AÇ ÕE S DE DE SE M PE NH O E DU C AC I ONAL

um item separado para efeito de entrada e processamento dos dados. Esse procedimento possibilita rastrear quais são as categorias selecionadas por cada respondente. O item no Quadro 10.2 é apresentado ao respondente como uma questão com múltiplas respostas possíveis; no entanto, é tratado como oito itens separados durante a entrada de dados. QUADRO 10.1

Exemplo de Codificação em Escala Cinza Hoje eu vim para a escola Caminhando … Usei transporte público … Usei transporte privado … Montando um animal … 1

2

3

4

QUADRO 10.2

Exemplo de Tratamento de Itens como Categorias Separadas para a Entrada de Dados Se você não veio à escola na última semana, marque uma ou mais caixas para mostrar o motivo.

…Eu estava doente. 1 …Tive de ajudar meus pais. 1 …O tempo estava ruim. 1 …Eu não tinha comida. 1 …Minha família teve problemas. 1 …Eu não tinha um uniforme limpo nem roupas adequadas para usar. 1 …Não era seguro (problemas de conflitos e desordens). 1 …Outro _______________________________________ Fonte: Autores.

As respostas à primeira categoria (ausente por doença) são registradas como 1 ou em branco, respostas à segunda (ajudando os pais) são registradas como 1 ou em branco, respostas à terceira categoria (tempo ruim) são registradas da mesma forma, e assim por diante, para cada uma das oito categorias.

DESENVOLVIMENTO DE TESTES E QUESTIONÁRIOS PARA AVALIAÇÃO DO APROVEITAMENTO ESCOLAR

|

135

PREPARAÇÃO DOS QUESTIONÁRIOS PARA A ENTRADA DE DADOS

Os dados do questionário podem ser escaneados com equipamento especial ou registrados manualmente. O desenho e a diagramação do questionário têm de ser customizados quando se usar um escâner. Se a entrada de dados estiver sendo feita manualmente, as informações podem ser passadas diretamente do questionário se as categorias de respostas tiverem sido codificadas. No entanto, as pessoas que fazem a entrada de dados podem ter dificuldade de manter um alto nível de exatidão, especialmente se não tiverem familiaridade com esse tipo de trabalho. Também é provável que a exatidão seja comprometida se a diagramação dos itens variar demais ou se alguns itens tiverem um grande número de categorias de respostas. A entrada de dados será facilitada se os pontuadores e avaliadores escreverem o código para a categoria selecionada na margem esquerda, perto do número de cada item. A entrada de dados, então, se torna uma questão de apenas entrar os códigos escritos na margem. Quando se acrescentam caixas levemente sombreadas na margem para os pontuadores e avaliadores escreverem os códigos, o processo fica mais eficiente.

CÓDIGOS EM BRANCO OU RESPOSTAS AMBÍGUAS

Às vezes, os respondentes não respondem aos itens ou dão respostas ambíguas, como, por exemplo, selecionando mais de uma categoria de resposta quando as categorias são mutuamente exclusivas. A coleta de informação sobre respostas em branco indica se os respondentes deixaram de responder de forma consistente a alguns itens. Por exemplo, o questionário pode ser muito longo, de modo que os últimos itens não são respondidos, ou um item pode estar muito próximo de outros itens e não ser percebido. A coleta de informação sobre respostas ambíguas também indicará se um item é pouco claro para muitos respondentes ou se eles não compreendem como completar o questionário.

136 | SÉRIE P ESQ UISAS DO BA NC O M U NDI AL SOB R E AVAL I AÇ ÕE S DE DE SE M PE NH O E DU C AC I ONAL

A pessoa responsável pela entrada de dados precisa saber como codificar respostas em branco ou ambíguas. Os códigos usados para respostas em branco ou ambíguas não devem ser confundidos com aqueles usados para categorias de resposta. Uma letra do alfabeto pode ser usada para denotar resposta em branco ou nenhuma tentativa, como um X. O código para respostas ambíguas poderia ser uma segunda letra, como Y. Os itens de múltipla escolha num teste usam códigos 9 para em branco e 8 para a seleção de duas ou mais opções. Em geral, esses códigos não são usados para questionários porque alguns itens do questionário provavelmente terão oito ou nove categorias de respostas.

CAPÍTULO

11

CORRESPONDÊNCIA ENTRE QUESTIONÁRIOS E DADOS DO TESTE

A

correspondência entre os dados do questionário e os do teste será orientada pelas necessidades da análise e da apresentação dos resultados. Todas as correspondências devem ser estabelecidas claramente e sem ambiguidades antes da coleta de dados. Poderá ser difícil ou impossível corrigir qualquer erro de correspondência descoberto depois que os dados tiverem sido coletados. Esses erros podem fazer com que se tenha de abandonar algumas das análises planejadas.

QUESTIONÁRIOS DOS ALUNOS

O modo mais fácil de fazer a correspondência entre os questionários dos alunos e os dados do teste é imprimir os testes e os questionários em um único caderno. O aluno registra seu nome no caderno, e o aplicador do teste certifica-se de que o aluno trabalhe no próprio caderno em cada uma das sessões do teste. Se os questionários do teste estiverem em documentos separados, um método de fazer a correspondência dos dados é etiquetar tanto os testes quanto os questionários com os nomes dos alunos. Os nomes são

138 | SÉRIE P ESQ UISAS DO BA NC O M U NDI AL SOB R E AVAL I AÇ ÕE S DE DE SE M PE NH O E DU C AC I ONAL

retirados da lista da escola e devem ser idênticos nas duas etiquetas. Mais uma vez, o aplicador do teste precisa certificar-se de que os alunos trabalhem em testes e questionários que tragam seus nomes claramente impressos. Se não for possível etiquetar com antecedência os cadernos e questionários separados, os questionários dos alunos precisam ter informações de identificação suficientes para permitir sua correspondência com os dados do teste. É preferível atribuir uma identidade numérica (ID) aos alunos para garantir que usem o mesmo número de ID em cada caderno e questionário. O aplicador de teste terá de supervisionar esse procedimento. O analista de dados também deverá ter uma lista com os nomes e os números de ID dos alunos, de modo que os nomes possam ser usados como um backup caso ocorram erros no ID. Não é desejável confiar nos nomes dos alunos para fazer correspondência com os formulários. A menos que os nomes sejam absolutamente idênticos em cada formulário e sejam registrados, de forma idêntica, pela pessoa que faz o processamento dos dados, sem qualquer erro de grafia, o computador não poderá fazer a correspondência entre eles. Assim, a correspondência terá de ser feita manualmente, um exercício que consome tempo e recursos. Alguns alunos tornarão mais difícil a correspondência por nomes, pois usarão diferentes nomes (como nomes incompletos, nomes de família ou nomes religiosos) em diferentes formulários; escreverão de forma ilegível em um ou mais formulários; ou deixarão de escrever seu nome em um ou mais formulários.

QUESTIONÁRIOS DOS PAIS

Em geral, faz-se a correspondência entre os questionários dos pais e os dados dos alunos. A correspondência provavelmente será feita a partir dos nomes dos alunos. Podem ocorrer os mesmos problemas que se aplicam aos questionários dos alunos. Devem ser estabelecidos procedimentos adequados para garantir a consistência.

DESENVOLVIMENTO DE TESTES E QUESTIONÁRIOS PARA AVALIAÇÃO DO APROVEITAMENTO ESCOLAR

|

139

QUESTIONÁRIOS DO PROFESSOR E DO DIRETOR

Em geral, só se faz a correspondência dos questionários do professor e do diretor com a série e a escola. Se a série dos alunos é conhecida, a informação sobre o professor pode ser usada na análise dos dados do aluno. O aplicador de teste deve verificar se os professores e diretores forneceram essa informação no questionário. Quando forem devolvidos, os questionários de cada escola devem ser guardados em pacotes separados. Assim, mesmo que a informação sobre a escola não tenha sido fornecida em alguns questionários, é possível obter informações relevantes de outros questionários no mesmo pacote.

PA R T E

III

DESENHO DE UM MANUAL PARA APLICAÇÃO DO TESTE

CAPÍTULO

12

O MANUAL DO APLICADOR DE TESTE

É necessário haver um manual para orientar a aplicação do teste, que deve ser padronizado de modo que todos os alunos façam o teste sob as mesmas condições. O principal objetivo do manual é especificar as condições exatas em que o teste deve ser realizado, incluindo as exigências e os procedimentos de preparação que assegurem a segurança do teste. Os alunos que fazem o teste precisam receber as mesmas questões de prática e as mesmas instruções sobre como apresentar suas respostas. Todos devem dispor do mesmo tempo para fazer o teste, com o mesmo grau de supervisão. O desempenho dos alunos numa avaliação nacional deve ser uma medida de sua habilidade de responder aos itens sem apoio externo. Os alunos devem compreender o que têm de fazer e como apresentar suas respostas, mas não devem receber qualquer outro tipo de ajuda nem ter acesso a qualquer recurso que não seja parte do teste. A observância dos procedimentos estabelecidos em um manual de aplicação deve garantir isso. Em http://go.worldbank.org/M2O1YDQO90, você encontra exemplos de manuais de aplicação do teste e manuais para o exercício da função de coordenação que cabe à escola.

144 | SÉRIE P ESQ UISAS DO BA NC O M U NDI AL SOB R E AVAL I AÇ ÕE S DE DE SE M PE NH O E DU C AC I ONAL

CONTEÚDO DO MANUAL

Os manuais de aplicação devem fornecer informações que respondam às seguintes questões:

yA que se destina o teste? Breve explicação do objetivo do teste e do modo como os dados serão usados. yQuais os testes aplicados, quais os alunos testados e quando são testados? c Quais testes estão sendo aplicados na escola. c Quais os alunos que devem fazer cada teste. c Datas e horários de aplicação do teste. c Ordem de aplicação dos testes. c Tempo de aplicação de cada teste. c Intervalos requeridos entre a aplicação dos testes. c Quaisquer opções de flexibilidade na agenda de aplicação. yQuais os materiais de teste necessários? c Lista de todos os materiais de teste fornecidos. c Quantidades de cada material de teste fornecido, como um por aluno ou um por professor. c Lista de quaisquer materiais que a escola tenha de fornecer, como lápis e borrachas. yComo a sala deve ser preparada para o teste? c Instalações físicas que a escola precisa fornecer, como carteiras e cadeiras. c Os recursos que poderiam ajudar os alunos devem ser retirados da sala ou cobertos, como tabelas de multiplicação ou cartazes que contenham regras gramaticais. yQual a preparação necessária? c Como o diretor ou o encarregado de turma poderiam motivar funcionários da escola e alunos a apoiar a aplicação do teste antes da aplicação real. c Quais informações o aplicador do teste poderia pedir, como uma lista com os nomes dos alunos da classe. c

DESENVOLVIMENTO DE TESTES E QUESTIONÁRIOS PARA AVALIAÇÃO DO APROVEITAMENTO ESCOLAR

|

145

Como os cadernos de prova poderiam ser separados, numerados ou nomeados para que estejam disponíveis para uso. c Como seria preciso organizar grupos de alunos para o teste. yComo o teste deve ser realizado? c Como os alunos devem escrever seus nomes nos cadernos e registrar as informações socioeconômicas e contextuais na folha de rosto. c Quando e como o aplicador deve verificar se os alunos registraram corretamente as informações na folha de rosto do caderno de prova. c Como as questões de prática devem ser aplicadas e explicadas. c Que instruções os alunos devem receber sobre o teste. c Qual nível de apoio o aplicador pode oferecer durante o teste. c De quanto tempo os alunos dispõem para completar o teste. c Quais condições o aplicador precisa manter durante o teste. c Quem deve ter permissão para entrar na sala durante a aplicação do teste. yComo os materiais do teste devem ser guardados? c Procedimentos para garantir a segurança dos materiais antes, durante e depois do teste. yQuem pode ser contatado caso haja necessidade de ajuda? c Detalhes sobre como contatar a pessoa que pode ajudar a resolver problemas ou dar informações adicionais. c

As informações adicionais podem ser incluídas no manual de aplicação para reduzir o movimento dos cadernos de prova que entram e saem das escolas. É provável que essas informações variem, dependendo de o teste ser aplicado por um órgão externo ou por professores da escola.

USO DO MANUAL

Tanto o encarregado de turma ou diretor da escola quanto o aplicador do teste precisam usar o manual. Algumas avaliações preparam ma-

146 | SÉRIE P ESQ UISAS DO BA NC O M U NDI AL SOB R E AVAL I AÇ ÕE S DE DE SE M PE NH O E DU C AC I ONAL

nuais separados para diretores ou para aqueles que têm a responsabilidade geral pela realização das atividades da avaliação nacional dentro de cada escola. O encarregado de turma (ou o diretor) precisa do manual a fim de garantir que sua escola esteja adequadamente preparada para a aplicação do teste. Deve conhecer bastante sobre o teste para encorajar os funcionários e os alunos a apoiar a aplicação e motivar os alunos a tentar fazer o melhor possível. O encarregado de turma (ou o diretor) ou o responsável pela coordenação da avaliação nacional na escola (se alguém tiver sido designado para isso) devem ter informação suficiente para organizar a escola e certificar-se de que os alunos corretos estão disponíveis no horário requerido e com os materiais adequados; e que os materiais do teste possam ser armazenados em segurança. Os aplicadores de teste precisam que o manual lhes diga exatamente o que têm de fazer para aplicar o teste corretamente, quando e como fazê-lo. Eles precisam verificar se os materiais estão disponíveis em número suficiente e se os alunos corretos foram selecionados para fazer o teste. Precisam saber quais informações dar aos alunos sobre o teste, como explicar as questões de prática e o tempo de que dispõem para fazer o teste. Também devem saber que procedimentos de segurança usar para armazenar os materiais do teste.

CARACTERÍSTICAS DE UM MANUAL

Um bom manual contém todas as informações necessárias, e seu uso é fácil. A informação está ordenada logicamente, as instruções são claras e completas, a linguagem é simples e direta. Marcadores, caixas ou tabelas facilitarão a leitura das informações. Um bom manual deve ter uma tabela de conteúdos com títulos claros (veja o Quadro 12.1).

DESENVOLVIMENTO DE TESTES E QUESTIONÁRIOS PARA AVALIAÇÃO DO APROVEITAMENTO ESCOLAR

|

147

QU A D R O 1 2 . 1

Instruções do Manual de Aplicação Em uma avaliação nacional, as seguintes informações apareceram num tipo grande (Arial 14), ocupando toda a página de abertura do manual de aplicação:

Por favor, leia este Manual de Aplicação antes que seus alunos façam o teste. Os alunos têm de fazer este teste durante DOIS DIAS. y

O teste está dividido em quatro sessões. Os alunos devem fazer duas sessões por dia.

y

Os alunos devem fazer um intervalo entre cada sessão.

y

Não deixe que os alunos façam todo o teste de uma única vez.

Regras de Aplicação y

Os professores devem supervisionar todas as sessões durante todo o tempo.

y

Os alunos NÃO devem levar os cadernos de prova para fora da sala ou trabalhar neles depois que o professor tiver saído.

y

Os alunos devem usar lápis com borrachas na ponta, fornecidos pela escola.

y

Os alunos não devem usar nenhum material da sala de aula, como livros de exercícios, dicionários ou calculadoras, enquanto fazem o teste.

y

Os alunos não devem receber ajuda para responder às questões. Por exemplo, se um aluno não compreender o que deve ser feito, explique de novo as questões de prática e diga para que faça o melhor possível, mas não dê qualquer ajuda adicional.

Segurança do Teste y

Os materiais do teste devem ser ARMAZENADOS COM SEGURANÇA DURANTE TODO O TEMPO.

y

Os cadernos de prova dos alunos NÃO devem ser copiados em nenhuma hipótese.

y

Os alunos NÂO devem levar os cadernos de prova para casa.

Fonte: Papua Nova Guiné, Departamento de Educação 2004.

148 | SÉRIE P ESQ UISAS DO BA NC O M U NDI AL SOB R E AVAL I AÇ ÕE S DE DE SE M PE NH O E DU C AC I ONAL

QUANTO DE DETALHE É NECESSÁRIO?

As informações sobre as condições gerais de aplicação do teste e a preparação de materiais de teste devem ser abrangentes e, ao mesmo tempo, tão sucintas quanto possível (veja o Quadro 12.2).

QUADRO 12.2

Informação para Professores e Diretores A informação sobre os materiais do teste devem ser concisas e estar listadas de modo a facilitar a checagem. O seguinte extrato de uma ampla avaliação realizada em Papua Nova Guiné diz ao encarregado de turma ou ao diretor quais materiais foram enviados à escola e como saber quais turmas participarão do teste: Materiais do Teste Seu Inspetor Escolar lhe dirá quais turmas em sua escola devem participar deste teste. Você deve ter recebido os seguintes materiais: y

uma carta de apresentação para o encarregado de turma

y

um caderno de prova para cada aluno que participará do teste

y

um manual de aplicação para cada professor que aplicará o teste

y

um questionário para cada professor participante com questões sobre seu histórico

y

um lápis com borracha na ponta para cada aluno participante

Se estiver faltando algum material, ou se esses não forem suficientes, por favor, contate seu Inspetor Escolar Fonte: Departamento de Educação de Papua Nova Guiné 2004.

As instruções que o aplicador do teste dará aos alunos devem estar escritas com todos os detalhes. Qualquer coisa que o aplicador do teste tiver de dizer aos alunos sobre o teste, as questões de prática ou as condições da aplicação do teste deve estar datilografada. O aplicador do teste deve ler do manual, sem fazer qualquer mudança no fraseado. Esse procedimento garante que todos os alunos que estão fazendo o teste recebam exatamente as mesmas instruções.

DESENVOLVIMENTO DE TESTES E QUESTIONÁRIOS PARA AVALIAÇÃO DO APROVEITAMENTO ESCOLAR

|

149

QUESTÕES DE PRÁTICA

O Quadro 12.3 apresenta instruções gerais de procedimento e uma descrição do objetivo das questões de prática. As instruções que o aplicador dá aos alunos estão escritas em detalhes e destacadas numa caixa sombreada. O aplicador deve ler essas instruções como estão impressas. A ilustração de dinheiro que faz parte das questões de prática nos cadernos dos alunos também é mostrada no manual de aplicação, para que o aplicador saiba o que os alunos estão vendo sem ter de ler no manual e segurar um caderno de prova aberto ao mesmo tempo.

TESTE DOS ITENS

O manual deve estar preparado para ser testado durante o pré-teste dos itens do teste. O pré-teste do manual revelará quaisquer equívocos ou ambiguidades que requeiram esclarecimento ou refinamento na versão final. Como as condições do pré-teste ou teste-piloto devem ser tão semelhantes quanto possível às do teste final, o manual deve estar o mais próximo possível da forma final quando se fizer o teste dos itens.

QUADRO 12.3

Aplicação de Itens de Prática Este exemplo contém parte das instruções para a aplicação de algumas questões de prática:

Primeiro Dia: Sessão 1 QUESTÕES DE PRÁTICA DE MATEMÁTICA PARA A 3a SÉRIE (aproximadamente 10 minutos) Certifique-se de que cada aluno recebeu o próprio caderno de prova com seu nome escrito na página de rosto. As questões de prática são fornecidas para mostrar aos alunos diferentes modos de apresentar suas respostas. Peça aos alunos para abrir seus cadernos nas Questões de Prática de Matemática (primeira página).

150 | SÉRIE P ESQ UISAS DO BA NC O M U NDI AL SOB R E AVAL I AÇ ÕE S DE DE SE M PE NH O E DU C AC I ONAL

DIGA Vamos trabalhar um pouco com matemática hoje, para que vocês descubram todas as coisas diferentes que podem fazer em matemática. Em primeiro lugar, faremos algumas questões de prática, para que vocês saibam como fazer e como mostrar suas respostas. Segure um caderno de prova dos alunos e mostre as questões de prática. Verifique se todos os alunos encontraram as questões certas. DIGA Vamos ver a primeira questão de prática. Vou ler para vocês. Este é o desenho de duas moedas.

Quanto valem essas duas moedas juntas? São 2 toea, ou 7 toea, ou 25 toea ou 205 toea? Preencha o pequeno círculo ao lado da resposta correta. Preencha apenas um círculo. Espere até que todos os alunos tenham terminado e, então, verifique suas respostas. DIGA A resposta é 25 toea. Você precisava preencher o pequeno círculo ao lado de 25 toea. Se tiver errado, apague e preencha o círculo na resposta correta. Espere até que todos os alunos tenham corrigido seus trabalhos, se necessário. Fonte: Departamento de Educação de Papua Nova Guiné 2004.

DESENVOLVIMENTO DE TESTES E QUESTIONÁRIOS PARA AVALIAÇÃO DO APROVEITAMENTO ESCOLAR

|

151

Em geral, as instruções sobre a aplicação do teste podem ser escritas a qualquer momento depois que a tabela de especificações tiver sido finalizada. As tabelas de especificações devem especificar todas as exigências relativas ao número de testes e à sua extensão e quais alunos devem fazer o teste. Durante o pré-teste, o aplicador deve coletar as seguintes informações para ajudar o gerente de desenvolvimento de teste a refinar o teste final:

ySe os alunos precisaram de todas as questões de prática, se havia um número suficiente de questões de prática e se as explicações estavam suficientemente claras. ySe o teste tinha a extensão adequada ou se era muito longo, e aproximadamente quantos terminaram mais de 10 minutos antes da hora (se forem usados diferente formulários na mesma classe, o aplicador pode comparar o tempo que os alunos precisaram para preencher cada formulário). ySe os alunos pareciam envolvidos no teste. ySe os alunos tinham recursos adequados e suficientes, como lápis ou borrachas. ySe as instalações da escola eram adequadas para a realização de um teste.

REVISÃO

O gerente de desenvolvimento de teste e os elaboradores de itens são responsáveis pela revisão e pelo aprimoramento das instruções para as questões de prática. As questões de prática e as instruções para aplicação devem ser dadas no mesmo tipo de painel usado para a revisão de itens. O gerente de desenvolvimento de teste e a pessoa responsável pela logística da produção e distribuição dos testes devem rever e refinar os procedimentos para a movimentação dos cadernos de prova dentro e fora das escolas. Várias pessoas com formação e situação socioeconômica semelhantes às dos aplicadores de teste também devem rever todo o manual para ve-

152 | SÉRIE P ESQ UISAS DO BA NC O M U NDI AL SOB R E AVAL I AÇ ÕE S DE DE SE M PE NH O E DU C AC I ONAL

rificar se as instruções estão claras e esclarecer quaisquer ambiguidades que possam surgir. Como no caso de todos os materiais do teste, o manual deve ser total e regularmente revisado por pessoas experientes nesta tarefa. As instruções para as questões de prática e a aplicação do teste podem ser revisadas da forma adequada apenas se o revisor dispuser de cópias dos cadernos de prova relevantes dos alunos.

CAPÍTULO

13

O APLICADOR DO TESTE

ESCOLHA DO APLICADOR DO TESTE

As pessoas devem estar seguras de que o teste foi aplicado em condições padronizadas. Os aplicadores de teste devem ser vistos por todos como pessoas confiáveis. A escolha do aplicador do teste depende das condições vigentes em cada país. Os inspetores escolares podem ser aplicadores ideais em alguns países, mas problemáticos em outros. Se os inspetores veem a aplicação do teste como uma tarefa adicional que não se enquadra em suas atribuições, que usa recursos escassos ou pela qual têm pouco interesse, podem não ter motivação para fazer o trabalho adequadamente. Algumas avaliações nacionais usam aplicadores externos. Idealmente, são pessoas que podem seguir instruções rigorosamente, têm tempo e recursos para fazer a tarefa de forma adequada e não têm qualquer interesse particular no resultado do teste que vá além do propósito de aplicá-lo corretamente. No Timor Leste, por exemplo, os recenseadores foram treinados e pagos para aplicar uma avaliação nacional nas escolas. Eram pessoas que entendiam a importância de coletar dados de forma sistemática e não tinham nenhum interesse investido no desempenho dos alunos. Seu trabalho foi supervisionado para garantir que fosse de um padrão adequado.

154 | SÉRIE P ESQ UISAS DO BA NC O M U NDI AL SOB R E AVAL I AÇ ÕE S DE DE SE M PE NH O E DU C AC I ONAL

Em alguns países, a aplicação de uma avaliação nacional por professores comprometeria seriamente a credibilidade dos dados, mas pode não ocorrer o mesmo em outros países. O principal problema de se pedir que os professores apliquem o teste é que eles poderão, deliberada ou não intencionalmente, oferecer ajuda aos alunos. Existem muitas razões possíveis para esse fenômeno. Alguns professores podem se preocupar com a ideia de que os dados do teste serão usados para julgar seu desempenho como professores. Podem sentir que precisam ajudar os alunos com o teste para manter seu emprego ou seu status profissional. Coordenadores escolares podem sentir que sua situação esteja mais ameaçada ainda. Alguns professores podem sentir que o teste é uma medida injusta de seu trabalho ou do desempenho dos alunos e se sentir obrigados a dar assistência para fazer com que o teste seja “justo”. Alguns professores podem ter a intenção de aplicar o teste conforme instruídos, mas talvez não consigam abandonar seu papel de instrutores. Podem ajudar aos alunos sem nem ao menos perceber que estão fazendo isso ou porque não podem suportar ver os alunos batalhando com as questões sem lhes oferecer ajuda. O Volume 3 desta série aborda a seleção dos aplicadores de teste e descreve algumas vantagens e desvantagens de diferentes tipos de aplicadores de teste.

OBSERVAÇÃO DE INSTRUÇÕES

O manual deve distinguir entre instruções específicas que devem ser seguidas ao pé da letra e instruções mais gerais que permitem ao aplicador algum espaço para adaptá-las às condições da classe. O aplicador do teste não deve desviar-se de qualquer instrução específica. O pré-teste do manual deve ajudar a identificar quaisquer erros ou ambiguidades nas instruções. Os aplicadores de teste somente devem ajudar os alunos a compreender o que devem fazer e como apresentar suas respostas. Os aplicadores de teste devem deixar claro que não podem ajudar qualquer aluno a responder às questões. Não devem oferecer ajuda para interpretar uma questão, explicar o significado de uma palavra ou sugerir formas como o

DESENVOLVIMENTO DE TESTES E QUESTIONÁRIOS PARA AVALIAÇÃO DO APROVEITAMENTO ESCOLAR

|

155

aluno poderia tentar responder a uma questão. Se um aluno pede ajuda, o aplicador deve apenas encorajá-lo a fazer o melhor possível. Os aplicadores não devem traduzir em outro idioma para os alunos, a menos que haja instruções específicas para que desempenhem esse papel. Em alguns testes, os aplicadores podem ler as questões para os alunos. O aplicador de teste deve ler lenta e claramente todo o teste em voz alta, questão por questão, ou ler questões específicas a pedido dos alunos. Em qualquer dos casos, o aplicador deve ler as palavras da questão exatamente como estão impressas e no mesmo idioma. Os aplicadores devem dispor de um relógio de pulso ou de outro tipo de relógio. Devem escrever no quadro negro ou num papel a hora exata em que o teste começa e a hora em que termina. Os aplicadores devem certificar-se de que os alunos compreenderam quanto tempo têm para fazer o teste. Isso, em geral, envolve dizer aos alunos quanto tempo têm no começo e dar um aviso quando faltarem 10 minutos, 5 minutos ou 2 minutos para o prazo final, dependendo da extensão do teste. Os aplicadores devem encorajar discretamente os alunos a tentar resolver o teste inteiro caso estejam obviamente gastando muito tempo com uma questão e relutem em seguir adiante. Os aplicadores podem fazer isso simplesmente sugerindo ao aluno, em voz baixa, que escreva a melhor resposta possível e, então, tente a questão seguinte. Somente materiais especificados no manual serão permitidos na sala durante a aplicação do teste. Em geral, os alunos trazem seus próprios lápis e borrachas para o teste. Caixas de lápis e bolsas não devem ser permitidas. Qualquer coisa que possa ajudar os alunos a responder às questões do teste deve ser removida da sala. Os alunos não devem ter acesso a recursos como dicionários ou calculadoras, a menos que as condições do teste permitam seu uso explicitamente. O aplicador do teste, os alunos que participam do teste e, possivelmente, um supervisor devem ser as únicas pessoas na sala durante a aplicação. O diretor ou outros professores não devem ter permissão de andar em volta da sala. O gerente de testes deve ser notificado de mudanças inevitáveis nas condições de aplicação do teste. Durante a aplicação do teste, o aplicador deve coletar informações sobre quaisquer variações que ocorram nas condições de aplicação para alunos

156 | SÉRIE P ESQ UISAS DO BA NC O M U NDI AL SOB R E AVAL I AÇ ÕE S DE DE SE M PE NH O E DU C AC I ONAL

individuais. Muitas vezes, a folha de rosto do caderno de prova terá espaço para o aplicador indicar quais alunos estavam ausentes durante todo o teste ou parte dele. Se um aluno tiver de sair da sala por causa de doença e não completar o teste, o aplicador deve registrar essa informação. Em http://go.worldbank.org/M2O1YDQO90, você encontra exemplos de instruções gerais e específicas para aplicadores de teste. Também oferece algumas sugestões sobre como diagramar um manual de aplicação de teste.

GARANTIA DA QUALIDADE

Os aplicadores devem ser selecionados em função de sua adequação para a tarefa. Devem ser fluentes no idioma em que está escrito o manual. Também devem estar comprometidos a executar bem sua tarefa. Independentemente de seus níveis de experiência ou qualificações acadêmicas, os aplicadores têm de ser treinados. Devem participar de uma sessão de treinamento que explique o objetivo do teste e o papel que terão em sua aplicação. Devem compreender que seguir as instruções é importante, e devem ter a oportunidade de praticar a aplicação de testes administrando-o a seus companheiros. Devem ter a oportunidade de fazer perguntas sobre os procedimentos descritos no manual. Se os professores forem aplicar o teste a seus alunos, o treinamento deve garantir que compreenderam o objetivo do teste e que os dados não serão usados para julgá-los. Devem compreender a importância de não ajudar os alunos a responder às questões. Os aplicadores devem ser supervisionados pelo menos durante parte do tempo em que estejam aplicando o teste. Talvez não seja possível supervisionar todas as pessoas, mas verificações aleatórias de alguns aplicadores devem ser factíveis. Também é recomendável pedir aos aplicadores que preencham e assinem listas de verificação para garantir que completaram suas tarefas.

LISTA DE VERIFICAÇÃO DO APLICADOR

Os detalhes do que deve estar na lista de verificação do aplicador variarão, dependendo de quem esteja aplicando o teste e dos procedimentos

DESENVOLVIMENTO DE TESTES E QUESTIONÁRIOS PARA AVALIAÇÃO DO APROVEITAMENTO ESCOLAR

|

157

desenvolvidos para rastrear os cadernos e garantir a segurança. O Quadro 13.1 fornece um exemplo de uma lista de checagem da aplicação usada nas Filipinas. Um exemplo adicional pode ser visto no Volume 3 desta série. QUADRO 13.1

Lista de Verificação da Aplicação: Um Exemplo das Filipinas O aplicador deve marcar todos os itens para mostrar que completou o trabalho, assinando o formulário no final. Nome Tarefa

Data Referência

Tempo

Completado

1. Complete o formulário Alocação do Caderno de Prova do Aluno (ACPA) inserindo o número do teste em ordem consecutiva e colocando os nomes dos alunos em ordem alfabética.

Formulário ACPA

10min

…

2. Aplique o questionário do professor.

Formulário do questionário do professor

15min

…

3. Complete o formulário de comentários.

Formulário de comentários do professor

10min

…

4. Distribua o teste a cada aluno e marque ausente naqueles que não compareceram.

Formulário ACPA

10min

…

5. Leia a introdução das Diretrizes.

Diretrizes para o Aplicador, p. 7

5min

…

6. Peça aos alunos para fornecer os dados relativos ao aluno na folha de rosto do teste.

Diretrizes para o Aplicador, p. 9

5min

…

10min

…

60min

…

15min

…

60min

…

7. Verifique se todos os alunos completaram os detalhes sobre os alunos na folha de rosto. 8. Siga as instruções para a Sessão 1.

Diretrizes para o Aplicador, pp. 11-13

9. Nos intervalos, peça aos alunos que saiam da sala em fila e deixem seus testes sobre as carteiras. 10. Siga as instruções para a Sessão 2.

Diretrizes para o Aplicador, pp. 15-17

158 | SÉRIE P ESQ UISAS DO BA NC O M U NDI AL SOB R E AVAL I AÇ ÕE S DE DE SE M PE NH O E DU C AC I ONAL

Nome Tarefa

Data Referência

11. Nos intervalos, peça aos alunos que saiam da sala em fila e deixem seus testes sobre as carteiras.

Tempo

Completado

15min

…

12. Siga as instruções para a Sessão 3.

Diretrizes para o Aplicador, pp. 19-21

70min

…

13. Recolha todos os cadernos de prova e confira seu retorno usando o formulário ACPA.

Formulário ACPA

10min

…

14. Conte todos os testes e certifique-se de Formulário que todos foram devolvidos. ACPA

5min

…

15. Dispense a turma.

2min

… …

16. Assine o formulário ACPA.

Formulário ACPA

2min

17. Recolha e empacote todos os materiais do teste na caixa fornecida, incluindo: i. Formulário ACPA ii. Questionário do professor iii. Formulário de comentários do professor iv. Todos os testes completados v. Todos os testes não usados

10min

…

18. Guarde os materiais em segurança.

10min

… …

19. Devolva o material para seu supervisor distrital do RAMSE (Avaliação Regional de Matemática, Ciências e Inglês).

Formulário de distribuição para supervisor do RAMSE

20. Devolva esta lista de verificação completada a seu supervisor distrital.

Lista administrativa do RAMSE

Assinatura do administrador:

Tempo de viagem 2min

…

_______________________________

Fonte: Departamento de Educação das Filipinas 2004.

CAPÍTULO

14

INFORMANDO AS ESCOLAS SOBRE A AVALIAÇÃO NACIONAL

O

s alunos precisam ser motivados para tentar fazer o melhor possível numa avaliação nacional. Em geral, é mais fácil motivar os alunos quando os professores explicam a eles o objetivo do teste e se certificam de que compreenderam que o resultado final será usado para ajudar a aprimorar a qualidade da educação, e não para julgar os alunos ou as escolas. Todos os alunos precisam se sentir encorajados a participar, especialmente aqueles com menos habilidades. A decisão sobre o melhor momento para informar aos alunos as datas do teste dependerá das circunstâncias da escola. Se os alunos se sentirem ameaçados por um teste e ficarem longe da escola, então é preferível não dizer a eles a data exata da aplicação do teste. Se os alunos estiverem animados com a possibilidade de fazer um teste e se sentirem mais confortáveis para vir para a escola, então é preferível dizer a eles a data exata. O órgão implementador deve certificar-se de que as escolas estejam informadas sobre o objetivo do teste com bastante antecedência. A informação pode ser dada por meio de seminários, cartas ou contatos telefônicos. É aconselhável ser honesto e claro sobre quais dados estão sendo coletados, como serão apresentados e usados e quais informações

160 | SÉRIE P ESQ UISAS DO BA NC O M U NDI AL SOB R E AVAL I AÇ ÕE S DE DE SE M PE NH O E DU C AC I ONAL

de retorno que a escola receberá sobre o desempenho dos alunos (ou se não receberá nada). Os diretores e professores das escolas participantes devem saber que suas escolas e classes foram selecionadas para ajudar a obter informações sobre o que os alunos sabem e não sabem. O objetivo de se coletarem essas informações é ajudar a aprimorar o sistema educacional nacional. Escolas ou classes individuais não estão sendo julgadas em uma avaliação nacional com base numa amostra. Os diretores e professores das escolas participantes também devem ser informados de que todos os dados do teste e todas as respostas dos questionários serão tratados como confidenciais. É necessário seguir certos procedimentos para garantir que as escolas concordem em participar de uma avaliação antes que sejam designados aplicadores externos para a escola. Também é necessário garantir que os aplicadores externos recebam todas as instruções necessárias, como uma carta de apresentação, de modo que possam estar seguros de que a escola os apoiará e os ajudará a cumprir suas responsabilidades. O Volume 3 contém sugestões adicionais sobre como informar as escolas, inclusive o modelo de uma carta que poderá ser usado.

APÊNDICE

A

GLOSSÁRIO

amostra aleatória: Grupo de alunos selecionados estatisticamente que atendem a determinados critérios, incluindo uma distribuição de variáveis-chave que correspondem à distribuição das mesmas variáveis em toda a coorte. análise de dados: Uso de uma metodologia estatística para analisar e interpretar os dados do teste. analista de dados: Pessoa responsável pela análise estatística de dados. aplicador: Pessoa que supervisiona a realização do teste e é responsável por garantir que as condições estejam de acordo com os padrões estabelecidos no manual de aplicação. área de aprendizado: Uma área de grande importância num currículo, como matemática ou ciências. avaliador: Pessoa que faz a pontuação manual de itens de acordo com um guia de pontuação. avaliador-chefe: Pessoa responsável pelo gerenciamento do centro de classificação e pela solução de discrepâncias nas pontuações. avaliador líder: Um avaliador experiente responsável pela verificação cruzada

162 | SÉRIE P ESQ UISAS DO BA NC O M U NDI AL SOB R E AVAL I AÇ ÕE S DE DE SE M PE NH O E DU C AC I ONAL

centro de classificação: Local em que é organizada a pontuação manual de itens do teste e os avaliadores são treinados e supervisionados. chave de múltipla escolha: Opção correta num item de múltipla escolha. classificação de discrepâncias: Procedimento para solucionar conflitos entre pontuações durante a verificação cruzada ou resultantes de classificações duplas das respostas geradas pelos alunos; em geral, esses procedimentos são administrados pelo avaliador-chefe. classificação dupla: Processo de classificar duas vezes as respostas aos itens geradas pelos alunos; a pessoa que faz a segunda classificação não vê a primeira. comando: Parte de um item de múltipla escolha que precede as opções, em geral uma questão, sentença incompleta ou instrução. condições padronizadas: Condições do teste especificadas no manual de aplicação, mantidas idênticas para todos os alunos aos quais o teste é aplicado; todos os alunos recebem a mesma quantidade de apoio, as mesmas instruções e têm o mesmo tempo para fazer o teste. confiabilidade do teste: A medida em que a evidência coletada é suficiente para fazer generalizações. conjunto de itens: Coleção de itens submetidos a um teste piloto ou pré-teste e de itens seguros de testes anteriores que são adequados para uso em testes futuros. coorte completa: Todos os alunos de um país que atendem a certos critérios, como estar em determinada série, em determinado momento. correlação ponto bisserial: Método usado em análise de itens para fornecer uma medida da correlação (relação) entre a pontuação (correto ou incorreto) que os alunos obtêm para um item individual e a pontuação geral que obtêm nos demais itens. dado: Informação coletada de um teste, em geral registrada num programa de software num computador.

DESENVOLVIMENTO DE TESTES E QUESTIONÁRIOS PARA AVALIAÇÃO DO APROVEITAMENTO ESCOLAR

|

163

dados agregados: Dados combinados para expressar uma pontuação geral, como uma pontuação única derivada de um teste de 30 itens. distratores: Opções incorretas num item de múltipla escolha. escala cinza: Tonalidade cinza-claro usada na impressão dos materiais. folha de respostas: Folha separada do caderno de prova usada pelos alunos para registrar suas respostas aos itens do teste. formuladores de políticas: Funcionários governamentais que elaboram e definem políticas educacionais. formulário final: Cadernos de prova aplicados a uma amostra da população. guia de pontuação: Descrições das categorias de pontuação usadas para classificar respostas aos itens geradas pelos alunos. item: Parte específica de um teste com uma pontuação individual; pode ser uma pergunta, uma sentença incompleta ou uma única parte de um teste ou questionário com uma pontuação ou código individual. item de crédito parcial: Item que tem duas ou mais categorias de respostas corretas; em geral, essas categorias são hierárquicas para os itens do formulário final do teste, mas podem não ser para itens do pré-teste ou itens de teste. itens abertos de resposta curta: Itens que requerem que um aluno gere uma resposta curta, tal como uma ou duas sentenças, ou faça diversas modificações numa tabela, num gráfico ou diagrama. itens de ligação: Itens replicados em dois ou mais cadernos de prova para permitir a comparação entre os dados resultantes da aplicação dos cadernos. itens de múltipla escolha: Itens que requerem que os alunos selecionem a única resposta correta a uma questão entre diversas opções. itens de resposta fechada: Itens que requerem que os alunos produzam uma resposta curta com um conjunto pequeno e finito de respostas corretas.

164 | SÉRIE P ESQ UISAS DO BA NC O M U NDI AL SOB R E AVAL I AÇ ÕE S DE DE SE M PE NH O E DU C AC I ONAL

itens discriminativos: Itens que diferenciam entre o desempenhos de alunos de alta habilidade e baixa habilidade: ou seja, os alunos com alta habilidade têm maior probabilidade do que aqueles com baixa habilidade de responder corretamente ao item. itens imparciais: Itens que são um teste justo do aproveitamento e não conferem vantagem a certos grupos com base em características irrelevantes para o conhecimento ou a habilidade que estão sendo avaliados. itens protegidos: Itens que foram mantidos fora do conhecimento público; podem ter sido aplicados num teste anterior, mas suas condições impediram a duplicação ou o vazamento. ligação circular: Ligação de um grupo de formulários de teste, do primeiro ao último formulário. ligação horizontal: Ligação de itens entre formulários de um mesmo ano ou série. ligação linear: Ligação de um grupo de formulários de teste, cada um ligado ao seguinte, mas sem que o primeiro seja ligado ao último. ligação longitudinal: Ligação de formulários de teste ao longo do tempo. ligação vertical: Ligação de formulários de teste usados em diferentes séries por meio do uso de itens comuns. manual de aplicação: Conjunto de instruções escritas sobre como, quando e onde os testes devem ser realizados; o manual também pode incluir informações sobre a movimentação dos cadernos de prova que entram e saem das escolas. marco de referência: Documento que define o objetivo do teste e indica o que deve ser medido, como deve ser medido, por que está sendo medido e como deve ser apresentado. material de estímulo: Texto, diagramas ou gráficos que fornecem o contexto para um ou mais itens.

DESENVOLVIMENTO DE TESTES E QUESTIONÁRIOS PARA AVALIAÇÃO DO APROVEITAMENTO ESCOLAR

|

165

objetividade do teste: A medida em que o teste não é afetado pela escolha de tarefas ou escolha de avaliador; isto é, a tarefa é justa e inclusiva, e os critérios para tomar decisões sobre a pontuação estão claros. painel de itens: Pequeno grupo de três a seis pessoas que fazem a revisão crítica e refinam todos os aspectos dos itens para garantir que sejam de alta qualidade. pontuação: Pontos atribuídos à resposta de um aluno com base nas categorias de um guia de pontuação. pontuação dicotômica: Item que é pontuado como correto ou incorreto, tendo, portanto, duas pontuações possíveis, 0 e 1. pontuação manual: Atribuição de pontuação às respostas dos alunos feita por pontuadores humanos (não por máquinas). população-alvo do teste: Os alunos aos quais o teste será aplicado. pré-teste: Outro nome para um teste-piloto realizado antes do teste final com uma pequena amostra de alunos para estabelecer a qualidade e adequação de itens, questionários e manuais de aplicação. redação: Dissertação escrita em resposta a um estímulo, em geral com meia página ou mais. respostas em branco: Itens aos quais o aluno não fez qualquer tentativa de responder. respostas incorretas: Itens para os quais a resposta do aluno se enquadra na categoria de pontuação 0 (zero). revisão: Revisão detalhada de todos os aspectos de um texto para garantir que esteja claro, consistente e livre de erros. subelemento: Aspectos ou agrupamentos dentro de uma área de currículo; por exemplo, a área de matemática pode ser separada em subelementos de número, espaço, padrão e medida. tabela de especificações: Especificações sobre os critérios que os itens finais do teste devem observar, incluindo a proporção de itens que abor-

166 | SÉRIE P ESQ UISAS DO BA NC O M U NDI AL SOB R E AVAL I AÇ ÕE S DE DE SE M PE NH O E DU C AC I ONAL

dam cada aspecto de uma área de currículo, extensão do teste, formato do item e quaisquer outros critérios ou limitações relativos ao desenvolvimento do teste. teste: Um ou mais itens aos quais os alunos respondem em condições padronizadas; os itens são elaborados para permitir que os alunos demonstrem seu conhecimento, suas habilidades e seus entendimentos. teste-piloto: Outro nome para o pré-teste realizado antes do teste final com uma pequena amostra de alunos para estabelecer a qualidade e adequação de itens, questionários e manuais de aplicação. unidade: Coleção de itens baseada num mesmo material de estímulo. utilidade do teste: A medida em que o teste atende a seu objetivo. validade do teste: Um amplo conceito que envolve fazer interpretações adequadas e usar as pontuações ou as informações contidas no teste. verificação cruzada da classificação: Revisão das pontuações manuais para garantir que correspondam consistentemente às categorias de pontuação do guia de pontuação; em geral, a revisão é feita imediatamente pelo avaliador-chefe, a fim de dar um retorno imediato aos avaliadores sobre a qualidade de seu trabalho.

APÊNDICE

B

LEITURA ADICIONAL

Allen, N. L., J. R. Donoghue e T. L. Schoeps. 2001. The NAEP 1998 Technical Report. Washington, DC: National Center for Education Statistics. Baker, F. 2001. The Basics of Item Response Theory. College Park, MD: ERIC Clearinghouse on Assessment and Evaluation, University of Maryland. Beaton, A. E. e E. G. Johnson. 1989. “Overview of the Scaling Methodology used in the National Assessment.” Journal of Educational Measurement 29: 163–75. Bloom, B. S., M. D. Engelhart, E. J. Furst, W. H. Hill e D. R. Krathwohl. 1956. Taxonomy of Educational Objectives: Handbook 1 – Cognitive Domain. Londres: Longmans, Green. Campbell, J. R., D. L. Kelly, I. V. S. Mullis, M. O. Martin e M. Sainsbury. 2001. Framework and Specifications for PIRLS Assessment 2001. Chestnut Hill, MA: International Study Center, Boston College. Chatterji, M. 2003. Designing and Using Tools for Educational Assessment. Boston: Allyn and Bacon. Centro de Pesquisas Educacionais. 1978. Drumcondra Attainment Tests, Manual, Level II, Form A. Dublin: Educational Research Centre. Conselho Australiano de Pesquisas Educacionais. S.d. Literacy and Numeracy National Assessment (LANNA), Sample Questions, Numeracy Year 5. http://www. acer.edu.au/documents/LANNA_Y5NumeracyQuestions.pdf. Conselho Diretor da Avaliação Nacional. S.d. Writing Framework and Specifications for the 1998 National Assessment of Educational Progress. Washington, DC: U.S. Department of Education.

168 | SÉRIE P ESQ UISAS DO BA NC O M U NDI AL SOB R E AVAL I AÇ ÕE S DE DE SE M PE NH O E DU C AC I ONAL

Departamento de Educação das Filipinas. 2004. Region-wide Assessment for Mathematics, Science, and English (RAMSE): Basic Education Assistance for Mindanao (BEAM). Manila: Philippine Department of Education. Eivers, E., G. Shiel, R. Perkins e J. Cosgrove. 2005. The 2004 National Assessment of English Reading. Dublin: Educational Research Centre. Forster, M. 2000. A Policy Maker’s Guide to International Achievement Studies. Camberwell, Australia: Australian Council for Educational Research. ———. 2000. A Policy Maker’s Guide to Systemwide Assessment Programs. Camberwell, Austrália: Australian Council for Educational Research. Greaney, V. e S. B. Neuman. 1990. “The Functions of Reading: A Cross-Cultural Perspective”. Reading Research Quarterly 25 (3):172–95. Haladyna, T. M. 1999. Developing and Validating Multiple-Choice Test Items. 2a ed. Hillsdale, NJ: Lawrence Erlbaum. Harlen, W. (org.). 2008. Student Assessment and Testing. Vols. 1–4. Londres: Sage. IEA (Associação Internacional para Avaliação do Aproveitamento Escolar). 1998. Third International Mathematics and Science Study—TIMSS Sample Items. Chestnut Hill, MA: International Study Center, Boston College. http://www.edinformatics.com/timss/pop1/mpop1.htm, http://timss.bc.edu/timss1995i/TIMSSPDF/BSItems.pdf/, and http://www.ed.gov/inits/Math/timss4_8.html. ———. 2007. TIMSS 2003, Science Items, Released Set. Fourth Grade. S011026. Chestnut Hill, Mass.: TIMSS & PIRLS International Study Center, Boston College. timss.bc.edu/PDF/T03_RELEASED_S4.pdf. Kirsch, I. 2001. The International Adult Literacy Survey (IALS): Understanding What Was Measured. Research Report RR-01-25. Princeton, NJ: Educational Testing Service. Kubiszyn, T. e G. Borich. 2000. Educational Testing and Measurement. Nova York: Wiley. Linn, R. L. e S. B. Dunbar. 1992. “Issues in the Design and Reporting of the National Assessment of Educational Progress”. Journal of Educational Measurement 29 (2): 177–94. Linn, R. L. e M. D. Miller. 2004. Measurement and Assessment in Teaching: Student Exercise Manual. Upper Saddle River, NJ: Prentice Hall. Messick, S. 1987. “Large-Scale Educational Assessment as Policy Research: Aspirations and Limitations.” European Journal of Psychology and Education 2 (2): 157–65. ———. 1989. “Validity.” In Educational Measurement, 3a ed. R. L. Linn (org.), 13– 103. Nova York: American Council on Education/Macmillan. Mullis, I. V. S, A. M. Kennedy, M. O. Martin e M. Sainsbury. 2006. Assessment Framework and Specifications: Progress in International Reading Literacy Study. 2a

DESENVOLVIMENTO DE TESTES E QUESTIONÁRIOS PARA AVALIAÇÃO DO APROVEITAMENTO ESCOLAR

|

169

ed. Chestnut Hill, MA: TIMSS and PIRLS International Study Center, Boston College. Mullis, I. V. S., M. O. Martin, E. J. Gonzalez e S. J. Chrostowski. 2004. TIMSS 2003 International Mathematics Report: Findings from IEA’s Trends in International Mathematics and Science Study at the Fourth and Eighth Grades. Chestnut Hill, MA: TIMSS and PIRLS International Study Center, Boston College. Mullis, I. V. S., M. O. Martin, E. J. Gonzalez, K. D. Gregory, R. A. Garden, K. M. O’Connor, S. J. Chrostowski e T. A. Smith. 2000. TIMSS 1999 International Mathematics Report. Findings from IEA’s Repeat of the Third International Mathematics and Science Study at the Eighth Grade. Chestnut Hill, Mass.: The International Study Center, Boston College. Timssandpirls. bc.edu/timss1999i/ pdf/T99i_Math_2.pdf. Nova Zelândia, Ministério da Educação. 2002. English in the New Zealand Curriculum. Wellington: Learning Media for the New Zealand Ministry of Education. Nitko, A. J. 2004. Educational Assessment of Students. 4a ed. Upper Saddle River, NJ: Pearson, Merrill, Prentice Hall. Papua Nova Guiné, Departamento de Educação 2003. Cultural Mathematics Elementary Syllabus. Port Moresby: Papua New Guinea Department of Education. ———. 2004. National Curriculum Standards Monitoring Test. Port Moresby: Papua New Guinea Department of Education. PISA (Programa Internacional de Avaliação de Alunos). 2004. Learning for Tomorrow’s World: First Results from PISA 200. Paris: OCDE.

APÊNDICE

C

EXEMPLOS DE ITENS DE TESTE E DE QUESTIONÁRIO E MANUAIS DE APLICAÇÃO

E

m http://go.worldbank.org/M2O1YDQO90, você encontra exemplos de itens de teste de aproveitamento, guias de pontuação, itens de questionário e manuais que têm sido usados em vários contextos, inclusive em avaliações nacionais e internacionais. A Figura C.1 mostra o diagrama do material encontrado. A maior parte dos itens, questionários e manuais está disponível para o público e pode ser acessada. Somos muito gratos pelo apoio das editoras e organizações (listadas no final deste Apêndice) que deram permissão para que seus materiais originais fossem reproduzidos. Os exemplos podem dar às equipes de avaliação nacional ideias sobre tipos e formatos de itens, guias de pontuação, cobertura do conteúdo curricular, diagramação de testes e questionários e tipo de informação contida nos manuais de aplicação de testes. As equipes podem usar essas informações como subsídios para desenhar os próprios instrumentos de teste, guias de pontuação e manuais. Ao selecionar ou adaptar materiais, as equipes de avaliação nacional devem ter em mente os currículos nacionais e a adequação do vocabulário e dos formatos de teste.

172 | SÉRIE P ESQ UISAS DO BA NC O M U NDI AL SOB R E AVAL I AÇ ÕE S DE DE SE M PE NH O E DU C AC I ONAL

FIGURA C.1

Guia dos Materiais Encontrados na Internet sobre Testes, Questionários e Manuais Exemplos Itens do teste e guias de pontuação

Questionários

Manuais

Linguagem

Aluno

Coordenador escolar

Matemática

Professor

Aplicador do teste e do questionário

Ciências

Diretor e escola Pais

Nota: Clique no arquivo “Fontes” para acessar a fonte de itens, questões ou manuais individuais liberados, bem como ver uma lista de endereços na internet (onde disponível), por meio dos quais as informações liberadas foram obtidas.

ITENS DO TESTE DE APROVEITAMENTO

O material disponível em http://go.worldbank.org/M2O1YDQO90 contém itens de testes de matemática, linguagem e ciências. Esperamos que os elaboradores de itens dessas disciplinas encontrem utilidade nesses itens quando estiverem desenvolvendo instrumentos de avaliação com base nos próprios currículos nacionais. A intenção não é que as equipes de avaliação nacional copiem esses itens. No âmbito de cada uma das três áreas, são apresentados, em primeiro lugar, arquivos de itens para as séries do ensino fundamental, seguidos dos arquivos de itens para o nível médio, que são seguidos, por sua vez, dos arquivos de itens que cobrem tanto o nível fundamental quanto o médio. O material disponível na internet inclui uma grande coleção de itens de estudos nacionais realizados nos Estados Unidos nas áreas de matemática, leitura, ciências e escrita para a 4a, 8a e 12a séries, e de estudos separados para alunos com 9, 13 e 17 anos. Contém ainda itens dos testes de matemática para a 4a série do estado de Massachusetts. Itens usados em estudos nacionais na Austrália e na Irlanda também estão incluídos.

DESENVOLVIMENTO DE TESTES E QUESTIONÁRIOS PARA AVALIAÇÃO DO APROVEITAMENTO ESCOLAR

|

173

O material disponível em http://go.worldbank.org/M2O1YDQO90 também apresenta itens liberados de três avaliações internacionais: Tendências Internacionais no Estudo de Matemática e Ciências (TIMSS) (matemática e ciências para a 3a, 4a, 7a e 8a séries e para o último ano do ensino médio); Estudo Internacional sobre o Progresso do Letramento em Leitura (PIRLS) (linguagem para a 4a série); e Programa Internacional de Avaliação de Alunos (PISA) (linguagem, matemática e ciências para alunos de 15 anos). Alguns dos itens relacionados com linguagem aplicam-se a longas passagens de textos, um formato que talvez não seja adequado em algumas avaliações nacionais. Em diversas situações, o formato do item retirado da internet difere daquele adotado no caderno de prova original. Observe que alguns itens do teste foram concebidos para testar duas ou mais séries. O material disponível em http://go.worldbank.org/M2O1YDQO90 também inclui guias de pontuação relativos a testes específicos.

QUESTIONÁRIOS

O material disponível na internet contém amostras separadas de questionários para alunos, professores, escolas, diretores e pais. A maior parte dos questionários tem sido usada em estudos internacionais em países industrializados. Muitas das questões são específicas para determinados contextos educacionais e escolares. As equipes de avaliação nacional devem buscar adaptar algumas das questões mais relevantes, para que reflitam a realidade econômica, social e escolar de seus países.

MANUAIS

O material disponível na internet inclui manuais com instruções específicas sobre como aplicar testes e questionários. Também inclui manuais que apresentam os papéis e responsabilidades dos responsáveis pela coordenação da avaliação dentro das escolas. Essas responsabilidades in-

174 | SÉRIE P ESQ UISAS DO BA NC O M U NDI AL SOB R E AVAL I AÇ ÕE S DE DE SE M PE NH O E DU C AC I ONAL

cluem tarefas a serem realizadas antes, durante e depois da aplicação do teste e do questionário. Os exemplos cobrem tópicos como preparação dos aplicadores do teste; listagem dos equipamentos e materiais necessários (como testes, questionários, lápis e um relógio de pulso ou de outro tipo); organização dos assentos, de modo a minimizar a possibilidade de cola; como lidar com amostra de itens; cuidados para que as orientações de tempo e horário sejam cumpridas; e identificação de tarefas que o aplicador deve completar ao final de cada sessão. Parte do material será mais relevante em alguns países que em outros. Alguns manuais, por exemplo, referem-se a testes pontuados por máquinas ou a folhas de respostas, que tendem a não ser usados em avaliações nacionais em muitos países em desenvolvimento. Os usuários devem ter o cuidado de não tentar replicar o conteúdo dos manuais; em vez disso, devem selecionar as ideias mais relevantes para seus contextos nacionais. As amostras estão incluídas para ajudar as equipes de avaliação nacional a desenvolver manuais com base em seus próprios testes. Alguns manuais contêm sugestões sobre como selecionar amostras de alunos dentro de escolas.

AGRADECIMENTOS

O Centro Nacional de Estatísticas de Educação do Departamento de Educação dos Estados Unidos (http://nces.ed.gov/nationsreportcard/ about) deu permissão para reproduzir itens liberados do teste, dos manuais para aplicadores e dos questionários da Avaliação Nacional do Progresso Educacional (NAEP) dos Estados Unidos. A Associação Internacional para a Avaliação do Aproveitamento Escolar (http://www.iea.nl/ e http://timss.bc.edu/) deu permissão para a reprodução de material liberado do TIMSS e do PIRLS: itens, questionários e manuais para coordenadores escolares e aplicadores de teste. A Organização para a Cooperação e o Desenvolvimento Econômico (http://www.pisa.oecd.org/dataoecd/51/27/37474503.pdf) deu permissão para a reprodução de materiais liberados do PISA: itens do teste, questionários e manuais de coordenadores escolares e aplicadores de teste.

DESENVOLVIMENTO DE TESTES E QUESTIONÁRIOS PARA AVALIAÇÃO DO APROVEITAMENTO ESCOLAR

|

175

O material disponível na internet contém itens de matemática liberados para o público pelo Departamento de Educação de Massachusetts que estão disponíveis no site do departamento: http://www.doe.mass. edu/mcas/testitens.html. O Conselho Australiano de Pesquisas Educacionais deu permissão para reproduzir itens de amostras e guias de pontuação de sua Avaliação Nacional de Letramento em Linguagem e em Matemática, Leitura, Anos 3, 5 e 7 (http://www.acer.edu.au/lanna/). O Centro de Pesquisas Educacionais, Dublin (http://www.erc.ie/index.php?s=7) deu permissão para reproduzir material de inglês e matemática: itens, um questionário e um manual para aplicadores de teste.

ÍNDICE

Quadros, figuras, notas e tabelas estão indicadas por q, f, n e t, respectivamente. alunos motivação dos, 159 população para avaliação, 25 questionários para, 113, 137-138 amostra aleatória, 68, 161 análise de dados, 5f, 7t, 55 plano para questionários, 110, 122 pré-teste, 91 software para pontuação de testes de múltipla escolha, 22 análise, 4f analista de dados, 7t, 161 aplicação oral de testes, 18 aplicadores. Veja aplicadores de teste aplicadores de teste definição de, 161 escolha dos, 153-154 garantia da qualidade, 156 instruções para, 147q, 154-156 lista de verificação para, 156, 157-158q tarefas, 5f, 6t tópicos, 153-158

uso de caderno único vs. múltiplos cadernos e, 95 Veja também manual do aplicador de teste aplicadores externos, 153, 160 apresentação de resultados, 26-27 áreas de aprendizado, 10, 29, 55, 161 armazenagem eletrônica de itens do teste, 65 armazenagem segura de materiais do teste, 65, 146, 147q, 158q associação circular, 70–72, 71f atividades da avaliação nacional fluxograma das, 4, 5f visão geral das, 4, 5-7f ausência de alunos durante o teste, 155 Avaliação Nacional de Leitura em Inglês (Irlanda), 26 Avaliação Nacional do Progresso Educacional (NAEP) (Estados Unidos), 30, 65n avaliador chefe, 102, 161

178 | SÉRIE P ESQ UISAS DO BA NC O M U NDI AL SOB R E AVAL I AÇ ÕE S DE DE SE M PE NH O E DU C AC I ONAL

avaliadores e pontuação manual de itens do teste, 102-106, 161 avaliadores principais, 102, 161 cadernos múltiplos, procedimentos para uso de, 95 cartas de apresentação para aplicadores externos, 160 centro de classificação, 101, 102 chave em itens de testes de múltipla escolha, 37, 40-41, 91, 162 classificação de discrepâncias, 162 classificação dupla, 23, 162 classificações de itens, 64, 65, 91 códigos alfabéticos para respostas de questionários, 133 códigos numéricos para respostas a questionário, 133 comando em itens de múltipla escolha do teste, 37-38, 39, 47, 162 comissão de coordenação nacional (CCN), 3, 4f, 5f, 6t, 9, 27 condições padronizadas, 153, 162 confiabilidade, 84-85, 87, 162 conjunto comum de itens de ligação, 70 conjunto de itens, 14t, 62, 64, 162 coorte completa, 162 correlação ponto bisserial, 87-90, 88t, 82t, 162 correspondência entre questionários e dados do teste, 137-138 currículo e avaliação nacional, 4f, 5f, 10, 11q custos de processamento de dados de questionários, 131 de reimpressão do pré-teste, 78 de impressão, 50, 98 de aplicação do questionário, 121 de testes traduzidos, 17, 18 de pontuação manual dos itens, 21, 22, 23, 24t dados do teste e questionários, correspondência entre, 137–138

dados socioeconômicos e contextuais, 26n dados, definição de, 162 definições glossário, 161–166 de áreas temáticas principais, 9-10 desempenho avançado de alunos, 27 desempenho básico de alunos, 27 desempenho de alunos abaixo do básico, 27 desempenho proficiente dos alunos, 27 desenho de cadernos que passam de um aluno a outro, 68 desenho gráfico e itens do teste, 50–55, 51q, 52q, 53q diagramação e desenho de itens diretrizes básicas, 50 escala cinza, uso da folha de estilo para elaboradores, 58-59 itens abertos de resposta curta Veja itens abertos de resposta curta itens de crédito parcial, 44-47, 45q, 46q, 47q, 82 itens de múltipla escolha. Veja itens de múltipla escolha itens de redação ou resposta dissertativa Veja itens de redação ou resposta dissertativa itens de resposta curta. Veja itens de resposta curta itens de respostas fechadas Veja itens de respostas fechadas pré-testes, 76, 79, 79q produção do teste final, 95, 96 qualidade de imagens, 9, 50–55, 51q, 52q, 53q, 54q questionários, 129-130, 130q respostas dos alunos, 96 tópicos, 49-55 unidades, 47-48, 166 vantagens e desvantagens do, 23, 24t diagramação e desenho de itens, 49-55

DESENVOLVIMENTO DE TESTES E QUESTIONÁRIOS PARA AVALIAÇÃO DO APROVEITAMENTO ESCOLAR

dificuldade de itens, 15, 31-32, 90, 95 diretores avaliação nacional, informar sobre, 159-160 manual dos aplicadores para os, 145-146 disponibilidade de itens de teste na internet, 30 distratores em itens de múltipla escolha, 37, 39-41, 163 doença de aluno durante teste, 155 elaboração de itens amostras de itens de alta qualidade, 30 características de bons itens, 29-30 dificuldades de itens, 15, 31-32, 95 elaboradores, qualidades e treinamento de, 55-59 equipe de elaboração de itens, 55-59, 58q, 91 equipe para, 55-59, 58q, 91 formato de itens, 18–25, 36-49 grupos de referência e, 62 itens de prática, 48-49 material de estímulo, 33-36, 35q, 54q, 75, 95, 164 modelos de itens de alta qualidade, 30 painéis de itens, 5f, 49, 59-62, 82-83, 165 para questionários, 112t, 125-132 rastreamento de itens, 63-65 revisores, outros, 62 tarefas, 6t, 7t tendenciosidade do item, 33 tópicos, 29-65 Veja também diagramação e desenho de itens elaboradores de itens do teste, qualidades e treinamento de, 55-59, 58q, 82-83 encarregado de turma, 115, 138, 145-146

|

179

equipe para elaboração de itens, 55-59, 58q, 91 escala cinza definição de, 163 opções de pontuação em, 76 para títulos de itens, 50, 64, 74, 96 respostas a questionário e, 133, 134q escaneamento, uso de, 22 especialistas nas disciplinas, 4f, 5f, 6t, 12 Estudo Internacional sobre o Progresso do Letramento em Leitura (PIRLS), 20, 27, 30, 41, 48 etapas do desenvolvimento do teste e desenho do questionário, 6-7t exigências estatísticas do teste final, 93 extensão dos cadernos de prova, 96-98 fatores da escola, 28 fatores familiares, 28 Filipinas, 156, 157-158q fluxograma de atividades da avaliação nacional, 4, 5f folha de entrada de dados, 81-82, 81q folha de estilo de itens, 58q folha de estilo para elaboradores de itens, 58-59 folha de respostas, 96, 163 formato de itens pré-testes, 78, 79q questionários, 119-120 testes, 18-25, 30, 36-49 Veja também elaboração de itens; itens de resposta fechada; itens de redação ou resposta dissertativa; itens de múltipla escolha; itens abertos; itens de resposta curta formato. Veja formato de itens formuladores de políticas definição de, 163 desenvolvimento do marco de referência da avaliação e, 10, 14, 15, 27-28

180 | SÉRIE P ESQ UISAS DO BA NC O M U NDI AL SOB R E AVAL I AÇ ÕE S DE DE SE M PE NH O E DU C AC I ONAL

etapas da avaliação nacional em desenvolvimento de teste e desenho de questionário e, 6t painéis de itens e, 60 questionários e, 109-110, 112t, 111, 116, 117q, 118, 121, 129, 131 garantia de qualidade, 79, 156 gerente de elaboração de provas conteúdo do questionário e, 111 controle de qualidade pelo, 79 manual do aplicador de teste e, 151 rastreamento de itens, 64 responsabilidades, 59, 62 tarefas, 4f, 7t treinamento do avaliador, 102 glossário, 161–166 gráficos, uso de, 50, 52q grupo de referência, revisão por, 62 história do desenvolvimento dos itens do teste, importância de registrar e guardar, 64 ID, número de identificação dos alunos, 94, 138 identidade numérica (ID) para alunos, 94, 138 idioma de testes e questionários, 17-18, 120 imagens em itens do teste, 50-55, 54q imagens, uso de, 51q impressão e revisão, 6t, 7t definição de revisão, 165 do manual do aplicador de teste, 151 do pré-teste, 75-78 do teste final, 96-99 índice de discriminação, 87, 88-89, 90t informação contextual, 27-28 informações socioeconômicas e contextuais dos alunos, 93-95, 120 informando as escolas sobre a avaliação nacional, 159-160 inspetores escolares como aplicadores de teste, 153

instruções para alunos, 143, 145, 148, 149 para aplicador do teste , 147q, 154-156 Irlanda, 26 item, definição de, 163 itens de múltipla escolha definição de, 18–19 em questionários, 133-135, 136 formato do item, 18-19, 21-23, 24t, 31-32, 37-41, 37q, 38q, 39q, 40q guias de pontuação, 81-82 seleção de itens de teste e, 87-88, 90t itens de prática, 48-49, 149q, 151 em questionários, 149 itens de resposta curta formato do item, 18-20, 36-37, 41-44, 43q, 44 itens de crédito parcial e, 44-47, 45q, 46q, 47q itens de prática e, 48 pontuação manual de, 105 itens de resposta obrigatória em questionários, 119, 120 itens de respostas fechadas definição de, 163 formato do item, 18–19, 20q, 21-23, 24t, 36, 44q, 47q pontuação de, no pré-teste, 82 confiabilidade de, 85 pontuação manual de, 22, 24t itens de teste liberados para o público, 30 itens discriminativos, 164 itens e formulários ligados, 69–74, 71f, 73f, 74t, 91, 95, 163 itens imparciais, 62, 164 itens protegidos, 30, 164 líder da equipe, 5f, 6t ligação horizontal, 95, 164 ligação linear, 72, 164

DESENVOLVIMENTO DE TESTES E QUESTIONÁRIOS PARA AVALIAÇÃO DO APROVEITAMENTO ESCOLAR

ligação longitudinal, 164 ligação vertical, 72-73, 73f, 95, 164 listas de verificação para aplicadores de teste, 156, 157-158q para pré-testes, 76 logística, 4f mais de uma categoria de respostas possíveis ao questionário, 133-135, 134q manual de aplicação. Veja manual do aplicador de teste manual do aplicador de teste características do, 146, 147q conteúdos de, 144-145 definição de, 164 detalhes necessários no, 146-149, 148q instruções aos alunos, 143, 145, 148, 149 instruções para, 147q, 154-156 questões de prática, 149, 149q, 150q revisão do, 151 teste do, 149, 151 tópicos, 143-151 uso do, 145-146 visão geral, 143 mapas, uso de, 50, 53q marco de referência da avaliação apresentação de resultados, 26-27 contextos, 10, 11q, 27–28 desenvolvimento, 9–28 etapas no desenvolvimento do teste e desenho de questionário, 6-7t, 8 idioma do teste, 17–18 marco de referência, definição de, 164 população de estudantes para avaliação, 25 tabela de especificações do teste, 11-16

|

181

validade e, 17 visão geral do, 9–10 Veja também tabela de especificações; formato de itens marco de referência, 6t, 164 materiais permitidos durante o teste, 155 material de estímulo, 33-36, 35q, 54q, 75, 95, 164 Ministério da Educação, 3, 5f modelagem de resposta ao item, 27 NAEP. Veja Avaliação Nacional do Progresso Educacional (Estados Unidos) níveis de proficiência, 27 Nova Zelândia, 11q números nacionais de identificação para alunos (ID), 94 objetividade, 165 objetividade do teste, 165 opinião dos respondentes sobre os questionários, 131-132 órgão implementador, 4f, 5f, 6t, 7t padrões predefinidos para testes, 16 página de rosto do cadernos do pré-teste, 75-76 página de rosto, informações na, 75, 93-94, 94q, 121 painéis item, 5f, 49, 59-62, 82-83, 165 para revisão de questionários, 131 Papua Nova Guiné currículo de matemática em, 11q tabela de especificações do questionário em, 116, 117q tabela de especificações para conteúdo de matemática em, 14, 15f testes de matemática em, 23, 25t percentagem de tipos de item de teste, 21 Pesquisa Internacional de Letramento, 26-27

182 | SÉRIE P ESQ UISAS DO BA NC O M U NDI AL SOB R E AVAL I AÇ ÕE S DE DE SE M PE NH O E DU C AC I ONAL

PIRLS. Veja Estudo Internacional sobre o Progresso do Letramento em Leitura PISA. Veja Programa Internacional de Avaliação de Alunos planilha, uso, 64-65, 74-75, 75t pontuação de itens de múltipla escolha, 81-82 de pré-testes, 78-78, 81q, 83 de questões de crédito parcial, 44-47, 45q, 46q, 47q, 82, 83 definição de pontuação, 165 guias, 22-23, 41, 44, 58-59, 58q, 65, 81-82, 163 pontuações ou respostas em branco, 44, 79-81, 135-136, 164 Veja também pontuação manual; itens específicos do teste pontuação dicotômica, 88-89, 165 pontuação manual avaliadores e, 102-106 custo da, 21, 22, 23, 24t de itens de múltipla escolha, 22 de itens de respostas fechadas, 22, 24t de pré-testes, 79, 82, 83 de questionários, 119 de questões abertas de resposta curta, 22, 24t definição de, 165 orientações para, 22–23, 81–83, 90, 93, 101, 103-105 tarefas, 6t, 7t vantagens e desvantagens da, 23, 24t verificação cruzada da classificação e, 22, 166 pontuação na elaboração de itens, 38, 50 pontuação para nenhuma tentativa de resposta, 79 pontuações ou respostas em branco, 44, 79–81, 135-136, 165 população do teste, 25, 60, 74, 165

pré-teste de itens adequação de itens e, 15 alunos que não tentaram responder a itens do teste, 79 confiabilidade e, 84-85 dados do teste final e, 90-92 definição de pré-teste, 165 desenho de formulário do pré-teste, 70-75, 71f, 73f, 74t, 75t dificuldade de itens e, 31, 90 folha de entrada de dados para, 81-82, 81q implementação do pré-teste, 78-79, 79q impressão e revisão de pré-teste, 75-78, 99 manual do aplicador de teste e, 149, 151 modelo e amostra de testes e, 30 pontuação do pré-teste, 79-78, 81q rastreamento de itens e, 63 tarefas, 5f teste piloto e, 165 tópicos, 67-74 visão geral, 67-70 pré-teste de itens, 67-85 processos cognitivos, 12, 26, 31 produtos do aprendizado, 31 professores avaliação nacional, informados sobre, 159-160 como aplicadores de teste, 154, 156 questionários para, 114, 138 Programa Internacional de Avaliação de Alunos (PISA), 20, 30, 41 questionários afirmações, 126-127 aplicação de, 121 categorias de respostas, 127-129 codificação de respostas, 133-136, 134q, 165 componentes do desenvolvimento de, 110, 112t

DESENVOLVIMENTO DE TESTES E QUESTIONÁRIOS PARA AVALIAÇÃO DO APROVEITAMENTO ESCOLAR

construção de, 107-122 conteúdo de, 111-116 correspondência com dados do teste, 137-138 desenho de, 6–7t, 8, 109-122, 112t elaboração de itens para, 112t, 125-132, 130q entrada de dados, 135 final, 112t formato, 129-130, 130q formato do item, 118t, 119-120 idioma do, 120 informação contextual, obtenção de, 28 passos do desenvolvimento de, 110 plano de análise de dados, 112t, 122 pré-teste, 112t questões delicadas, 129 questões, 126 respondentes de, 121 revisão de, 131-132 tabela de especificações para, 112t, 111, 116, 117q questionários dos pais, 114, 138 questões abertas de resposta curta confiabilidade e, 85 definição de, 165 formato do item, 18, 20–23, 24t, 36, 41-43, 45-46, 46q guias de pontuação, 44-47 pré-testes, pontuação de, 82 questionários e, 119, 132 seleção de itens de teste e, 88-90, 90t questões de crédito parcial definição de, 165 formato do item e, 36 guias de pontuação para, 44-47, 45q, 46q, 47q, 82 pré-testes, 83 seleção de itens do teste e, 89-90, 90t questões de prática, 149, 149q-150q

|

183

questões delicadas na elaboração de itens, 129 questões específicas para cada país, 119 rastreamento de itens, 63-65 recenseadores como aplicadores de teste, 153 redação ou itens de resposta dissertativa, 18, 20, 21q, 22, 24t, 105, 165 respondentes de questionários, 121 resposta incorreta, 103, 165 respostas ambíguas aos questionários, 135-136 respostas ao questionários, 134q resultados, apresentação de, 26-27 resumo de dados do questionário, 120 revisão. Veja impressão e revisão revisão e revisores, 49, 59-62, 82-83, 131-132, 151, 165 rotulando formulários de teste, 69 seleção de itens do teste, 87–92, 88t, 90t seleção de itens. Veja seleção de itens do teste software, 63-64, 82 subelemento, 14, 165 supervisão dos aplicadores de teste, 156 Tabela de especificações de teste. Veja tabela de especificações tabela de especificações, 11–16 para questionários, 112t, 111, 116, 117q para testes, 6t, 11-16, 13t, 14t, 5f, 30, 59-60, 87, 165 tamanho da fonte. Veja diagramação e desenho de itens TCT. Veja teoria clássica dos testes tempo disponível para realização do teste, 23, 69, 155 Tendências Internacionais no Estudo de Matemática e Ciências (TIMSS), 12, 14t

184 | SÉRIE P ESQ UISAS DO BA NC O M U NDI AL SOB R E AVAL I AÇ ÕE S DE DE SE M PE NH O E DU C AC I ONAL

Tendências Internacionais no Estudo de Matemática e Ciências (TIMSS), 26n, 30, 128–129 tendenciosidade de itens, 33 teoria clássica dos testes (TCT), 84, 92n teoria de resposta ao item (IRT), 84, 92n teste de linguagem, 105 teste, definição, 166 teste final definição de formulário final, 166 desenho do teste final, 93-96 impressão e revisão de, 96-99 produção, 93-99, seleção de itens do teste e, 90-92 teste piloto, Veja pré-teste Veja também pré-teste de itens teste-piloto, 166 Veja também pré-teste de itens Timor Leste, 153

TIMSS. Veja Tendências Internacionais no Estudo de Matemática e Ciências tipo de texto, 30 Veja também diagramação e desenho de itens títulos de itens, 50, 63-64, 69, 96 tradução de testes, 17-18 treinamento de avaliadores, 102-105 de elaboradores de itens, 57-59, 58q, 59 para aplicadores de teste, 156 TRI. Veja teoria de resposta ao item unidades, elaboração de itens para, 47-48, 166 utilidade do teste, 78, 82, 166 validade, 17, 166 variável agregada, 118, 119, 122 variável direta, 118, 119 verificação cruzada da classificação, 22, 166

Lihat lebih banyak...

Comentários

Copyright © 2017 DADOSPDF Inc.