Mais vistos

30 de jan. de 2012

Validação nomológica





 Cronbach e Meehl (1955) escreveram um artigo intitulado validação de construto em testes de psicologia onde propõem e explicam a validação nomológica.

  Um construto é definido implicitamente pela rede de relacionamentos e associações em que ele está inserido. O momento de inserção de um construto na pesquisa é proporcional a sua precisão. Para Cronbach e Meehl (1955) se a previsão dos construtos é feita a priori deve-se chamá-lá de validação preditiva, caso ocorra simultânea a realização do estudo, é conhecida como validação concorrente. Prever com antecedência e observa a confirmação é uma tarefa mais árdua, que necessita maior conhecimento teórico e resulta em maior precisão do estudo.
  Rede nomológica para Cronbach e Meelh (1955) (eu não concordo com o termo rede) é o sistema fechado de lais que constituem a teoria relacionada aos construto estudado e as predições feitas. A rede nomológica (referencial teórico) relata as propriedades observáveis dos construtos envolvidos, os próprios construtos e o que faz com se diferenciem um dos outros.
  A condição para que um construto seja admissível pela ciência é que pelo menos alguns dos seus correlatos sejam observáveis. O construto investigado não precisa ser diretamente observável (reduzido a experiência) ele pode ser articulado em uma rede nomológica que seja válida e capaz de se realizar predições.
  Ou seja, Cronbach e Meehl (1955) propõem que o investigador deve conhecer a teoria de interesse e ao fazer isso identificar quais são os pontos mensuráveis (por observação) do tema. Ao realizar este esforço ele poderá escolher quais construtos irá testar. O primeiro passo é estabelecer uma validação de conteúdo que é dada pela segurança do investigador em provar teoricamente que os construtos estudados existem e fazem parte de uma rede nomológica.  O segundo passo é a validação do próprio construto que é onde são apresentadas as regras pelas quais é possível mensurá-lo. O terceiro passo pode ser dado de duas formas, ou o pesquisador faz as predições e estabelece o que espera encontrar nos construtos (validação preditiva) ou ele não faz predição alguma e observa como elas se revelam ao analisar os dados (validação concorrente).
  O artigo contribuí ao propor a ideia de rede nomológica que é exatamente a ideia geral que temos hoje de mensuração, o nome nomológico não emplacou (pq é feio e não faz lembrar nada) mas é em essência tudo aquilo que Churchill (1979) e Rossiter (2002) abordaram. Não há um estudo de mensuração que não considere os ensinamentos de Cronbach e Meehl (1955).
  Da validação de conteúdo, construto, preditiva e concorrente só sobrou o nome, atualmente elas são mais operacionais do que a versão original.



Método C-OAR-SE para construção de escalas


  Rossiter (2002) se propõe a criar um novo método de construção de escalas. Para Diamantopoulos (2005), o modelo de Rossiter (2002) é uma contribuição que renova as discussões em mensurações, que estava estagnadas desde de Churchill (1979).O modelo em questão foi denominado C-OAR-SE.
  Embora seja uma proposição nova, Rossiter (2002) afirma que se baseou em Churchill (1979) e em uma dezena de autores menos expressivos. A grande contribuição dele foi ordenar os passos da construção de escala de uma forma que até então não tinha sido feita.
  O modelo C-OAR-SE é formado por 6 passos:

1. Definição do construto (C)
  Construto, como definido por Edwards e Bagozzi (2000) é um termo conceitual utilizado para descrever teoricamente um fenômeno de interesse. Rossiter (2002) afirma que um construto deve ser conceitualmente definido em termos de objeto, atributo e população. As questões básicas são: O que é o objeto e de que ele é composto? Quais são seus atributos e de que eles são compostos? De quem é formada a população que irá responder à pesquisa?

2. Classificação do objeto (O)
  O objeto para Rossiter (2002) pode ser singular, abstrato coletivo ou de formação abstrata. O objeto é classificado como singular quando se assume que todos os respondentes conhecem e entendem tal uniformemente. Abstrato coletivo são objetos heterogêneos na visão dos respondentes mas em nível superior podem ser classificados no mesmo grupo pelo pesquisador. Já os objetos de formação abstrata surgem quando os respondentes interpretam o objeto de formas distintas, como se fossem componentes diferentes.

Ex.
Singular = O refrigerante coca-cola
Abstrato coletivo = Refrigerante com gás
De formação abstrata = Marca coca-cola

3. Classificação dos atributos (A)
  A terceira etapa do C-OAR-SE é classificar os atributos do objeto estudado. Eles podem ser concretos, abstratos formados, ou abstratos provocados. Os atributos concretos são os de comum entendimento pelos respondentes e que só possuam, presumidamente, um significado. Os abstratos formados ocorrem quando a partir de um atributo, os respondentes podem reduzi-lo a categorias (antecedentes teóricos), ou seja, há mais de uma interpretação para o mesmo atributo. Já os abstratos provocados surgem quando o respondente faz o caminho inverso aos abstratos formados, eles não regridem aos antecedentes, eles ascendem a uma percepção cognitiva pessoal, que não pode ser totalmente capturada.

Ex.
Concretos = O sabor da coca-cola
Formados = A qualidade da coca-cola
Provocados = O sentimento em relação a marca coca-cola

4. Identificação da população (R de raters)
  O quarto passo do C-OAR-SE é a parte final da definição de construto. Para Rossiter (2002) o objeto não pode ser separado da população, pois o construto é variável em função de quem o observa. Os tipos são: individual, especialistas e grupos. Individual é quando o objeto de estudo são as pessoas, é uma auto avaliação. Especialistas são úteis especialmente para validações de conteúdo durante a formulação das escalas e grupos corresponde aos casos onde há amostragem por alguma característica comum a todos os respondentes.

Ex.
Individual = Pesquisa eleitoral
Especialista = Diretores de uma empresa avaliando o questionário sobre a empresa
Grupo = Clientes do restaurante

5. Formação da Escala ( S de scale)
  Formação da escala no método C-OAR-SE é organizar os objetos, e suas partes, de acordo com os atributos, e suas partes, para formar a escala. Basicamente a determinação do número de itens é a multiplicação do número de categorias do objeto pelo número de categorias do atributo. Essa fase é onde se realiza o pré-teste, ao contrário de Churchill (1979) no C-OAR-SE os itens não são excluídos, eles são substituídos, o número de itens é fixo.
  A validação se dá através da análise de especialistas (validação de face) e pelo cálculo de confiabilidade beta (0,7) e alfa (0,8).

5.1 Escala em sí
  Rossiter (2002) odeia Likert (1932) e por isso ele não usa (as explicações do artigo não são racionais e faz parecer mais uma implicância pessoal). Ao invés ele faz uso de uma escala numérica de 0-10 e outra de probabilidades, variando de impossível (0), improvável (0,15), chance discreta (0,3), talvez (0,5) provavelmente (0,7), quase certo (0,8) e certamente (1).
  Para frequência a escala indicada por Rossiter (2002) é nunca (0), as vezes (1), usualmente (2) e sempre (3). Já para grau é nada (0), discreto (1), muito (2) e extremamente (3). E a última é a verbal aprovativa bipolar de item único: extremamente negativo (-3), muito negativo (-2), discretamente negativo (-1), neutro (0), discretamente positivo (1), muito positivo (2) e extremamente positivo (3), além do item "não sei" que fica a parte da escala. Ou seja ele ama Likert e não se conforma.
  Após fixar o número de itens, validar, definir a escala em si o último passo é organizá-los no questionário de forma aleatória.

6. Enumeração (E)
  Ele cria uma regra de indexação, médias e escores que não é merecedor nem de comentário. É uma confusão só. Basicamente ele cria umas regras para interação entre as categorias dos objetos e dos atributos. Segue a sopa de letrinhas abaixo.
Quem ele ataca:
  Para Rossiter (2002) a proposição de Likert (1932) não pode se utilizada pois ela induz o respondente a confusão entre as categorias que foram estabelecidas ao acaso. Ele reforça que o ponto neutro não é claro e que não pode-se assumir que "nem concordo/nem discordo" é realmente um ponto neutro. O fato de apontar concordância a uma frase fixa é outro ponto de crítica, para Rossiter (2002) isso torna a escala pouco flexível.
  Rossiter (2002) deixa o alfa de Cronbach (1951) em segundo plano e sugere o uso simultâneo do coeficiente beta, algo que até então, só ele propõem.
  O método de confiabilidade teste-reteste é impreciso e inutilizável segundo Rossiter (2002). Ele afirma que entregar o mesmo questionário duas vezes à mesma pessoa não é suficiente para se tirar qualquer conclusão sobre a confiabilidade da escala.
  Sobre o MTMM, Rossiter (2002) o define como desnecessário, pois se o método C-OAR-SE for seguido rigorosamente não há necessidade de mais validações, além do mais, o formato do MTMM é inadequado para a C-OAR-SE.
  A validação preditiva não deve ser utilizada para o método C-OAR-SE. Rossiter (2002) argumenta que a validação preditiva mede a forma das correlações, porém, é imprudente medir qualquer correlação se não é possível também saber qual o grau dessa correlação no mundo real. Sabe-se que correlações perfeitas (1.0) são ideais, porém se a correlação calculada for 0,4, não pode-se afirmar que ela é baixa, afinal, talvez seja exatamente esse o valor do mundo real.

Quem odeia o C-OAR-SE
  Diamantopoulos (2005) escreveu um artigo inteiro criticando o modelo C-OAR-SE. Ele critica todos os passos do modelo e isso além de deixar o texto chato, mostra que o problema é outro e não o modelo. O bom é que a discussão é aberta.

Contribuição do C-OAR-SE
  Zero, quase zero. Não é um método comum. Não chega nem perto da popularidade de Churchill (1979), mas é um artigo obrigatório por algumas razões. Embora não tenha nada de realmente novo, Rossiter (2002) sistematiza o campo como a muito ninguém fazia. Suas críticas são metade pertinentes e metade reinações, mas a metade pertinente pode-se pensar, sobretudo a crítica a validação preditiva. Os formulários de check list também são contribuições importantes, acredito que se todo mundo utilizar já faz pelo menor refletir sobre o que se está propondo.

27 de jan. de 2012

7 erros em mensuração



   Para Selltiz et al (1976), existem sete formas diferentes de se errar uma mensuração. Os erros são deles, os nomes são meus.

1. Erro natural. A pessoa tenta se expressar sobre suas características, mas mesmo querendo falar a verdade não consegue se expressar no questionário;
2. Erro de flutuação. São provenientes de respostas erradas devido a fatores transitórios como humor ou cansaço;
3. Erro ambiental. Devido ao local onde a coleta de dados é realizada, seja em casa ou no trabalho;
4. Erro de administração. Esse acontece basicamente pela falha da pessoa que coleta os dados ou no caso de serem pessoas diferentes, pela falta de padrão;
5. Erro de constância. É quando algum item é modificado, incluído ou excluído entre as versões do questionário durante a coleta;
6. Erro de dubiedade. Esse erro ocorre quando alguns dos itens não é interpretado corretamente pelo respondente, provavelmente devido a dubiedade na redação do texto;
7. Erro mecânico. Surge quando o respondente marca uma opção errada, rasuras, codificação incorreta, erro de tabulação.


Churchill, o homem que mensurava.


  Um bom guia para construção de escala é o artigo Paradigm for developing measures of marketing constructs do Churchill, que apenar do título, é um bom guia de construção de escalas.
  O processo de mensuração, segundo Churchill (1979) envolve a elaboração de regras para atribuir número a objetos que representem atributos quantitativos. (sad, so sad) A definição envolve duas noções chaves. A primeira é de que os atributos de um objeto é que estão sendo mensurados, e não o objeto em si. Segundo, a atribuição dos números é arbitrária.
 Para Churchill (1979) uma mensuração é valida quando as diferenças observadas nos resultados refletem diferenças reais nas características mensuradas, e só nelas. Já confiabilidade indica que duas mensurações distintas que medem o mesmo construto devem concordar uma com a outra. A confiabilidade não é medida de validade. Churchill (1979) afirma que a confiabilidade pode indicar que uma escala não é válida, mas não pode concluir que ela é.
  Os passos para construção de escala segundo Churchill (1979) são:

1. Especificação do construto
  O primeiro passo é especificar o domínio do construto. A definição do construto precisa ser muito precisa, deixando claro o que está incluso e o que está excluído dela.

2. Elaboração dos itens
  O segundo passo é gerar os itens que capturam o construto. Essas técnicas podem ser exploratórias como busca na literatura ou alguma espécia de pesquisa prévia. Churchill (1979) resgata também a possibilidade de se utilizar a técnica do incidente crítico ou grupo focal para essa tarefa de gerar itens.

3. Purificação (confiabilidade)
  A mensuração de confiabilidade interna recomendada por Churchill (1979) é... adivinha? uma chance! O coeficiente alfa deve ser aplicado para cada dimensão da escala, ou seja, se houverem sub-escalas deve-se aplicar o coeficiente individualmente para cada uma delas.
  Churchill (1979) observa que grande parte da literatura de marketing realiza o teste da análise fatorial antes de qualquer outro procedimento. A análise fatorial pode sugerir categorias, mas pouco pode fazer quanto a confiabilidade individual dos itens.
  Caso não seja observado confiabilidade no teste alfa, a solução é alterar os itens da escala, porém, antes deve ser observado se o pré-teste foi realizado com uma amostra adequada. Realizar teste de confiabilidade sobre uma amostra errada leva a resultados também errados.

3.1 Críticas as técnicas de confiabilidade
 Churchill (1979) alerta que o coeficiente alfa é uma estatística básica para determinar a confiabilidade de uma escala baseada em sua consistência interna, porém, ele não é adequado para estimar erros causados por fatores externos ao instrumento tal como diferenças temporais ou ambientais durante a coleta.
 Sobre a técnica de confiabilidade de teste-reteste, Churchill (1979) desaconselha seu uso e aponta como principal defeito o fator da memória do respondente. Após já ter respondido ao questionário, ele tenderá a dar a mesma resposta, logo, quando comparados os dois testes os seus resultados não serão confiáveis.


4. Validação
  Para Churchill (1979) um construto deve ser mensurado de duas ou mais formas, pois, só assim poderá saber se os resultados obtidos são válidos. Esta técnica é chamada validação convergente e busca uma alta correlação entre os instrumentos que deveriam mensurar o mesmo construto.
  A técnica oposta é a validação discriminante. Churchill (1979) admite que essa técnica simples serve para verificar se há problemas de mensuração entre duas escalas que supostamente deveriam estar mensurando construtos diferentes. Os cálculos são apresentados na figura abaixo.



  Observe o que está dentro do quadrado vermelho. Os valores centrais (3) devem ser maiores que os periféricos (4), para a validação convergente. Lembrando que isso é uma tabela de correlação entre os itens de duas mensurações diferentes, que deveriam medir a mesma coisa. Os valores de (2) e (4) devem ser os menores possíveis pois  são diferentes, isso é uma validação discriminante. Os valores de (1) deveriam ser 1,000, mas não são, não sei porque, até onde eu sei a correlação de uma coisa consigo mesmo é 1,000. No texto Churchill (1979) não comenta nada sobre qual a interpretação de (1).

5. Normatização
  O ultimo passo de Churchill (1979) afirma que deve-se apresentar parâmetros para que se leia de forma correta os resultados do estudo. Esses parâmetros são adquiridos através de estudos preliminares.

Summated Rating Scale Construction: Como construir uma escala no sul da flórida


  Paul E. Spector é professor de psicologia na University of South Florida. Seu livro Summated Rating Scale Construction é um bom manual de construção de escalas assertivas. Como todo livro texto peca em profundidade mas ganha em amplitude. É um guia bastante aconselhável para quem quer ter uma visão geral da coisa. E para aprofundar, o livro traz referências.
  Uma escala assertiva tem como característica não possuir resposta correta, então Spector (1992) afirma que elas não devem ser utilizadas para mensurar conhecimento ou habilidades. Sabe-se ainda que elas foram desenvolvidas por Likert (1932) para mensurar atitude, e está deve ser a aplicação deste tipo de escala, qualquer outra é adaptação e precisa antes ser validada para a função pretendida.
 Uma escala para ser considerada boa deve ser válida e confiável, Spector (1992) sugere algumas ações que devem ser tomadas para que se construa uma boa escala:

1. Definição do construto
  Um dos passos mais vitais para o desenvolvimento de uma escala é a tarefa conceitual de definir os construtos, para Spector (1992) uma escala não pode ser desenvolvida se inicialmente o construto não for claramente delineado.
  Uma das dificuldades das pesquisas em ciências sociais é que muitos construtos são abstrações teóricas, inobserváveis. Nesse contexto, a validação é possível, mas para Spector (1992) deve levar em consideração o seu significado em uma ampla rede teórica que descreva os relacionamentos entre muitos construtos.
  O primeiro passo para validação de construto segundo Spector (1992) é buscar na literatura se alguém já não fez essa validação anteriormente e utilizar essa base como ponto de partida.

2. Escala em si
 Após a validação do construto o próximo passo é definir como será a escala em si, como o respondente será abordado e de que forma poderá dar sua opinião. Spector (1992) apresenta três formas de permitir que o respondente se manifeste, por concordância (concordo totalmente, concordo parcialmente, neutro, descordo, descordo totalmente), por avaliação (excelente, bom, razoável, ruim, péssimo) ou por frequência (sempre, as vezes, nunca). Independente de qual seja a escolhida todas variam de pouco a muito e cada ponto deve receber um número. Ou seja em algum grau todas são inspiradas na escala Likert (1932) e se aproximam novamente nas análises.

3. Redação dos itens da escala
  Um bom item para Spector (1992) deve ser claro, conciso, não ambíguo e o mais concentrado possível, então cada item deve expressar apenas uma ideia. Entre o total de itens da escala, alguns devem ser invertidos (mas sem utilizar a palavra 'não'), deixar todos no mesmo sentido pode fazer o respondente não dar atenção devida a leitura e simplesmente marcar aleatoriamente um dos extremos que ele ache mais correto. As expressões e jargões são elementos dispensáveis na construção dos itens, mas o nível intelectual dos respondentes, que deve ser levado em consideração, que determina como será a redação do texto. É importante observar como é o vocabulário dos respondentes e utilizá-lo.

4. Instruções
  Spector (1992) relembra que as instruções do questionário são tão importantes quanto os items, sobretudo para respondentes que não estão acostumados a essa tarefa e podem não entender intuitivamente o que deve ser feito. É ressaltada novamente a questão da linguagem que deve utilizar o vocabulário adequado aos respondentes.

5. Pré-teste
  O pré-teste de Spector (1992) tem duas fases, uma onde especialistas analisam o questionário e dão opiniões e a outra onde é realizada uma amostragem com entre 100 e 200 respondentes para que sejam realizados os cálculos de de validação e confiabilidade.

5.1 Validação
  Validação é o passo mais difícil do projeto de escalas. Validar é interpretar o que o resultado da escala significa, se a escala possui consistência interna ela certamente está mensurando alguma coisa, mas determinar o que está sendo mensurado é o maior problema da construção de escalas segundo Spector (1992).
 Existem algumas técnicas de validação de construto que para Spector (1992) podem ser aplicadas a uma escala, são elas:

5.1.1 Validação de relações criteriosas
  Esse eu confesso que não entendi. Ele fala em comparar os valores (resultado das estatísticas) entre as variáveis. Isso então presume que já foram definidas as variáveis OK, e que algumas foram mensuradas OK e que de alguma forma o resultado das contas pode ser previsto e observado OK. Entendi agora.

5.1.2 Validação concorrente
  Também não dá pra entender nada, eu acho que nem Spector (1992) entendeu direito, no único parágrafo do livro que ele descreve a técnica é como se fossem criadas hipóteses e mensuradas todas as variáveis ao mesmo tempo. Ao final se calcula a significância estatística entre elas. OK vou anotar para buscar outras fontes.

5.1.3 Validação predicativa
  Spector (1992) fala que é igual a validação concorrente só que em vez de pegar os dados ao mesmo tempo, eles são coletados em momentos diferentes. Ah vá.

5.1.4 Validação de conhecimento de grupos
  Esse método consiste em validar se uma escala é capaz de observar diferenças de alguma ordem sobre grupos que hipoteticamente são diferentes. É obvio que tem um furo aqui, se os grupos não forem diferentes a escala que não é válida, a hipótese que está errada ou simplesmente o grupo que se achou heterogêneo é simplesmente homogêneo? Achou melhor aplicar apenas a grupos que já se tem certeza que são distintos, mas nesse caso para que serve uma escala de mensuração de algo que já foi mensurado?

5.1.5 Validação convergente e discriminante
 Validação convergente para Spector (1992) significa que diferentes mensurações de um mesmo construto irão se relacionar fortemente um com o outro. Validação discriminante é quando duas escalas de mensuração de diferentes construtos são pouco relacionadas uma com a outra.

5.1.6 Análise fatorial
  O uso da análise fatorial é recomendado para se observar se todos os itens da escala estão mensurando o mesmos construto. É um tema muito denso para ser resumido em um parágrafo, então não o farei, depois escrevo um post inteiro sobre isso.

5.2 Confiabilidade
  O melhor coeficiente de confiabilidade para Spector (1992) é o alfa de Cronbach que já falei aqui, então tchau.





26 de jan. de 2012

Coeficiente Alfa de Cronbach




  O clássico alfa de Cronbach foi proposto em 1951 pelo próprio. Ao contrário do que imaginei, não é uma ideia original dele, ele na verdade dá nome e explica (muito bem explicado) um coeficiente que já existia.
  Qualquer mensuração com uso de escalas deve se preocupar com a questão da validação. E para tal existem algumas técnicas. Validação de escala, segundo Cronbach (1951) é simplesmente fazer com que uma escala se mostre estável ao longo de suas aplicações, essa estabilidade pode ser de amostra ou de items.
  A técnica predominante na década de 50 é o teste-reteste. Cronbach (1951) explica que ele tem o objetivo de testar a mesma escala duas ou (de preferência) mais vezes com a mesma amostra. O resultado deve ser o mais parecido possível entre eles para verificar validade. Esse delineamento ignora o contexto e a possibilidade das pessoas simplesmente trocarem de opinião, mas para algo bastante simples pode até ser válido, o fato é que caiu em desuso.
  A outra técnica é a de corte-ao-meio. É a técnica que Cronbach (1951) se dedicou a estudar e base do coeficiente alfa. Consiste em elaborar duas escalas equivalentes no mesmo questionário. Teoricamente, a pessoa ao responder a mesma coisa duas vezes por métodos diferentes deveria dar a mesma resposta, desde que as escalas tenha consistência interna.
  A contribuição de Cronbach (1951) foi elaborar um cálculo mais simples onde os items são correlacionados entre eles internamente e não em cruzamentos entre as duas escalas equivalentes do método corte-ao-meio.  O mecanismo do alfa é o mesmo do corte-ao-meio e Cronbach (1951) enfatiza que ambos possuem o mesmo resultado e as mesmas possibilidades.
  Com a colaboração de Cronbach (1951) houve um grande progresso dos projetos de escala que não mais necessitam criar itens de verificação, a partir do implemento do alfa, basta apenas uma pergunta de cada tipo e não pequenos blocos internos de itens que intencionavam mensurar a mesma coisa.
 As escalas validadas pelo método corte-ao-meio deveriam ter todos os seus itens no mínimo duplicados (escritos de forma diferente, mas equivalentes) e isso limitava a capacidade de exploração, já que o limite para o tamanho do questionário sempre foi a tolerância do respondente.
 Cronbach (1951) afirma que para obter uma melhor interpretação a escala não deve ser divisível em pequenos blocos menores. Ou ela é única ou são criadas várias escalas, não é indicado realizar o teste de validade interna para escalas que são compostas por sub blocos de perguntas (sub-escalas).

Handbook of Marketing Scales: introdução a validação de escalas


   O Handbook of Marketing Scales de Bearden e Netemeyer (1999) (foto da edição de 2011) é uma clássica colagem de escalas, ótimas escalas, médias escalas, péssimas escalas mas o motivo de ser fichado aqui é o capítulo de introdução que traz um resumo bastante sóbrio da construção e validação de escala. Não indicado para aprofundamento, mas um bom texto de partida.
  Bearden  e Netemeyer  (1999) ressaltam que o mais importante na construção de escalas é que ela seja criada de acordo com alguma teoria e que seus itens sejam correspondentes dos construtos teorizados. Para obter uma escala melhor é indicado que os itens sejam previamente julgados por especialistas no tema. Esse procedimento é denominado validação de face ou de conteúdo.
 Quanto a sua redação, Bearden  e Netemeyer  (1999) afirmam que items curtos e simples são geralmente mais simples de responder e mais confiáveis.

Confiabilidade
  Tanto para escalas unidimensionais quanto multidimensionais, existem segundo Bearden e Netemeyer (1999) uma série de testes de confiabilidade que podem ser realizados. As duas principais formas de mensurar a confiabilidade da escala é através do método teste-reteste ou pela confiabilidade interna.

Teste-reteste
  Consiste, segundo Bearden e Netemeyer (1999), em mensurar a estabilidade dos respondentes através do tempo. Esse tipo de teste de confiabilidade é utilizado em menos de 50% dos artigos científicos de construção de escalas catalogados por Bearden e Netemeyer (1999).

Consistência Interna
  O método utilizado por 90% dos artigos catalogados por Bearden e Netemeyer (1999) consiste em verificar o nível de consistência interna de uma escala e geralmente isto é feito através do teste alfa de Cronbach. Como regra prática, esse valor deve ser acima de 0,5 para alguns autores (por exemplo, SHIMP; SHARMA, 1987) ou 0,7 para outros (por exemplo, ROBINSON et al, 1991). Deve-se levar em consideração que ao aumentar o número de itens da escala, o valor de alfa deverá também aumentar.
  E qual o número ideal de itens em uma escala? Para Bearden et al (1999), quanto mais construtos envolvidos na mensuração maior deve ser a escala, porém, o limitador é a fadiga do respondente. A escala deve ser do tamanho que não canse o respondente.
  Uma forma prática de se elevar o valor do alfa de Cronbach é escrever o mesmo item de diversas formas (ROBINSON et al, 1991) ou utilizar a técnica de frases com palavras invertidas (BEARDEN; NETEMEYER, 1999). nem preciso dizer o quão patético é essa colaboração...)

Validação convergente
  A validação convergente se refere ao grau o qual duas escalas projetadas para medir a mesma coisa o fazem. A convergência é obtida quando as duas escalas são altamente correlacionadas.

Validação discriminante
  A validação discriminante mensura o quanto duas escalas projetadas para medir a mesma coisa, mas utilizando-se de conceituações diferentes, o fazem. Uma baixa ou média correlação é frequentemente considerada evidencia de validação discriminante.

Validação nomológica
  A validação nomológica é definida por Campbell (1960) como o grau em que os construtos teoricamente ligados também são empiricamente ligados.

Validação de conhecimento de grupos
  A validação de conhecimento de grupos é definida por Saxe e Weitz (1982) como a capacidade da escala  identificar a existência de diferentes grupos de respondentes.

Amostragem
  Bearden e Netemeyer (1999) conclui que não é possível tirar qualquer conclusão de uma escala se ela for aplicada a uma amostra indevida, mesmo que tenha sido validada por todos os critérios.

SERVQUAL: Resenha sobre o mais famoso e pior artigo de mensuração que tenho notícia.



    O péssimo artigo da SERVQUAL é o mais famoso caso de construção de escala em marketing. E o mais intrigante é que além de ter mais furos que um queijo suíço, o seu péssimo método de criação de escala virou regra padrão para análise de escala no marketing mundial. Como isso é possível? Vamos aos fatos.
    O desenvolvimento de escala é um trabalho com três frontes de batalha, primeiramente a teoria deve ser dominada e os construtos estabelecidos, a escala em si deve ser formulada e os processos validativos ou validatórios devem ser aplicados.
    Depois que Likert (1932) propôs brilhantemente a sua escala, só sobraram duas tarefas, dominar a teoria e validar. Pois, bem, Parasuraman et al (1988) não fala em seu artigo de onde ele arruma os 10 construtos que formam inicialmente a SERVQUAL. Isso é mais que um furo, é brincar com a curiosidade do leitor. Eles surgem magicamente no segundo parágrafo da página 17 seguidos da explicação (pesquisas exploratórias dos autores apontaram para...). Lamentável.
   Fica então a expectativa para saber de onde foram retirados os 97 itens. Aí quando procura no texto não tem pica nenhuma, não tem nada sobre isso. Apenas uma citação na malfadada página 17 dizendo que elas foram geradas, labe-lá-parasuraman-de-onde.
   Ou seja, perdi meu tempo lendo essa bobagem? Jamais. É talvez um dos artigos mais citados do marketing, algo de bom ele deve ter.
   O método de purificação de escala de Parasuraman et al (1988) possui duas etapas principais, o cálculo do alfa de Cronbach e a análise fatorial. Para esse teste inicial foram coletados 200 questionários por conveniência. Essa fase não envolveu interação real com qualquer empresa de serviços, os respondentes utilizaram apenas de imaginação e recordações.
  As razões para a escolha dos testes não é clara, tão pouco o número de respondentes. Todas as escolhas se mostram arbitrárias, esse fato reduz a confiança de que o método de purificação de escala de Parasuraman et al (1988) seja robusto.
  Inicialmente a escala continha 97 items e ao final restam 22 items. Ao realizar o teste de consistência alfa de Cronbach foi observado que a consistência aumentava ao passo que alguns items fossem excluídos, esse então foi o primeiro critério de purificação. Na segunda etapa, os items deveriam se agrupar durante a análise fatorial em 10 grupos, isso não ocorreu, o resultado final foi 5, os items que não se agruparam em nenhum grupo foram deletados.
  Essa sequência de dois passos foi realizada novamente em uma segunda etapa onde o teste foi feito com uma amostra estratificada por empresa, na verdade por setor de empresa de serviços.
  Ao final de tudo, Parasuraman et al (1988) realiza uma análise variância entre os itens, muito mal explicada, mas acredito que ele queria se certificar de que as categorias são independentes. Não sei se é isso, não consegui entender porque a escala tem 7 itens mas ele fala que ao fazer o teste ANOVA reduziu de 4 para 3, porque um deles não tinha muitas respostas???? Ou seja, o que faltava errar ele errou agora, que era a escala em si, não se deve agrupar itens papai, assim você me quebra.
  Mas porque a SERVQUAL fez tanto sucesso se as categorias foram tiradas a revelia, os itens da escala foram inventados sem critério, a escala foi purificada em uma amostra que nem do mesmo serviço estava falando, o uso de estatística aparentemente foi feito sem critério (certamente sem justificativa no texto) e até a escala Likert foi usada de forma inapropriada?
 Fácil. Porque o método dele é fácil. É muito fácil para qualquer um seguir os seus passos (ou engatinhadas) são cálculos que qualquer software de estatística traz e a leitura dos indicadores é muito simples. E obviamente que de artigo em artigo o nome foi ganhando força e pessoas que não leram o original acabaram simplesmente aceitando-o como referência. O fato de um artigo tão famoso ter inventado descriteriosamente as categorias, os itens do questionário e os critérios de amostragem é uma benção para quem quer fazer o mesmo e ainda por cima tem quem citar na justificativa.
  E a explicação para a SERVQUAL mensurar a qualidade do serviço é que ou ninguém está mensurando nada e há um grande apagão coletivo ou a qualidade do serviço é algo tão simples que qualquer instrumento capenga consegue medir, inclusive um inventado e não validado.
  Enfim, morram de defender esse péssimo artigo que eu vou estudar algo mais sério. Tchau.