7/23/2011

los usos de las encuestas, manipulación y desconocimiento en la utilización de un instrumento estadístico. respuesta a fontevecchia

Jorge Fontevecchia nos solicito una columna sobre el resultado de las encuestas tras la elección en Capital, errores, sus implicancias, etc. Como es materialmente imposible contestar semejante cuestión en 5 o 6 mil caracteres , en Consultora Equis realizamos y enviamos este análisis específico sobre la performance de las encuestas y su utilización periodística en las recientes elecciones a Jefe de Gobierno de la Ciudad del 10 de Julio de 2011 que, como toda elección, encontraron ganadores y perdedores.

Imaginamos que es imposible publicar esto en un matutino, pero igualmente lo damos a conocer en nuestro humildísmo Ramble, como prueba de que , aún en medio de turbulencias, nuestra superioridad intelectual respecto a la derecha neoliberal mamarracha y conservadora, es absoluta, jejeje.

Entre los perdedores de la elección porteña, los medios de comunicación destacaron significativamente y con sagrada furia ( una vez más y van...) el papel de las consultoras de opinión pública en especial de las "consultoras k"de las cuales Consultora Equis es la nave insignia y a mucha honra jijiji.

Como es habitual desde hsce años , los días inmediatamente posteriores a las elecciones pudieron verse cantidad de notas periodísticas que para criticar el desempeño de las consultoras, oscilaban entre criticar las “supuestas” filiaciones partidarias, la impericia, la falta de autocrítica, etc. Acá va la de Consultora Equis que sólo algunos pocos leerán y menos aún entenderán. Es lógico, ces´t la vie.

Sólo para dimensionar el tenor de las notas periodísticas, se presentan algunos titulares de periódicos de alta circulación que ilustran lo detallado.

Lunes 11 de Julio de 2011. “Las encuestadoras K, muy lejos de los resultados oficiales en Capital. Los pronósticos de varias consultoras cercanas al Gobierno estuvieron muy lejos de los resultados oficiales de las elecciones porteñas; Poliarquía, la que más se acercó.” Sin firma de periodista alguno (http://www.lanacion.com.ar/1388689-las-encuestadoras-k-muy-lejos-de-los-resultados-oficiales-en-capitaly-lejos-de-los-resultados-oficiales-en-capital).

Esta nota además de resaltar que “la encuesta pedida por LA NACION a Poliarquía fue la que cerca estuvo de los resultados obtenidos en la primera vuelta”; presentaba un ránking de encuestadores comparados con los resultados oficiales tal como muestra en la apertura del post la IMAGEN 1 (click sobre la imagen para agrandar).

Lunes 11 de julio de 2011. “Poliarquía, la que más se acercó al resultado” sin firma de periodista alguno (http://www.lanacion.com.ar/1388616-poliarquia-la-que-mas-se-acerco-al-resultado ). Esta nota además de resaltar que “la encuestadora Poliarquía Consultores, contratada nuevamente por LA NACION, fue la que vaticinó con mayor exactitud el resultado de las elecciones”, advertía que dicha consultora contratada por el diario fue “la única que pronosticó que el jefe de gobierno de la ciudad superaría el 45% de los votos, como finalmente sucedió”.

Lunes 11 de Julio de 2011. “Ninguna consultora pudo pronosticar la diferencia entre Macri y Filmus. Las encuestadoras oficialista erraron por 13 puntos la brecha entre los dos primeros”. Firmada por el periodista Martín Bravo (http://www.clarin.com/politica/elecciones/consultora-pronosticar-diferencia-Macri-Filmus_0_515348587.html) la nota giraba en torno al vínculo de las consultoras con el gobierno y el efecto de esta relación sobre los resultados pronosticados.

Lunes 11 de Julio de 2011. “Poliarquía fue la ganadora en la guerra de encuestas. Vaticinó más del 45% para Macri. Quienes estuvieron más lejos. Las cifras K.” sin firma de periodista alguno (http://www.perfil.com/contenidos/2011/07/11/noticia_0007.html).

La nota hacía un repaso por las “performances” de las encuestadoras.

Martes 12 de Julio de 2011. “Las barbas en remojo. Los encuestadores y sus pronósticos”. Firmada por Raúl Kollman (http://www.pagina12.com.ar/imprimir/diario/elpais/1-172065-2011-07-12.html).

La nota resaltaba que “la única consultora que estuvo cerca del resultado real en la Capital Federal fue Poliarquía” y hacía un repaso a las razones esgrimidas por los consultores con relación a los errores en sus pronósticos.

Martes 12 de julio de 2011. “Muchas encuestas le erraron al resultado. La mayoría de las encuestadores cercanas al kirchnerismo pronosticaban una brecha menor” sin firma de periodista alguno (http://www.lanacion.com.ar/1388919-muchas-encuestas-le-erraron-al-resultadole-erraron-al-resultado). Esta nota hacía un ránking de los pronósticos fallidos.

Miércoles 13 de Julio de 2011. “Contratos y amistad entre los encuestadores “k” y el Gobierno. Los consultores explicaron a lanacion.com su relación con el oficialismo; por qué sus números fueron los más auspiciosos para Filmus”. Firmada por la periodista Maia Jastreblansky (http://www.lanacion.com.ar/1389196-contratos-y-amistad-entre-los-encuestadores-k-y-el-gobierno).

Esta nota sugería la “equivocación” en los pronósticos vinculada a la cooptación laboral de las consultoras.

Sábado 16 de julio de 2011. “Encuestadores o lobistas. Tras las elecciones porteñas, los yerros de la mayoría de las encuestas permiten sospechar que eran intencionadas” sin firma de periodista alguno. (http://www.lanacion.com.ar/1390093-encuestadores-o-lobbistas).

Esta nota planteaba el interrogante “¿Incapaces al extremo de equivocarse groseramente una y otra vez, o, directamente, manipuladores a sueldo?”

Sábado 16 de Julio de 2011. “Las patas de la mentira” firmada por Javier Blanco (http://www.perfil.com/ediciones/2011/7/edicion_591/contenidos/noticia_0007.html).

Esta nota, una de las más pequeñas, plantea que “en PERFIL hemos privilegiado datos de opinión pública que nos brindan las empresas Management & Fit e Ipsos-Mora y Araujo, dos de las encuestadoras más profesionales que existen en el mercado junto a Poliarquía (contratada por La Nación) y alguna más. No muchas más.” Es quizás la más interesante por cuanto plantea que el rol de las encuestas se sostiene en tres patas: los políticos que las utilizan como instrumento de propaganda, los medios de comunicación que convierten los sondeos en noticias y las consultoras que las realizan.

El cierre de esta nota es el que motivó el presente análisis: “Vienen elecciones claves. A no hacerse ilusiones: pese al papelón porteño, asistiremos a más “encuestruchas”. Pero para que una mentira se instale, se necesitan varias patas. No cuenten con la nuestra.”

Domingo 17 de julio de 2011. “Cómo funcionan y por qué erran las encuestadoras K”; inquietante nota firmada hasta con cierta alegría por el periodista Mariano Confalonieri (http://www.perfil.com/ediciones/2011/7/edicion_591/contenidos/noticia_0025.html).

La nota comparaba las performances de las encuestadoras según su vínculo contractual con el gobierno y sugería el uso manipulador de los instrumentos.

Las notas periodísticas publicadas por los principales diarios (Clarín, La Nación, Perfil, Página 12) con relación al desempeño de las consultoras de opinión sugieren que, salvo “honrosas” excepciones, han tenido un muy pobre desempeño con errores groseros que resultan de comparar los pronósticos con los resultados del escrutinio oficial. Dichos errores podrían ser el resultado de la impericia aunque no es la tesis planteada.

En contraposición, se sugiere que dichos errores son el resultado de la manipulación de los datos como consecuencia del vínculo contractual con clientes (en este caso el Gobierno Nacional).

Ahora bien, analicemos punto por punto estos señalamientos.

Todas las consultoras pronosticaron que habría ballotage en la elección de la Ciudad de Buenos Aires; pronóstico que confirmó el escrutinio.

Una mayoría de 11 consultoras sobre un total de 12 relevadas pronosticaron el orden en el que ingresarían los tres principales candidatos (Macri, Filmus y Solanas); pronóstico que también confirmó el escrutinio. En este caso, se exime del análisis al resto de los candidatos por cuanto los sondeos de intención de voto registraban acumulados inferiores al margen de error de los mismos sondeos.

Se desprende entonces que los “groseros errores” debieran referir a la inexactitud de los pronósticos en relación al acumulado puntual de cada candidato observado en el escrutinio en comparación con el acumulado estimado. En estas circunstancias, es imprescindible rescatar el término de comparabilidad para evitar lo que vulgarmente se dice mezclar perros con gatos.

Tal como lo muestra el gráfico de la IMAGEN 1 el diario oligárquico-fascistoide La Nación se ha tomado el minucioso trabajo de registrar los pronósticos de las consultoras para compararlos entre sí; algo que en efecto sería una suerte de prueba de fiabilidad aunque dependiendo de algunas condiciones. En este punto, es necesario destacar que por fiabilidad se entiende la capacidad de un instrumento (en este caso los sondeos de opinión) en conseguir resultados similar a partir de circunstancias, contextos y fechas similares. La fiabilidad es un concepto que muestra alta sensibilidad a ciertos elementos tales como: el tamaño de la muestra (de este se deriva el “margen de error”), la cantidad de artículos en la escala, la longitud de escala y la consistencia y unidimensionalidad.

Los medios de comunicación, en general; y estas notas analizadas, en particular, plantean la vinculación de los pronósticos con los vínculos clientelares de las consultoras. En efecto, es una medida aconsejable para la publicación de los sondeos de opinión, informar el cliente que ha encargado el estudio tanto como presentar un conjunto de datos que ayudan a la interpretación de la información y que, por otro lado, son útiles para hacer las evaluaciones de performances como prueba de fiabilidad de los instrumentos tales como: la fecha de realización del trabajo de campo, el tamaño de la muestra, el tipo de encuesta, el tipo de instrumento utilizado, el tipo de muestreo probabilístico utilizado, el margen de error muestral y los niveles de confianza de las estimaciones.

Ahora bien, la pregunta es: ¿son realmente comparables esos pronósticos entre sí como en relación con el escrutinio? La respuesta es no.

En primer lugar y en relación con la comparación interconsultoras, dicho ránking no presenta un conjunto de información imprescindible para hacer una comparación entre los sondeos. Es decir, no se informan las fechas de realización de los trabajos de campo; no se informan los tipos de muestreo según su probabilidad; no se informan los tamaños muestrales; no se informan los márgenes de errores muestrales ni los niveles de confianza de las estimaciones.

El concepto metodológico de validez, refiere a la capacidad de un instrumento para medir lo que se pretende medir. La comparación de los pronósticos estimados con los resultados oficiales del escrutinio, constituyen una suerte de prueba de validez aunque también dependiendo de algunas condiciones ya señaladas. Ahora bien, la prueba de validez que se pretende realizar parte de un problema de comparabilidad ineludible; es decir, se comparan perros con gatos.

Los pronósticos de los sondeos de opinión presentan la información de acumulados de intención de votos por distintos partidos; electores con intención de votar negativamente (votos blancos, nulos, impugnados y/o recurridos); electores con intención de ausentarse de los comicios así como la presencia de un conjunto de electores indecisos. Los resultados que presenta el escrutinio oficial, en cambio, sólo se calculan sobre los votos positivos. Es decir, una vez despejados los ausentes electorales así como todos aquellos que optaron por opciones negativas del voto.

Sólo a modo de ejemplo, la IMAGEN 2 (click sobre la imagen para agrandar) , muestra la nota publicada por el diario Clarín sólo dos días antes de la elección bajo el título “Macri mantiene las ventajas, pero habría balotaje en la Ciudad. Según las encuestas, le saca a Filmus de 6 a 12 puntos. Solanas no quiebra la polarización” firmada por el periodista Martín Bravo (http://www.clarin.com/politica/Macri-mantiene-ventajas-balotaje-Ciudad_0_513548695.html).

Al respecto, considérese que el resumen de las encuestas no informaba fechas de los trabajos de campo, tamaños de las muestras, tipo de muestreo, margen de error máximo de las estimaciones ni el nivel de confianza de las mismas.

Como se observa, el resumen de los pronósticos comparados omite una cantidad de información necesaria para que las comparaciones sean válidas tanto entre las consultoras como con el escrutinio definitivo posterior.

La IMAGEN 3 (click sobre la imagen para agrandar) de la apertura resume los datos para observar y precisar la magnitud de la información omitida.

Como se observa en el cuadro de la IMAGEN 3, los acumulados faltantes oscilan entre 0,4% y 16%. La nota periodística nada informa acerca de los mismos; es decir, no se refiere si corresponden a intenciones de votos por otros candidatos, intención de ausentarse del comicio, intención de votar negativamente (blanco, nulo o impugnado) o si corresponde a electores aún indecisos.

En cualquier caso, estos faltantes influirán en la evaluación de las performances de las consultoras que luego realizan los medios de comunicación.

En síntesis, la comparación planteada por los medios de comunicación de los pronósticos de los sondeos con los resultados del escrutinio es incorrecta.

Para poder efectivamente comparar esos resultados y suponiendo que todas estas consultoras se hubieran realizado en el mismo momento, es decir, con una diferencia mínima de días; es necesario traducir los resultados de la encuesta en votos positivos para lo que se requiere hacer una proyección de indecisos. Salvo en el caso de la consultora Poliarquía, en ningún caso se informó el modo de proyección de los mismos.

Por otro lado, los sondeos de opinión producen estimaciones puntuales en el marco de un intervalo de confianza con un límite inferior y un límite superior y una probabilidad asociada a la estimación. Todos estos datos se desprenden y reconstruyen de las fichas técnicas que pobremente relevan los periódicos.

La reconstrucción de esta información es fundamental para evaluar correctamente el desempeño de las consultoras una vez traducidos de modo que sean comparables; es decir, proyectando los indecisos y haciendo el cálculo pertinente de los votos positivos.

A fines analíticos compararemos los resultados de la consultora ubicada en el primer lugar y la ubicada en el último del ránking como medida de la máxima tensión entre los pronósticos.

La IMAGEN 4 (click sobre la imagen para agrandar) de la apertura muestra la publicación con los resultados de la encuesta de Poliarquía encargada por el diario La Nación.

Al respecto, es importante señalar que las publicaciones periodísticas que refieren a ambos estudios que compararemos presentaron los datos necesarios para poder hacer correctamente estas comparaciones. Los datos necesarios referidos a la ficha técnica del trabajo de campo que se han resaltado en rojo.

La IMAGEN 5 (click sobre la imagen para agrandar) muestra los resultados que se desprendían del estudio.

Con la información publicada es posible establecer los intervalos de confianza de la estimación realizada por la consultora “estrella”, según los medios. La IMAGEN 6 (click sobre la imagen para agrandar) de apertura muestra el intervalo de confianza de las predicciones.

En primer lugar considérese que el cuadro compara el intervalo de confianza con los resultados del escrutinio para un sondeo que tenía una vejez mínima de 3 días y máxima de 6 días.

En rigor, cuando Poliarquía (o cualquier consultora) informe que la estimación puntual de Macri es de 45,3%; está diciendo que existe un 95% de confianza de que Macri obtenga un resultado comprendido entre 42,63% (límite inferior) y 47,97% (límite superior); resultado que por otra parte obtuvo.

Como se observa, la consultora Poliarquía realizó pronósticos que, salvo para el caso de Daniel Filmus, estuvieron dentro del intervalo de confianza.

A simple vista el error en la estimación de Filmus genera la tentación de dar por aprobada la estimación; caso en el que incurriríamos en un error denominado “beta”. El error beta (o error de segunda especie) sucede cuando se acepta una hipótesis nula que es falsa; es decir, se da cuando se acepta una muestra que en rigor está fuera de los límites de la tolerancia.

En este punto es importante destacar que para la teoría estadística es exactamente igual estar 0,03% por fuera del intervalo de tolerancia que estarlo un 50%. En cualquier caso, la teoría estadística dirá que para la estimación de la performance de Daniel Filmus sucedió el 5% restante que no estaba garantizado en la confianza.

La IMAGEN 7 (click sobre la imagen para agrandar) muestra la publicación de Tiempo Argentino que se lee aca. En primer lugar considérese que el sondeo de opinión utilizado para hacer las comparaciones entre las performances de las consultoras, tenía una vejez mínima de 10 días y máxima de 20 días.

El gráfico de la IMAGEN 7 correspondiente a la nota periodística presentaba las estimaciones puntuales de las intenciones de voto de todos los candidatos, los electores con intenciones de ausentarse del comicio; los intenciones por votos negativos y un 20,3% de indecisos. Los datos faltantes en la nota para la comparación correcta son el margen de error máximo (4,0%) y el nivel de confianza (95%).

Dicho trabajo presentaba y advertía casi un mes antes de la elección sobre el alto porcentaje de electores aún indeciso (20,3%). En rigor, la nota no presentaba indicios certeros sobre el comportamiento de los indecisos porque no es un práctica habitual proyectar su comportamiento un mes antes de una elección. Sólo a los fines analíticos, para poder realizar una comparación correcta con los resultados del escrutinio, haremos una proyección lineal de los indecisos. Esto supone redistribuir el porcentaje de indecisos del mismo modo que se distribuían oportunamente los electores decididos.

Con la proyección de homogénea de indecisos es posible establecer los intervalos de confianza de la estimación realizada por la consultora realizada un mes antes de la elección. En rigor, esta comparación es en cierta forma ridícula por la vejez del trabajo de campo. Es decir, esto supondría que durante un mes no se hubieran registrado sucesos, acontecimientos o cambios de tendencias electorales. De algún modo sería como proyectar una imagen congelada en el tiempo cuando es de público conocimiento que durante ese último mes se intensifican las actividades y cruces de campaña y sendos estudios de opinión confirman que una gran porción del electorado define su voto durante los últimos días; incluso durante la veda electoral que impide a las consultoras realizar publicaciones sobre la evolución de las tendencias.

La IMAGEN 8 de la apertura (click sobre la imagen para agrandar) muestra el intervalo de confianza de las predicciones.

Si la fotografía del electorado tomadas por la consultora Equis hubiera permanecido congelada durante un mes, podríamos decir que, al igual que Poliarquía, los pronósticos para el caso de Daniel Filmus estuvieron fuera del intervalo de confianza. Asimismo se observaría que también se ubicó fuera del intervalo el pronóstico para Fernando Solanas.

Complementariamente, podríamos poner en duda el planteo del diario La Nación del lunes 11 de Julio con relación a que la encuesta contratada por ese diario fue “la única que pronosticó que el jefe de gobierno de la ciudad superaría el 45% de los votos, como finalmente sucedió”. Incluso un mes antes de la elección ya había otras encuestas, como la de Consultora Equis, que registraban una intención de voto a Macri igual o superior al 45%.

Este análisis podría hacerse con el resto de las consultoras “examinadas” en el ránking de performance elaborado por el diario La Nación. Lamentablemente, no es posible para este estudio por cuanto no se dispone de la información completa y necesaria para hacerlo.

Probablemente llegaríamos a resultados similares; es decir, a descubrir que las encuestas no son feas, sucias y malas tal como se plantean. De lo que sí estamos seguros es que no pueden hacerse comparaciones de estudios con informaciones parciales e incompletas.

Tampoco pueden compararse elementos que no son comparables entre sí; tal es el caso de las comparaciones de encuestas con escrutinios oficiales.

En este sentido, tampoco pueden compararse estudios que difieren largamente en las fechas de sus trabajos de campo. Las comparaciones con los resultados de los escrutinios oficiales requieren trabajos de campo que tengan una distancia no mayor a 5 días de la elección.

La conclusión de que los estudios más acertados fueron aquellos encargados por los diarios en detrimento de las consultoras “contratadas” es una manipulación de la información de la misma envergadura que lo que se pretende sugerir con relación al supuesto manejo de los datos que estas hacen.

Este sencillo trabajo que compara la precisión de los pronósticos de las supuestas “mejor” y “peor” consultoras ha mostrado que no ha habido tal diferencia que se pretende instalar. Es decir, la supuesta “mejor” consultora equivocó el pronóstico sobre el candidato Filmus tanto como la “peor”.

Cierto es que la “peor” de las consultoras, en contraposición a la “mejor”, equivocó el pronóstico del candidato Solanas. Ahora bien, dicho pronóstico fue realizado 30 días antes de la elección.

Desconocer el efecto del tiempo de validez de los pronósticos es de un manifiesto desconocimiento técnico que al mismo tiempo sugiere una manipulación intencionada de la imagen que se pretende transmitir de las consultoras.

Es tan saludable transparentar quiénes son los clientes para los que trabajan las consultoras (tal como solicitan los medios de comunicación) como que los periodistas firmen sus notas periodísticas en las que realizan estas comparaciones incorrectas, tensionadas y forzadas.

Es importante que se entienda que no existe estadísticamente el concepto de “mayor exactitud”. Los pronósticos tan sólo son acertados o equivocados; sin importar si la diferencia es de 0,1% o 50,0%.

Por otra parte, es incorrecto comparar el rendimiento de las consultoras en función del acierto de la diferencia entre dos candidatos. Los pronósticos producen estimaciones puntuales sobre los candidatos afectados por intervalos de confianza que pueden contener esa diferencia sin que se observe simplemente de restar la diferencia entre los que se pretenden comparar.

En síntesis, si “los yerros de la mayoría de las encuestas permiten sospechar que eran intencionadas”; las comparaciones incorrectas y lecturas equivocadas que los medios hacen de los pronósticos también "permiten sospechar que son intencionadas" o sencillamente en el mejor de los casos debe atribuirse al desconocimiento absoluto sobre la especificidad y el alcance del material que se publica.

No hay comentarios.: