ramble tamble: porqué no sirven las encuestas telefónicas anticipatorias?

Todo el mundo habla de fútbol y encuestas , saca conclusiones sobre él y ellas. En rigor la encuesta es hoy un dispositivo de disciplinamiento político, utilizado masivamente por los candidatos para constituir una grilla de preferencias que los beneficie.

El mecanismo de producción de la grilla cumple tres pasos:

en el comienzo que denominamos inercia de preferencias,
durante el curso del proceso de publicación de encuestas y construcción de preferencias funciona de manera creciente la espiral de silencio,
para instalarse finalmente y en el último tramo previo a la elección el efecto Panurgo que también comentamos.

Dicho esto, y ya respecto a la metodología utilizada para recolectar datos la limitación que induce evaluar la aceptación y consistencia electoral con relevamientos telefónicos, obsérvese el cuadro de apertura del post donde se muestra para la Provincia de Buenos Aires , la posesión o no de teléfono fijo según el estrato social, determinado indirectamente por el CALMAT, esto es la calidad del material de la vivienda. Mientras el 16% del CALMAT 1 , el de alto Nivel Económico Social (NES) no posee teléfono fijo, en esas condiciones de privación está el 47%, el 60% y el 77% del CALMAT 2, 3 y 4 respectivamente, esto es los estratos de mas bajo NES .

Considérese que este relevamiento corresponde al Censo 2001 y en los años posteriores en los estratos bajos se profundizó la tendencia de anular el teléfono fijo por el móvil, situación que agrava la tendencia a flotar hacia arriba e el NES , típica de las muestras telefónicas fijas.

Nos apresuramos a comentar que la corrección del sesgo ( ver nota al pie) vía ponderación de estas muestras telefónicas no es adecuada, puesto que aún dándole mayor peso a los poseedores de teléfono fijo del CALMAT 2, 3 o 4 , las respuestas siempre ajustan por los que mejor NES tiene al interior de cada CALMAT , por lo que la ponderación atenúa en parte el sesgo del crudo, pero no se elimina.

A criterio de Ramble, no es conveniente sacar conclusiones demasiados contundentes sobre evolución de popularidad de candidatos y mucho menos intención de voto, con este tipo de relevamientos realizados en medio de una coyuntura de crisis y en base a posesión de teléfonos fijos en el hogar.

Nada de lo que se dice en materia de mediciones y se publica habitualmente en la prensa entonces tiene valor predictivo. Se busca construir grilla de preferencias sujeta a los pasos que señalamos, es imposible predecir por el tiempo anticipado en que "se mide" donde los escenarios ni siquiera están constituídos y finalmente resulta insostenible toda afirmación por el método telefónico fijo de "recolección de datos" habitualmente utilizado por las consultoras , más los incentivos de los candidatos a las empresas privadas que los realizan como en cualquier actividad privada que privilegia el interés del cliente.

PD: Sesgo definición Wikipedia: En estadística y epidemiología, un sesgo es un error que aparece en los resultados de unestudio debido a factores que dependen de la recogida, análisis, interpretación, publicación o revisión de los datos que pueden conducir a conclusiones que son sistemáticamente diferentes de la verdad o incorrectas acerca de los objetivos de una investigación. Este error puede ser sistemático o no, y es diferente al error aleatorio. En el diseño y elaboración de un estudio de investigación en clínica, puede haber distintos tipos de sesgos Sesgo de selección: Grupos no comparables debido a cómo se eligieron los pacientes o sujetos. Sesgo de Información: Grupos no comparables debido a cómo se obtuvieron los datos. Sesgo de confusión: Existe una mezcla de efectos debido a una tercera variable (variable de confusión).

Leemos al respecto un caso de tapa emblemático sobre el "que más mide" y el método de recolección de datos:

Por Adrián Paenza

Franklin Roosevelt vs. Alfred Landon

Las encuestas han invadido nuestras vidas. Como es obviamente imposible plebiscitar a toda la población sobre algún tema candente, la matemática provee una herramienta muy útil, pero también muy peligrosa: hacer preguntas a un grupo esencialmente “pequeño”, pero cuyas respuestas uno pueda extrapolar e imaginar que representan el “sentir” o “pensar” de la sociedad.

Por supuesto, el método dista de ser infalible, pero es muy poderoso si se lo utiliza apropiadamente. Uno puede “encuestar” a un grupo de mil personas e inferir con un margen de error del 3,1 por ciento [1] (por ejemplo) quién va a ser el ganador de una elección (digamos entre dos candidatos).

Pero se presentan dos problemas logísticos importantes: hay un error estadístico que es imposible de evitar, sencillamente porque ni mil ni cien mil ni un millón de personas encuestadas pueden dar el preciso valor que se obtendría si uno encuestara a toda la población. Sin embargo, hay otro error que transforma todo el proceso en algo muy peligroso: elegir mal la muestra. ¿Qué quiere decir mal? La muestra tiene que ser al azar. Es decir, el “campo” sobre el cual uno va a operar y hacer las preguntas tiene que haber sido elegido sin seguir ningún patrón. No hacerlo produce un error sistemático que es virtualmente imposible de salvar.

Acá va un ejemplo muy interesante y con múltiples ramificaciones para la Argentina de hoy.

Situémonos en agosto de 1936. Franklin Roosevelt era el presidente norteamericano y candidato demócrata a renovar el cargo. Por su parte, Alfred Landon era gobernador de Kansas y candidato republicano para disputarle el lugar.

La revista Literary Digest hizo una campaña impresionante para tratar de predecir quién de los dos sería el futuro presidente. Ya lo habían hecho en forma más modesta durante veinte años, anunciando anticipadamente quién sería el ganador. Es decir, durante dos décadas, había conseguido la reputación de ser quienes podrían adelantar el resultado de la elección: habían acertado siempre.

La revista se ufanaba de ese poder de predicción y lo basaban en la muestra “enorme” que tenían para recoger los datos: sus propios suscriptores. Cada año, la base de datos era más grande y, por lo tanto, ellos pensaban que su poder de anticipación sería cada más infalible.

Pero decidieron dar un paso más. O varios pasos más. El padrón electoral del año 1936 era de casi 40 millones de personas. La revista, en un esfuerzo sin precedentes, decidió consultar a ¡diez millones de personas! Es decir, una cuarta parte del electorado. El método elegido fue el que usted imagina y el más sencillo de todos: 10.000.000 de personas recibieron un sobre a través del correo común. Cada persona devolvía (si quería, claro está) el sobre que traía la estampilla “prepaga” con un anticipo de lo que habría de votar el día de la elección.

Por supuesto, el costo de tamaño esfuerzo fue descomunal, pero la revista Digest escribió, a través de un editorial firmado por su director, que ellos creían que se brindaba un gran servicio público al país, y cuando uno tiene en cuenta semejante responsabilidad, ningún precio se puede considerar alto.

Desde el punto de vista de la revista, la muestra tan desmesuradamente grande justificaba el costo. Aun en el caso de que los votantes devolvieran una fracción pequeña de los sobres, igualmente la muestra sería tan enorme que reduciría el margen de error a un número despreciable, menor a una fracción de 1 por ciento.

Las muestras actuales, las modernas, las del siglo XXI, se hacen con alrededor de 1000 (mil) personas y con un margen de error que orilla el 3,1 por ciento. No bien uno incrementa la muestra, el error se reduce. Una encuesta que consulta a 4000 personas tiene un margen de error de 1,6 por ciento, y si uno amplía la muestra hasta 16.000 (dieciséis mil) entonces el error se reduce a 0,78 por ciento.

Los sobres empezaron a llegar. En la primera semana ya se habían recibido 24.000 respuestas, con lo cual el error se estimaba en alrededor de 0,6 por ciento. Pero habría más: la semana de la elección, la muestra había alcanzado un pico increíble: 2.266.566 votantes. ¿El error? Pequeñísimo: 0,06 por ciento.

Los resultados fueron los siguientes: Landon: 1.293.669 - Roosevelt: 972.897. Por lo tanto, Landon estaba predestinado a obtener su triunfo con más del 57 por ciento de los votos y, encima, con un margen de error que rondaba el ¡0,06 por ciento![2]

La diferencia era tan descomunal que la señora de Roosevelt declaró: “La reelección de mi marido está en ‘las manos de los dioses[3]’”.

Sin embargo, como usted ya sabe, Landon nunca fue presidente de Estados Unidos. No solamente eso: Roosevelt ganó la elección con más del 62 por ciento de los votos. Landon pudo ganar solamente dos estados pequeños: Maine y Vermont.

¡Roosevelt ganó los restantes 46!

¡Todo el esfuerzo, todo el dinero, todo el prestigio, derrumbados en un solo día! ¿Qué pasó? ¿Cómo pudo haber salido todo tan mal?

La propia revista daba –ingenuamente– la respuesta a su propia debacle: los datos se extraían de todas las guías de teléfono que había en Estados Unidos en ese momento, de las listas de socios a clubes (como el Rotary) y asociaciones civiles como nuestro Automóvil Club, para poner otro ejemplo, listas de suscriptores a revistas como Time y Newsweek, etc.

El año 1936 se ubica en el medio de la llamada Gran Depresión. Había una gran división entre pobres y ricos. Los ricos tenían (tienen) la tendencia de votar a los candidatos republicanos, que históricamente tienden a defender sus intereses. Los pobres, en cambio, siempre se inclinaron por los demócratas. Tener un teléfono (que fue la fuente más importante de nombres y direcciones para la revista Digest) era un “lujo”. De hecho, se estima que menos del 20 por ciento de la población (una de cada cinco personas) tenía acceso a una línea telefónica en ese momento. Por lo tanto, haber usado la lista de direcciones de personas a quienes les mandarían los sobres usando las guías telefónicas sirvió para producir una distorsión flagrante: fue como haber hecho una gran lista de republicanos dejando a los demócratas afuera. ¿Por qué?

Antes de contestar la pregunta, me detengo un instante: está claro que a medida que uno amplía la lista de personas a encuestar, uno disminuye la posibilidad de error. Sin embargo, para poder sostener esta afirmación, es necesario conservar un dato esencial: la muestra tiene que ser elegida al azar. No importa si uno encuesta cien, mil, un millón o diez millones de personas: el error ocasionado por una mala elección de la muestra produce una herida mortal a la propia encuesta.

Por otro lado, el hecho de buscar datos entre las personas que tenían un empleo fijo dejó afuera a muchísima gente desocupada, que eran muchísimos teniendo en cuenta la época: más de 9 millones sobre un total de 40 millones que integraban el padrón electoral.

Lo interesante es que en julio de 1936, algunas semanas antes de que la revista Literary Digest empezara con su encuesta, George Gallup (el virtual “inventor” de las encuestas modernas) predijo el error que se produciría en la revista, lo que generó una fuerte reacción de los editores. Sin embargo... Gallup tuvo razón.

Si bien la gente de Digest tenía motivos suficientes para ufanarse de lo que estaban haciendo, omitieron algunos datos esenciales: de los diez millones de sobres que enviaron, solo contestaron 2.300.000. Es decir, más de las tres cuartas partes de los potenciales votantes... no respondieron. Esos 7.700.000 “votos” que no llegaron, incluían un gran número de personas que –quizás– estaban satisfechas con la presidencia de Roosevelt y no tenía muchas ganas de participar en una encuesta de ese tipo. Como usted bien sabe, a los humanos nos interesa mucho más “manifestar nuestro enojo” de cualquier manera que enfatizar nuestra aprobación.

No bien llegaban los sobres, la gente que pertenecía a las clases alta y media-alta, poseedora de autos y líneas telefónicas, quizá disconforme con lo que era la administración del momento, fue mucho más proclive a protestar y utilizar cualquier medio para hacerlo, aun el de contestar una encuesta. De esa forma, quienes respondieron al pedido de la revista fueron desproporcionadamente republicanos.

Estos errores son los que se llaman errores sistemáticos, que son mucho más graves y/o serios que los errores estadísticos.

Gallup sí que usaba los métodos científicos de la época, y si bien sus muestras eran decididamente más pequeñas (para el caso Landon vs. Roosevelt utilizó alrededor de 50.000 encuestados), sus resultados fueron siempre mucho más precisos y certeros.[4]

Final: ¿por qué la historia de Roosevelt y Landon?

La Argentina actual vive momentos muy particulares. En realidad, ¿cuándo no? Pero como hubo algunos acontecimientos puntuales, en particular en el último noviembre (“cacerolazo” y “huelga”) que podrían invitar a extraer conclusiones sobre cuál podría ser el resultado de las próximas elecciones presidenciales, sugeriría que relean lo que pasó en Estados Unidos en 1936 y las predicciones de la revista Digest.

Obviamente, no puedo afirmar nada porque ni tengo autoridad ni conocimientos para hacerlo, pero en función de lo que se pudo leer en algunos diarios y ver en la tele (en algunos canales también), todo parece apuntar a un triunfo del equivalente de Alfred Landon. Les recuerdo que Roosevelt obtuvo más del 62 por ciento de los votos. No sé quién será el equivalente de él en el 2015, pero si uno va a utilizar un método que pretende ser científico, conviene no equivocarse con la muestra.

[1] En realidad, el error de una muestra de n personas se estima calculando error ~– (0,98)/V–n . Es decir, el error estadístico es inversamente proporcional a la raíz cuadrada del tamaño de la muestra: cuanto mayor es el número de gente encuestada, menor es el error.

[2] Fuente: Revista Literary Digest, 31 de octubre de 1936.

[3] Es una traducción libre mía. La frase de la señora Roosevelt fue: “Lap of the gods”, que se traduciría como “en la falda de los dioses”.

[4] Con todo, hay un error histórico que cometió Gallup en la elección del año 1948, dando por ganador al candidato que enfrentaba a Harry Truman (me refiero a Thomas Dewey), pero eso dará lugar a otra nota.

------------------------------------------------------------

Notas Relacionadas

Inercia de preferencias

Ya señalamos en PERFIL que en estos días tan alejados del escenario electoral se difunden por los medios –en especial, los opositores– encuestas que son metodológicamente incorrectas y están dirigidas a impresionar a la dirigencia política en general, a los gobernadores e intendentes sujetos de alianzas futuras en particular y en el oficialismo muy especialmente a impactar sobre la voluntad política de Cristina Kirchner.

encuestas, manipulación y "cambio moderado"

Anticipo de respuestas para la nota de mañana de Tuni Kollman en Página 12, respuestas que publicamos completas ya que muy probablemente serán recortadas por motivos de espacio.

Kollman: Quedó instalada la idea de que hubo mentira en las encuestas en Brasil.

Iba a ganar Marina, no entró al balotaje. Aecio quedaba fuera del balotage, terminó duplicando los votos de Marina; Aecio ganaba el ballotage, terminó perdiendo; Dilma ganaba por 6-8 puntos, terminó ganando por 3. ¿Erran las encuestas o cambia la gente? Esto pasa en el electorado argentino?

López: La gente cambia, las encuestas son falibles, pero la manipulación de encuestas durante la primera ronda en Brasil fue evidente y siempre en perjuicio del voto oficialista. El núcleo de la manipulación supuso inflar las preferencias de voto a Marina Silva para atenuar el efecto Panurgo bajo el formato de voto útil a favor del PT bajo la percepción de que una parte del voto oficialista (el menos adherido o periférico) migraría a la candidata del PSB al mostrársela competitiva.

"inercia de preferencias": el lugar de las encuestas en la construcción del candidato

Ya señalámos que las encuestas que se difunden por los medios, - en especial los opositores - son metodológicamente incorrectas y están dirigidas a impresionar a la dirigencia política en general, a los gobernadores e intendentes sujetos de alianzas futuras en particular y en el oficialismo muy especialmente a impactar sobre la voluntad política de Cristina Kirchner.

Al respecto señalaba Julio Burdman, que estas encuestas “son metodológicamente inválidas, Rodney Barker, politólogo del London School of Economics, sostiene que la gran mayoría de todas las cosas que hace la comunidad política (que incluye a una minoría intensa de políticos, militantes, periodistas, discutidores de política en la mesa familiar, y lectores de El Estadista y otras publicaciones similares) está dirigida a sí misma.

11/09/2014

porqué no sirven las encuestas telefónicas anticipatorias?

Franklin Roosevelt vs. Alfred Landon

No hay comentarios.: