7/31/2019

estimaciones de cara a octubre



Un pronóstico electoral para la elección presidencial de Argentina 2019

¿Quién va ganar la elección presidencial de Argentina en 2019? En este blog voy a tratar de responder esa pregunta. Mi intención es usar datos que están públicamente disponibles para procesarlos y presentar un pronóstico de lo que va suceder la noche del 27 de octubre. En este artículo quiero hacer una breve introducción, resumiendo la metodología, mostrando algunos resultados anteriores y presentando el primer pronóstico electoral del ciclo.

***

Hay muchas formas de hacer pronósticos electorales (encuestas, expertos, modelos cuantitativos, mercados electrónicos, etc). Yo uso una línea de investigación más nueva, basada en la agregación de datos y representación de espacios de estados. En el ámbito de ciencia política, es una aproximación que se se le ha denominado el modelo dinámico lineal. En corto, es la estimación de estados latentes por medio de algoritmos Bayesianos y cadenas de Markov.

***

Uso un modelo de dos etapas que solo usa encuestas como input. En la primera etapa busco eliminar potenciales sesgos de las encuestas, al controlar por la precisión de sus encuestadoras en elecciones anteriores, su nivel de error aleatorio y su distancia de la elección. En la segunda etapa busco simular la elección con los datos que resultan de la primera etapa. Después de 30,000 simulaciones obtengo la mejor estimación del resultado (el pronóstico).

***

Los detalles técnicos están en el paper (pedir por interno). Pero probé el modelo en las 26 elecciones más recientes de 11 países en América Latina: Argentina, Brazil, Chile, Colombia, Costa Rica, Ecuador, El Salvador, Mexico, Paraguay, Peru, Uruguay, y los resultados son notables. El más relevante es que al comparar el rendimiento del modelo contra el de las encuestas, el modelo siempre fue más certero que las encuestas.

***

Caveat emptor. Si bien el modelo es más certero (promedio de la diferencia absoluta entre un pronóstico y el resultado) que las encuestas a nivel de elección (en cada una de las 26), y es más certero que las encuestas a nivel de candidato (9 de cada 10), no siempre es absolutamente certero. De hecho sería irreal que lo fuera, pues si los datos de las encuestas están sesgadas, también lo va estar el pronóstico.

***

Vamos a lo nuestro. En esta parte quiero hablar un poco sobre la primera etapa del modelo. Como comenté arribe, el primer paso es controlar por el potencial sesgo de las encuestadoras. Para hacer esto, miré la diferencia absoluta entre el último pronóstico de una encuestadora y el resultado, para cada candidato, en cada elección. Con esos datos, construí el promedio de error a través de los años, y con aquello el Ranking de Encuestadoras.

En la Tabla de abajo muestro el Ranking de Encuestadoras para la elección de Argentina de 2019. El peso absoluto es la suma del error a través de los años; un peso más alto indica una mayor precisión. El peso relativo es el estimador para este año; naturalmente, un peso más alto indica mayor confianza. En resumen, le doy un mayor peso a las encuestas de Carlos Fara que a las encuestas de González y Valladares.


***

El segundo paso es simplemente controlar por el nivel de error aleatorio, también conocido como el margen de error. A diferencia del paso anterior, en este paso cada encuesta tiene un ponderador específico. El margen de error es sencillamente el estimador de confianza (en este caso 1.96=95%), dividido por la raíz cuadrada del número de encuestados. En resumen, le doy un mayor peso a las encuestas que (relativamente) entrevistan a más gente.

***

El tercer paso es controlar por la distancia entre una encuesta y la elección. Esto es conocido como el decay rate (o periodo de semidesintegración). Esto es simplemente la exponencial de la multiplicación entre una constante y el número de días que han transcurrido desde la publicación de una encuesta. A medida que más días pasan, menos pesa la encuesta en la tabla general. En resumen, le doy un mayor peso a las encuestas más nuevas.

El gráfico de abajo muestra esta relación. Si la encuesta se publicó el día de la elección (o *hace cero días*), pesa cerca de 1 en este paso, mientras que el resto de las encuestas pesan cerca de 0. A medida que pasan los días, cae el valor de una encuesta. Pero siempre la encuesta más reciente va pesar más que las encuestas que se publicaron anteriormente. En este caso, la constante es -0.08, que ha mostrado resultados positivos en otros países de la región.



***

No voy a entrar en muchos detalles del modelo Bayesiano, pero basta comentar que decidí usar flat priors con un flat variance. La idea es simplemente dejar que “los datos hablen por sí solos”. Agregar información innecesaria puede sesgar el estimador. No tiene mucho sentido hacerlo sin conocer con exactitud los márgenes en que se mueven los candidatos. (Pretendo incorporar priors solo después de los resultados de las PASO).

***

Vamos a los datos. Para hacer un pronóstico, en cualquier elección, necesito datos de encuestas. Para Argentina, en total, junté 138 encuestas de 24 encuestadoras, entre 2003 y 2015 (cuatro elecciones). Dado que no puedo hacer un pronóstico sin información de elecciones previas, usé la elección de 2003 solo como proxy, y la descarté. Estas son las encuestadoras que finalmente usé para hacer el pronóstico:

Analogías, ARESCO, Bendix, Carlos Fara y Asociados, CEIS, CEOP, Consultora Equis, Crónica, Funedutra, Giacobbe y Asociados, González y Valladares, Graciela Romer y Asociados, Hugo Haime y Asociados, Ipsos Mora y Araujo, Isonomía, Management y Fit, Nueva Comunicación,Opinión Autenticada,OPSM, Poliarquía, Polldata, Prisma, Raúl Aragón y Asociados,Ricardo Rouvier y Asociados.

***

Luego, mire cómo le fue a cada una de estas encuestas en tres elecciones (sin 2003). Para esto tome la diferencia absoluta entre el pronóstico para cada uno de los candidatos y el resultado final. Los cuadros de abajo resumen los últimos 90 días de las encuestas. Muestran que las encuestas de 2007 estuvieron mejores que las encuestas de 2011 y 2015; pero también muestran que su ajuste (gradiente de caída) fue más rápida.


*


*


***

Pero, ¿cómo le fue al pronóstico en comparación a las encuestas? La Tabla de abajo muestra que en las tres elecciones el pronóstico fue superior a las encuestas. Tuvo un error promedio absoluto menor. Mientras que en la elección de 2011 anduvo impresionantemente bien, en la elección de 2007 falló por casi 6 puntos. En cualquier caso, su fortaleza fue haber producido señal en un ciclo electoral caracterizado por ruido.


***

La Tabla de abajo muestra lo mismo, pero por candidato. De los 13 candidatos (muestro solo los más “importantes”), el pronóstico produjo un resultado más preciso para todos salvo uno (Massa en 2015). En cualquier caso, la superioridad del pronóstico se nota en el margen de diferencia. Quizás para algunos puede parecer bajo, pero sigue siendo suficiente para decidir elecciones; sobre todo en las elecciones de Argentina (que tienen 2 umbrales para decidir ganadores).


***

Ahora, ¿quién va ganar la elección presidencial de 2019? Bueno, es pronto para saber, considerando que aun no se celebran las PASO. Pero, de igual modo, se puede simular una distribución de preferencias (e intervalos de credibilidad) usando el modelo de dos etapas. (El pronóstico se hizo usando datos de 14 encuestadoras, y 15 encuestas). La Tabla de abajo muestra cuál sería el resultado de la elección si los candidatos fueran los siguientes:


***

Las Figuras de abajo muestran los detalles para los primeros cuatro candidatos. De las cuatro metafiguras (dentro de cada Figura), la más interesante es el histograma, que muestra la probabilidad de obtener cierto porcentaje de votos para cada candidato. Si la elección fuera hoy, ganaría la dupla Fernández, pero no obtendrían la suficiente cantidad de votos para ganar en primera vuelta. Es ahí donde entra la matemática y la capacidad de formar coaliciones.


*



*



*


***

Para comentarios, preguntas o correcciones, me pueden contactar en @kennethbunker.

1 comentario:

Anónimo dijo...

me aterran los 38 puntos de macri.
viste artemio en el noticiero la jubilada que le entregó los dolares a un delincuente que la engañó?
me aterran las votantes jubiladas.
No se abrá equivocado Evita en darles voto a las viejas...