Com eleições à porta multiplicam-se as sondagens, os estudos de opinião e as análises políticas. Depois da vitória de Carlos Moedas em Lisboa, nas autárquicas de setembro, reacendeu-se o debate sobre a fiabilidade dos estudos de opinião e projeções eleitorais.

O que terá corrido mal nas sondagens das autárquicas, cuja estimativa contrariou o real resultado da eleição do presidente da Câmara Municipal de Lisboa? E como garantir que não se repete nas legislativas? Há quem atire a culpa para os indecisos e quem, como o líder do PSD, Rui Rio, acuse as casas de sondagens de “vigarice”.

“Para nós sabermos qual é a resposta a essa pergunta precisaríamos de estudar, precisaríamos de fazer um estudo pós-eleitoral”, explica Luís Aguiar-Conraria.

O professor e investigador da Escola de Economia e Gestão da Universidade do Minho, que em 2015 integrou uma equipa de especialistas responsável pelo desenvolvimento de um método de agregação de sondagens a partir de vários estudos de opinião, defende que só assim seria possível identificar a origem do erro.

"Uma coisa é perguntar à pessoa, dois dias antes, em quem é que vai votar. Outra coisa é perguntar em quem é que votou, dois dias depois. Se isto fosse feito, seria possível saber se a amostra foi mal constituída e se, de facto, aquilo em que estas pessoas votaram não correspondeu ao resultado nacional, ou se realmente todos os indecisos votaram, por exemplo, no Carlos Moedas”, esclarece o académico.

A pouco mais de um mês das legislativas, a Renascença recupera a Sondagem das Sondagens, publicada pela primeira vez em 2019, num trabalho realizado com o apoio de Luís Aguiar-Conraria, que procura agregar todas as sondagens dos últimos dois anos para chegar à melhor estimativa dos resultados das eleições de 30 de janeiro de 2022.

Diz-se que as sondagens são meras fotografias instantâneas, que nos dão a imagem do momento em que foram realizadas, mas não devem ser interpretadas como uma projeção do futuro. Quase como olhar para um espelho retrovisor. Concorda com esta visão?

Essa visão é corretíssima. Uma sondagem, se for perfeita, o que nos dá é uma fotografia de um determinado momento. Se for perfeita e nenhuma sondagem é perfeita, porque não consegue ter uma amostra verdadeiramente aleatória.

Por exemplo, se a entrevista for feita por telefone, estão sobrerrepresentadas as pessoas que têm telemóvel, se for uma sondagem feita através de entrevistas na rua, estão sobrerrepresentados os desempregados. Portanto, há sempre problemas associados à constituição da amostra de uma sondagem e é impossível fugir a eles.

Mas mesmo que não existissem problemas nenhuns, que a sondagem fosse perfeita, ela seria sempre uma representação, uma fotografia tirada naquele momento. Portanto, projeções para daqui a uma semana, ou para daqui a um mês, ou para daqui a dois meses só partindo do pressuposto que as pessoas não mudam de opinião e claro que esse pressuposto está errado.

Aliás, se nós acreditássemos que as pessoas não mudam de opinião nem precisaríamos do período de campanha eleitoral e não precisaríamos de todo esse folclore de que eu gosto, associado a eleições democráticas.

Nesse caso, que elementos nos permitem avaliar a qualidade de uma sondagem? Isto é, apontar que sondagens são melhores ou piores, se é que isso é possível.

A esta distância não é possível. Se uma sondagem dá por exemplo 38% ao PS e outra sondagem lhe atribui 33%, se daqui a dois meses o resultado for 38% [para o Partido Socialista] isso não quer dizer que a sondagem que deu hoje 38% fosse a correta. Não quer, simplesmente. Por isso é que temos as margens de erro associadas. Não há volta a dar.

Claro que quando nós nos aproximamos da data das eleições - e na última semana ou nas últimas duas semanas temos muitas sondagens - aí, de facto, já nos estamos a aproximar tanto da data da eleição que a fotografia começa a corresponder mais ao que se vai verificar no dia da eleição. Certezas absolutas nunca temos.

No caso de uma sondagem à boca das urnas. Aí sim, podemos comparar a sondagem à boca das urnas com o resultado eleitoral. E se foi diferente, a sondagem foi mal feita.

Agora nas sondagens feitas durante a campanha, nunca se tem a certeza absoluta. Mas é evidente que uma sondagem que está muito diferente do resultado final, uma pessoa tenderá a dizer que se enganou.

E se olharmos para as sondagens das autárquicas, no caso particular da Câmara de Lisboa, qual diria que é a justificação para a diferença entre as projeções e o resultado final? A culpa é dos indecisos ou dos institutos responsáveis por cada estudo?

Para nós sabermos qual é a resposta a essa pergunta precisaríamos de estudar, precisaríamos de fazer um estudo pós-eleitoral. O que é que seria um estudo bem feito a este nível? Seria, por exemplo, algumas das empresas que fazem sondagens pré-eleitorais manterem e guardarem o contato das pessoas que participaram nas sondagens e depois contactá-las dois ou três dias após as eleições, para saber o que se passou.

Porque uma coisa é perguntar à pessoa, dois dias antes, em quem é que vai votar. Outra coisa é perguntar em quem é que votou, dois dias depois. E se isto fosse feito, seria possível saber se a amostra foi mal constituída e se, de facto, aquilo em que estas pessoas votaram não correspondeu ao resultado nacional.

Nesse caso, se a amostra foi mal constituída, seria necessário fazer correções, como por exemplo alterar o mapa de freguesias onde se realizam as entrevistas ou arranjar outros critérios para telefonar às pessoas, para escolher os números telefone.

Outra possibilidade, é confirmar-se que realmente todos os indecisos votaram, por exemplo, no Carlos Moedas. E, nesse caso, as sondagens estavam certas, simplesmente os indecisos nos últimos minutos, ou nas últimas horas, ou nos últimos dias decidiram votar Carlos Moedas. Nesse caso, a sondagem estava corretíssima. Nós é que a lemos mal, porque distribuímos os indecisos por todos os partidos. Se calhar, o erro foi esse. Isso não é um erro da sondagem, a sondagem estaria certa.

Portanto, nós saberíamos qual é a fonte do erro, mas só fazendo estes estudos pós-eleitorais. O problema é que em Portugal, que eu saiba, não há dinheiro para isso. As sondagens são encomendadas pelos "media" e depois, à posteriori, nunca os "media" encomendam um estudo para perceber de onde é que vieram os erros das sondagens.

E já há países onde se fazem esses estudos pós-eleitorais?

No outro dia, a falar com o Pedro Magalhães, que é um dos responsáveis por uma das casas de sondagens, ele disse-me que no Brexit se fez isso. Portanto, fizeram-se estudos pós-eleitorais para perceber o que é que tinha corrido mal com aquelas sondagens pré-Brexit.

O que é um agregador de sondagens e porque é que é útil, nesta fase?

Durante a campanha eleitoral, é muito comum um jornal fazer notícia de uma sondagem, como se essa não fosse apenas uma de quatro, cinco ou seis sondagens que foram feitas nos últimos dias.

E cada sondagem, em si mesma, tem associada uma margem de erro, que é tanto maior quanto mais pequena for a amostra. Portanto, uma sondagem feita a 600 pessoas terá uma margem de erro máxima de cerca de 4 pontos percentuais para cima e para baixo - com um intervalo total de oito pontos percentuais.

É natural que uma pessoa pergunte: "quando sai uma sondagem destas porque é que eu devo olhar só para esta sondagem sem ter em atenção as outras todas?" Isto é apenas mais uma peça de informação.

Ora, se percebermos isto, que uma sondagem é apenas mais uma peça de informação, entendemos que faz sentido procurar saber qual é a atual tendência. Qual é que é a fotografia atual, tendo em conta as várias fotografias? E nesse caso temos de encontrar uma forma de juntar toda a informação das sondagens.

No nosso agregador utilizamos o filtro de Kalman.

Como funciona o filtro de Kalman?

Imaginemos dois extremos. As sondagens vão saindo ao longo do tempo e, se nós admitirmos que a opinião pública vai variando ao longo do tempo, então podemos dizer que as últimas sondagens são mais importantes do que as primeiras.

Também podemos dizer que quanto maior é a amostra usada na sondagem, à partida mais correta estará essa sondagem. Portanto, poderíamos considerar dois extremos, duas formas extremadas de olhar para isto: uma que é simplesmente olhar para a última sondagem e esquecer todas as outras. Isso é o que eu acho que não devemos fazer.

Outra hipótese seria, por exemplo, calcular uma média das sondagens ou, eventualmente, uma média ponderada pelo tamanho das amostras das várias sondagens. E aí também estaríamos a ser estúpidos, porque é evidente que uma sondagem feita hoje é mais relevante e capta mais a opinião pública atual do que uma sondagem feita há seis meses ou há três meses. Se esquecermos completamente a dimensão temporal, ignoramos o facto da opinião pública poder ir mudando ao longo do tempo.

O filtro de Kalman é uma forma ótima de juntar as sondagens, que nos ajuda a encontrar um ponto intermédio, em que para cada partido tentamos perceber, quando há uma nova sondagem, o que é que na nova sondagem se deverá a um possível erro amostral e o que é que poderá ser resultado de uma verdadeira alteração da opinião pública.

Por exemplo, imagine que o Partido Socialista tem durante várias sondagens consecutivas 38% e, de repente, vem uma nova sondagem que lhe dá 45%. Quer dizer, à partida isso é um salto tão grande que, se calhar, se deverá a uma mera coincidência, um mero erro amostral. Ou seja, a amostra foi mal constituída, por um erro de forma aleatória. Não estou a dizer que a casa de sondagens trabalhou mal, simplesmente, temos ali um valor muito anormal.

Neste caso, o filtro de Kalman vai dar pouco peso a esta sondagem. Portanto, vai reconhecer que o PS aumentou a votação, se calhar, em vez de 38% vai prever 39%, mas de forma alguma vai atribuir 45% ao PS. Vai admitir que uma variação tão grande se deve, essencialmente, a um erro amostral. Claro que se depois houver uma segunda e uma terceira sondagem que deem 45% ao PS, então aí, o nosso estimador vai aproximar-se dos 45%.

Ou seja, o nosso filtro é essencialmente um filtro estatístico que permite pesar de forma ótima, sobre determinados pressupostos estatísticos, aquilo a que se deve a uma variação da opinião pública, que nós verdadeiramente não conhecemos, e o que poderá ser devido a um erro amostral, que existe sempre.

Neste agregador consideramos os resultados das últimas legislativas, que deram a vitória ao PS. De que forma é que esta decisão influencia ou não o resultado da estimativa para as próximas eleições?

Não influencia. Não tem grande impacto. As eleições legislativas já foram há dois anos e nós temos que definir um ponto de partida, ou seja, o momento a partir do qual começamos a estudar.

Faz sentido começar a estudar, não a partir de uma sondagem, mas do resultado das eleições, porque se começamos com uma sondagem, verdadeiramente não sabemos o que as pessoas pensam, só conhecemos a sondagem.

Ao partirmos dos últimos resultados das legislativas, sabemos que neste dia, em 2019, era isto que as pessoas queriam. Ali não há erro amostral, temos a população toda que foi às urnas e votou. Depois, a partir daí é que é que vamos trabalhando.

Agora que já estamos a dois anos de distância, se chegássemos aqueles valores iniciais [resultado das últimas legislativas] e alterassem os valores, as previsões hoje em dia seriam quase iguais. Não tem impacto relevante.

Para além dessa alteração, temos o acréscimo de três novos partidos: Iniciativa Liberal, Chega e Livre. De que forma é que esta adição alterou ou não a metodologia e que impacto tem nas contas do agregador?

Aplicamos exatamente a mesma metodologia. Agora, isso traz-nos problemas adicionais. Quando nós tínhamos os partidos anteriores, sem estes três, os partidos tradicionais como o Bloco de Esquerda, a CDU e o CDS, que eram os menos votados, apesar de tudo, estavam muito longe do zero. Portanto, não havia o perigo de os nossos intervalos de confiança baterem no zero.

Agora quando consideramos partidos que nas sondagens aparecem com 0,5% ou 1% de estimativa pontual, ao pormos o intervalo de confiança em cima disso, muito facilmente vamos apanhar valores negativos. Como é impossível haver votações negativas, travamos o resultado no zero.

Seria possível calcular os intervalos usando uma fórmula exata que não incluísse o zero, mas, honestamente, seria trabalho a mais para um ganho demasiado pequeno. A prática comum é simplesmente parar ali, no zero.

Essa é a principal consequência de incluímos os pequenos partidos: a dificuldade de lidar com votações muito baixinhas.

A Sondagem das Sondagens não faz uma estimativa de número de mandatos por partido. Porquê?

Nós não fazemos estimativas de mandatos, porque para fazer uma boa estimativa de mandatos precisaríamos que as sondagens fossem feitas por distritos. Não nos podemos esquecer que o nosso agregador a única coisa que faz é juntar as sondagens. Se as sondagens são feitas a nível nacional, dão-nos uma percentagem nacional e não conseguimos ter mais do que isso.

Claro que se fossemos “obrigados” a apresentar uma estimativa, com alguns pressupostos, conseguíamos fazer estimativas. Poderíamos ver quais são as tendências nacionais e pressupor que as variações dos distritos eram proporcionais às nacionais. Mas isso seriam péssimas estimativas. Já seria mais perto de uma bola de cristal do que uma medida objetiva da opinião pública.

Nas últimas legislativas, o resultado final das eleições esteve muito próximo das estimativas deste agregador. Isso dá-lhe uma confiança redobrada neste modelo de projeção?

Não. Nós só estamos mesmo a agregar sondagens e podemos argumentar que é uma forma muito boa de juntar sondagens. Mas é só isso. Por exemplo, noutros países é comum, quando se faz isto, fazer correções onde se considera que, se uma determinada casa de sondagens costuma prejudicar aquele partido, se faz uma correção ao estimador. Nós não fazemos nada disso. Nós só usamos os valores das sondagens e juntamo-las de forma ótima.

Portanto, se as sondagens estiverem próximas dos resultados finais, o nosso agregador vai estar próximo dos resultados finais. Vamos, simplesmente, filtrar o ruído causado por tantas sondagens que são feitas ao mesmo tempo. Há uma sondagem que dá 36% ao PS, outra que dá 40%, outra que dá 37% e nós conseguimos apanhar ali o ponto central, que será o ponto provável. Se as sondagens não prestarem, o nosso agregador não presta.

Nesse caso, se utilizássemos este agregador aplicado às sondagens para as autárquicas, no caso da Câmara de Lisboa, não teríamos previsto a vitória de Carlos Moedas?

Sim. O resultado previsto pelo nosso agregador seria bastante diferente do resultado final e nós não teríamos previsto a vitória de Carlos Moedas. O nosso agregador é, simplesmente, a combinação ótima das várias sondagens que foram feitas.