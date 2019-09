Veja também:

É uma frase estafada: "As sondagens valem o que valem." Na verdade, tudo vale o seu valor - nem mais nem menos. No caso das sondagens, pergunta-se: mas quanto valem?

"O principal problema de uma sondagem normal é a amostra ser pequena", diz Luís Aguiar-Conraria, professor da Escola de Economia e Gestão da Universidade do Minho (UMinho).

Aguiar-Conraria tem estudado "o valor" das sondagens, ou seja, a sua fiablildade. Em 2015, integrou uma equipa de especialistas que desenvolveu um método de agregação de sondagens a partir de vários estudos de opinião.

Agora, em véspera de Legislativas, Conraria colaborou com a Renascença num trabalho que usa os dados de todas as sondagens realizadas nos últimos dois anos para chegar a uma previsão mais segura dos resultados de 6 de outubro.

O que ganhamos em agregar os resultados das sondagens?

O principal problema de uma sondagem normal é a amostra ser pequena. Os jornais e os meios de comunicação social não têm muito dinheiro para encomendar sondagens com 10 mil respondentes. Uma sondagem normal em Portugal tem amostras de cerca de 500/600 pessoas. Isso traduz-se em grandes margens de erro, e isso é um problema.

Mas, se pensarmos bem, se tivermos dez sondagens, cada uma a 500 pessoas, temos uma grande sondagem com cinco mil pessoas. Claro que isto não é absolutamente rigoroso - empresas diferentes usam metodologias ligeiramente diferentes, há possibilidade da mesma pessoa responder a mais de que uma sondagem - mas, grosso modo, se juntarmos várias pequenas sondagens, temos uma grande sondagem. Do que precisamos é de uma forma inteligente de juntar isso tudo para tentar reduzir as margens de erro elevadas associadas às sondagens com pequenas amostragens.

O agregador de sondagens da Renascença usa um filtro estatístico, o filtro de Kalman, para fazer essa junção. Como funciona este método?



Imaginemos o seguinte caso: uma sondagem dá 37% ao PS e outra, publicada cinco dias depois, dá 43% ao mesmo PS.

Há duas explicações possíveis para esta variação: uma é que se trata, simplesmente, do erro amostral. Simplesmente porque a amostra é diferente, aleatória e pode ter acontecido, no primeiro dia, ter havido menos gente do PS a responder e no segundo dia mais. Mas há outra possibilidade, que é a de que a opinião publica se tenha mesmo alterado e que, de facto, as intenções de voto no PS tenham aumentado. Como é que distinguimos os dois efeitos? É difícil.

Se eu fizesse uma mera média entre os dois valores das sondagens, aquilo que estava, implicitamente, a admitir era que as pessoas não tinham mudado de opinião [e que essa variação entre valores se deveu à amostragem]. Já se eu considerar o contrário - que é o que geralmente se faz no comentário político -, ou seja, que, de facto, num dia a intenção de voto era de 37% e noutro dia era 43%, nesse caso estou a admitir é que a volatilidade da opinião pública é muito grande.

O filtro de Kalman dá-nos uma forma de conseguir estimar e distinguir estes dois efeitos, ou seja, distinguir o que é evolução da opinião pública do que é a variabilidade amostral.

Imaginemos que as sondagens estão estabilizadas num determinado nível e que, de repente, há uma sondagem muito diferente. O filtro de Kalman vai dar pouco peso a essa sondagem e dizer-nos “isto é um acidente estatístico, é o caso de uma amostra, acontece”. Já se, depois, houver mais sondagens em linha com esse valor muito diferente, o filtro de Kalman irá dar mais peso a essas sondagens

Basicamente, é uma forma inteligente de fazer uma média das sondagens que existem, usando toda a informação disponível.

No entanto, este método usa informação do passado. Não corremos o risco de ter sondagens com erro estatístico a “infetar” a previsão final do filtro?

Vamos ser pragmáticos: a resposta é sim, infeta. A questão é saber se infeta de uma forma relevante ou não. Com este método, se houver uma sondagem que é uma completa loucura e não é sustentada pelas que vêm a seguir, essa “infeção” é mínima.

A título de exemplo, quando fizemos a análise pela primeira vez codificamos, por engano, a CDU como tendo 80% em vez de 8%. Isso fez o valor da previsão ter subido de 8% para 16%. Mas o impacto que essa sondagem tinha no valor final da previsão, tendo outras sondagens correctas a seguir, era de 0,001 - ou seja, depois de arredondarmos os números, não nos aperceberíamos de nada.

Portanto, uma coisa tão extraordinária como ter uma sondagem a dar 80% à CDU tinha um impacto, umas sondagens depois, quase nulo.

Significa isto que, com este algoritmo, conseguimos ter um valor próximo daquilo que será o resultado das eleições?

A resposta é: não sei.

O que prometemos é que agregamos toda a informação disponível nas sondagens da melhor forma possível. Agora, se as sondagens estiverem sistematicamente enviesadas, isto que estamos a fazer também vai ser.

Se fizermos uma omelete com ovos estragados, por melhor que seja o cozinheiro, a omelete vai estar estragada. Aqui aplica-se o mesmo princípio. Portanto, não há qualquer forma de garantir isso.

O que podemos garantir é que, do ponto de vista estatístico, esta é uma das melhores formas de agregar as sondagens . Isto é o resultado de um projeto de investigação, o POPSTAR, liderado pelo Pedro Magalhães. Sabemos que funciona bem e que segue os melhores padrões internacionais de agregação de sondagens.

O resultado é decidio pelos eleitores. Não por nós.

O que é que faz de uma sondagem uma boa sondagem?

O que faz uma boa sondagem é as pessoas terem noção das suas limitações.

É evidente que quanto maior for uma amostra mais exata vai ser. Por isso é que as sondagens à boca das urnas estão quase todas certíssimas, porque a amostra é de 20 e tal mil pessoas. Isso e porque é diferente responder a "em quem é que votou?" ou a "em quem vai votar?".

Mas o que importa perceber é que uma sondagem bem feita com amostras que são sempre relativamente pequenas face à população, vai ter uma variabilidade grande.

Quando eu digo que, para uma sondagem feita com 500 pessoas, em que o verdadeiro valor é 40% e que tem um intervalo de confiança de 95% - ou seja, que vai de 35,6% a 44,4% - o que eu estou a dizer é que uma em cada 20 sondagens que sejam feitas de forma tecnicamente perfeita vai ficar fora deste intervalo.

É, por isso, perfeitamente normal que nas muitas sondagens que haja apareça uma que dê 34% quando, depois, a votação é 40%. E isso não é de forma alguma indicador de que a sondagem foi mal feita. Pelo contrário: se calhar, é o indicador de que as pessoas estão a ser honestas.

Nos EUA, houve uma empresa de sondagens que levantou suspeitas precisamente porque os seus resultados eram muito certinhos e pouco variáveis.

Uma crítica que se ouve recorrentemente é que a maioria das sondagens são feitas por telefone fixo, o que, automaticamente, direciona as questões para um determinado tipo de eleitorado. Que solução há?

Não há boas soluções. A melhor é ir para rua e apanhar as pessoas.

Sondagens online são solução?

Online também têm um enviesamento enorme. Numa das últimas sondagens do ICS/ISCTE, uma das perguntas era sobre como as pessoas se informavam. Apenas 2% disse que ia ao Twitter buscar informação política. Portanto, quando se fala do online, costuma falar-se de pequeníssimas sub-amostras, que, muitas vezes, pouca adesão têm à realidade.

Há uns tempos, fiz um estudo com o Pedro Magalhães e o Miguel Maria Pereira em que analisamos a performance das sondagens em Portugal, ao longo de vários anos. Não encontramos nada de sistemático relativamente à questão da amostragem: ou seja, entre sondagens que foram feitas porta-a-porta, por telefonema ou de outras formas, nenhuma mostrou uma maior capacidade preditiva.

Sempre que há eleições ouvimos algum político dizer "as sondagens valem o que valem". É mesmo assim?

As sondagens valem o que valem. Estou totalmente de acordo com isso.

Agora, o que as sondagens nos dão é a melhor forma possível de medir a opinião pública sem ter de perguntar a todas as pessoas.

Há uma teoria matemática por trás das sondagens que nos permite calcular aqueles intervalos de confiança. Se olharmos para os intervalos de confiança, vemos, claramente, que eles são grandes. O que quer dizer que quando uma sondagem dá 20% ao PSD, é perfeitamente normal que o resultado seja 24%. Mas quando todas as sondagens dão 20% ao PSD, isso já quer dizer alguma coisa. Agora também é verdade que por qualquer motivo as pessoas podem estar a mentir. E se houver algum motivo concreto que leve as pessoas a não quererem declarar publicamente que votam no Rui Rio, por exemplo, então ele vai aparecer desvalorizado nas sondagens.

Imaginemos que o eleitorado do PSD está chateado com o partido e diz “não vou votar”. Mas, no dia da eleição, à espera que o PSD vá ter 21%, como diziam as sondagens, esse eleitorado pensa “mais vale ir votar para o partido não ter uma hecatombe”. Aí, se calhar, o partido tem 25% em vez de 21%.

Portanto, eu concordo com a ideia de que as sondagens valem o que valem e concordo com a ideia de que as sondagens não substituem a votação final. Aquilo em que eu não acredito é que as sondagens tenham grande impacto na opinião pública. Ou, reformulando, até admito que tenham um impacto na opinião publica, mas não de forma previsível.

Não é porque as sondagens dão um resultado mau a Rui Rio que ele vai ter um resultado pior do que o que teria na realidade. Se calhar, tem efeito contrário. Tem o efeito de, eventualmente, até aumentar a votação que teria na realidade. E isto não é previsível.

Por isso, sim, as sondagens valem o que valem. Senão, não valia a pena fazer eleições.