Les sondages ne se valent pas tous
- Serge Cannasse
- Actualités professionnelles
Les résultats de très nombreux sondages nous sont proposés quasi quotidiennement. Mais tous ne se valent pas. Sur le blog de l’Insee (Institut national de la statistique et des études économiques), trois statisticiens expliquent qu’un sondage de qualité obéit aux règles du calcul des probabilités. Le but est de « résumer une information complexe caractérisant une population » et non encore disponible en mesurant des grandeurs numériques (appelées paramètres d’intérêt) agrégeant des données individuelles. Cette “information complexe” va être obtenue par une enquête utilisant la théorie des sondages.
La première étape est de bien préciser le périmètre de cette population (appelé champ de l’enquête) à partir des paramètres d’intérêt pertinents. Par exemple, l’évaluation du taux de chômage doit évidemment exclure les moins de 15 ans.
Travailler à partir de tous les individus de cette population représenterait un coût exorbitant. C’est pourquoi les statisticiens procèdent par échantillonnage. Celui-ci est susceptible de deux types d’erreurs. Le biais d'échantillonnage fait que l’échantillon n’est pas pleinement représentatif de la population étudiée. La variance d'échantillonnage caractérise la dispersion des résultats autour de la moyenne.
Différentes méthodes permettent de les diminuer. Elles font appel à des techniques d'échantillonnage fondées sur la base de données utilisée. Il s’agit là d’une différence essentielle entre les méthodes employées par les organismes publiques, qui disposent de bases de données très complètes (fiscales, sociales, issues des recensements, etc), et les nombreux instituts privés qui procèdent par enquêtes où l’échantillon est déterminé sur le terrain (par exemple, participation basée sur le volontariat ou la disponibilité des sondés) : dans ce cas, le risque de biais est majeur. C’est pourquoi l’Insee ne les utilise presque jamais.
En revanche, les informations fournies par les bases de données permettent de corriger les biais d'échantillonnage selon des techniques précises (par exemple, pour éviter la surreprésentation d’une catégorie de la population étudiée). L’une d’elles consiste à donner à chaque individu sondé un « poids » multipliant les valeurs de ses réponses. Il est égal à l’inverse de sa probabilité de sélection.
La variance d'échantillonnage est calculée selon des méthodes issues de la théorie des sondages. Elles tiennent notamment compte des non répondants ou des répondants partiels. La variance permet de déterminer un intervalle de confiance, qui donne l’intervalle des valeurs dans lequel la valeur correcte a de très fortes chances de se trouver pour une proportion donnée de l’échantillon. En général, cette proportion est de 95%.
Point important : cet intervalle de confiance ne peut être calculé que si l’échantillon n’a pas de biais. En toute rigueur, cela implique que seules les méthodes probabilistes (celles utilisées par l’Insee) peuvent le déterminer. L’intervalle de confiance est également précisé par des techniques dites de redressement, qui ont souvent recours à des données extérieures à la base de sondage utilisée.
La rigueur des enquêtes de l’Insee est par ailleurs garantie par un Comité du Label, composé de membres n’appartenant pas à l’Institut et chargé d’examiner « la conformité des pratiques à l’état de l’art pour chaque enquête ».
Malheureusement, l’accès à l’intégralité de cet article est reservé uniquement aux professionnels de santé disposant d’un compte.
Vous avez atteint la limite d'articles par visiteur
Inscription gratuite Disponible uniquement pour les professionnels de santé