Liens transversaux haut
Le traitement des 90 millions de questionnaires du recensement (60 millions de bulletins individuels et 30 millions de bulletins pour les logements) puis la diffusion des résultats se déroulent en 3 grandes étapes : d’abord le dénombrement, ensuite les deux exploitations statistiques, principale puis complémentaire.
Le dénombrement consiste à dénombrer les individus et les logements. Réalisé en 1999, il a permis d’obtenir les chiffres de population pour tous les échelons géographiques (les « populations légales »). Ces statistiques, combinées avec les statistiques d’état-civil (naissances et décès), décrivent les évolutions de population (les « évolutions démographiques ») .
Après le dénombrement, viennent les exploitations statistiques. À partir des imprimés (essentiellement le bulletin individuel, la feuille de logement et le dossier d’immeuble collectif ) remplis par la population ou l’agent recenseur, l’Insee procède aux exploitations statistiques.
Ces imprimés sont saisis par des façonniers extérieurs.
L’Insee procède ensuite au codage automatique des questions (par exemple transformer un libellé de commune en code) et aux traitements statistiques nécessaires pour obtenir un fichier de données individuelles anonymes « propre » (imputation des valeurs manquantes, redressements, recodification) pour préparer la diffusion des résultats.
Les exploitations statistiques s’effectuent en deux temps de manière à mettre à disposition, le plus rapidement possible, l’essentiel des résultats : l'exploitation principale et l'exploitation complémentaire.
La première exploitation statistique dite " principale " (ex-exploitation " légère ") est exhaustive, c'est-à-dire qu'elle traite la totalité des bulletins individuels et des feuilles de logement.
Les résultats de cette exploitation principale correspondent au traitement de la plupart des critères d'étude sur tous les bulletins.
Les résultats socio-économiques qui s'en dégagent peuvent être classés en 12 thèmes :
La seconde exploitation statistique dite " complémentaire " (ex-exploitation " lourde ") permet d'affiner les caractéristiques de l'emploi et de procéder à l'analyse détaillée de la composition des ménages et des familles.
Ces variables sont plus complexes à obtenir, c'est pourquoi l'exploitation complémentaire procède par sondage en métropole. Les départements d'outre-mer et certaines zones de métropole sont traitées exhaustivement (voir l'item " Tirage des échantillons ").
Les résultats socio-économiques qui s'en dégagent peuvent être classés en 13 thèmes :
Si l’exploitation principale est exhaustive, et donc significative à tous les échelons géographiques, l’exploitation complémentaire procède, en revanche, par sondage au quart (à l’exception de certaines zones traitées à l’exhaustif) et ne fournit des résultats significatifs que sur des zones géographiques d’une certaine taille (voir « précision des résultats »).
Le processus statistique de calcul de variables (codification, redressements...) est identique pour les 2 exploitations : principale et complémentaire.
En conséquence, une différence observée entre une valeur à l'exploitation principale et cette même valeur à l'exploitation complémentaire est-elle dûe uniquement à la différence de taux de sondage entre ces deux exploitations
Les seules variables modifiées entre les deux exploitations sont les suivantes :
Le sondage au quart réalisé pour l’exploitation complémentaire est un tirage systématique, sur fichier trié, d’une unité sur quatre. Cette méthode donne des résultats similaires à un tirage stratifié sur les mêmes critères de tri.
Le tirage s'applique sur les logements pour les ménages et assimilés et les logements vides, et sur les individus pour les communautés et assimilés.
Pour les ménages et assimilés, les enregistrements sont triés selon 5 critères :
Pour les logements vides, les enregistrements sont triés sur le département et la commune.
Pour les communautés et assimilés, le tirage d'individus est réalisé sur un fichier trié selon la commune, le type de communauté et la date de naissance.
Certaines zones géographiques traitées à l'exhaustif ont été intégrées à l'échantillon de l'exploitation complémentaire. Il s'agit plus particulièrement des départements d'outre-mer, des deux départements de la Corse, de quelques communes et de certaines zones infra-communales (petites Zones Urbaines Sensibles et certains îlots).
La liste ci-dessous précise les zones (hors compléments démographiques [1]) qui ont été traitées de façon exhaustive à l’exploitation complémentaire :
[1] Les districts concernés par une enquête associée au recensement (Enquêtes "Etude de l’Histoire Familiale" et "Vie Quotidienne et Santé"). Les ménages ou individus (pour les communautés), hors exploitation complémentaire, faisant partie des échantillons démographiques, EDP (échantillon démographique permanent) ou MDCS (Mortalité différentielle par catégorie socioprofessionnelle) ont été traités mais ne font pas partie de la diffusion du RP99.
Quels que soient les efforts employés lors de la collecte, les questionnaires du recensement présentent des imperfections dues à des causes diverses : unités non recensées, personnes recensées deux fois, absence de réponse à certaines questions, réponses inexactes. Ces imperfections affectent surtout les unités se trouvant dans une situation complexe ou marginale. En outre, certaines erreurs de traitement ont pu se produire lors de l'opération de saisie-chiffrement.
L'existence de ces imperfections, inhérentes à toute opération statistique, ne doit pas être oubliée même si elles ne ressortent pas clairement de l'examen des résultats, puisque, lors de la codification, on a pu corriger des incompatibilités et, dans certains cas, attribué une valeur plausible aux variables non renseignées.
Dans le cas des résultats tirés de l'exploitation complémentaire, il s'ajoute une incertitude due à l'échantillonnage.
La théorie des sondages permettrait d'estimer la précision de chaque donnée, pour chacune des méthodes utilisées, à condition de procéder à des tabulations complexes pour chacune d'elles. Dans des études expérimentales, on a pu constater le bien fondé de la théorie avec des simulations qui en précisent les indications.
L'incertitude sur un total est essentiellement fonction de l'effectif à estimer ; on peut ainsi, en première approximation, prendre comme intervalle de confiance à 95 % (un tel intervalle a 95 chances sur 100 de recouvrir le résultat que donnerait un dépouillement exhaustif) :
, arrondi à 
Le tableau ci-dessous donne les intervalles de confiance ainsi calculés pour quelques valeurs de x :
| Intervalle de confiance à 95% | |
| Résultat | 1/4 |
| 1 000 000 | 996 000 - 1 004 000 |
| 100 000 | 98 700 - 101 300 |
| 10 000 | 9 600 - 10 400 |
| 1 000 | 870 - 1 130 |
| 100 | 60 - 140 |
Il y a lieu de remarquer que les petits nombres peuvent être entachés d'une erreur relative très importante. Néanmoins, ils peuvent être maintenus dans les tableaux, car cela rend possible d'éventuels regroupements, ainsi que des recoupements entre tableaux différents.
Le bulletin individuel porte sur l’état civil (sexe, âge, état matrimonial, nationalité), le lieu de naissance, le lieu de résidence au dernier recensement, la formation (niveau d’études et diplômes), la profession et les déplacements (domicile-travail).
La feuille de logement décrit les caractéristiques du logement (année de construction, nombre de pièces, surface du logement, nombre de salles d’eau, mode de chauffage, statut d’occupation, année d’emménagement, existence d’un parking, nombre de voitures...).
Elle permet de dresser également la liste des occupants du logement.
Le dossier d’immeuble collectif permet de caractériser l’immeuble : année de construction, nombre d’étages, nombre de logements, existence de chauffage collectif, d’un ascenseur, d’un système de sécurité à l’entrée de l’immeuble, présence d’un gardien...
Les questionnaires ont été conçus pour être simples à remplir et ont été testés préalablement au recensement pour vérifier la bonne compréhension des questions par le public
Liens transversaux bas