Twitter Données publiées sur Data.gouv.fr RSS

L’Open Data peut-il améliorer la sécurité routière ?

Vous allez finir par le savoir mais j’adore l’Open Data. Même si, cela n’a rien à voir avec des données personnelles non anonymisées, chose que l’on a pas fini de rappeler, c’est quand même un peu notre quantified self collectif : Un outil de connaissance et de décision par excellence.

Dans le cadre de l’OpenDataCamp organisé par Etalab et Devoxx du 16 avril dernier, j’ai participé à l’atelier portant sur la réutilisation du jeu de données concernant les accidents corporels survenus de 2006 à 2011 inclus. Celui-ci était fourni en CSV, mais dans une variante non standard, ce qui empêchait de le charger directement dans le SGBD choisi pour l’occasion (Postgresql + Postgis). Notre petit groupe a donc perdu beaucoup de temps à rendre cela possible, ce qui fait que nous en avons eu trop peu pour analyser vraiment le contenu. Partis pour faire la moyenne de l’indice de gravité par départements et par communes, cela se révéla finalement être peu signifiant en réalité. Mais l’objet d’un BarCamp n’est-il pas aussi de susciter des suites ? De toutes façons, une seule journée n’aurait jamais suffit tant ce jeu de données est riche en enseignements.

Je suis donc resté sur ma faim à l’issue de l’évènement mais avec plein d’idées pour tenter de faire parler ces données. Ayant découvert le sujet en même temps que le jeu de données et au risque de porter des conclusions sans aucun recul, j’ai préféré fournir un moyen d’explorer les données.

Voir la carte en plein écran

Qualité des données

Pour rendre possible la réalisation de cet outil, il a fallu vérifier un tant soit peu les données et leur qualité. Première chose, les données ne sont pas horodatées, à minima il faudrait fournir les dates puisqu’une indication sur la luminosité est fournie. Une indication sur la cause des accidents telle que vitesse, alcool, etc. serait souhaitable également lorsque c’est possible. Ensuite, les référentiels utilisés par les différents collecteurs de ces données ne sont pas toujours à jour. On constate par exemple que différents millésimes du COG sont utilisés. Ce qui n’est pas très étonnant certes à l’échelle de la France mais on trouve tout de même des codes INSEE n’ayant plus cours depuis 1973. Sont présents également des codes postaux en guise de codes INSEE et cela majoritairement sur Paris. Ville pour laquelle il a été facile de corriger, une fois dissipé le doute quant à l’utilisation d’un COG datant d’avant 1968 par la préfecture (à l’époque 75001 était le code INSEE d’Alfortville, etc.) grâce à l’analyse des noms de rues. Pour les villes à arrondissements, seul le cas de Marseille dont la majorité des accidents étaient attribués au code INSEE général de la ville (13055) n’a pas pu être traité dans cette granularité.

À la fin des diverses corrections effectuées en France métropolitaine, il reste seulement 419 accidents sur 440 695 qui n’ont pas pu être pris en compte dans l’outil. Bien entendu, j’ai fait remonter toutes les anomalies constatées via la fonction de signalement de Data.Gouv.fr (qui encourage cette interaction entre société civile et administrations) ainsi qu’en produisant une liste des collecteurs posant soucis. Nul doute que la mise en Open Data de ces données va permettre d’améliorer les choses à ce niveau.

Agrégation par libellés de voies et types d’intersections

Au delà de la visualisation de la somme de l’indice de gravité par villes, qui augmente forcément avec le trafic sur les différentes voies, j’ai choisi de faire une agrégation de leurs libellés et types d’intersections pour déceler les voies les plus problématiques. Étant entendu que la période analysée est 2006-2011 et que les accidents ne sont pas non plus datés précisément, il est impossible d’observer si des améliorations ont été apportées par d’éventuels aménagements ayant étés réalisés depuis. Au moins, et c’est ce qui importe, les connaissances locales des élus et des habitants devraient pouvoir pallier cet inconvénient s’ils souhaitent se saisir de l’outil. Les libellés, lorsqu’ils sont présents, ne sont pas toujours homogènes mais un moyen de les filtrer est fourni grâce à DataTables.


filtrer avec datatables

Et après ?

Plusieurs pistes se présentent. Grâce à Etalab, des données plus complètes sur le trafic et les zones de vigilance devraient être ajoutées bientôt. Pour l’instant seul la fréquentation du réseau national non concédé en 2011 est présente. Les emplacements des radars fixes vont également être ajoutés (sans certitude de pouvoir obtenir les dates de mises en service) afin de voir si leurs emplacements sont pertinents. Et enfin, je dois permettre l’accès aux données brutes non agrégées par voies (100 259 accidents possèdent des coordonnées géographiques plus précises encore non exploitées) ainsi que les types de véhicules impliqués afin de rendre possible une analyse locale encore plus fine. Bien sûr j’attends également que les dates et causes soient ajoutées par le Ministère de l’Intérieur aux données initiales, mais bref, cette application évoluera donc au fil des idées et des données publiques mises à disposition.

Si tout cela vous inspire d’autres idées, n’hésitez donc pas à me le faire savoir !

Un pad recensant les idées est disponible ici

Télécharger

Base de données des accidents corporels de la circulation 2006-2011

Municipales 2014 – Territoires conquis selon les nuances politiques

Mise à jour du 08/04/14 : La carte présente désormais le détail des élus. Les données des élus ont été enrichies avec les nuances, têtes de listes, codes INSEE, etc. et sont mises à disposition en bas de cette page.

Les municipales 2014 ont été pour moi l’occasion de travailler sur les données électorales fournies par le Ministère de l’Intérieur. En effet, cette fois ci, on peut dire qu’ils ont bien fait les choses en ouvrant l’accès à leurs flux XML, ce qui était d’habitude réservé aux grands médias. Je me suis donc occupé de faciliter l’accès à ces données en les mettant à la disposition de la communauté au format CSV.

Nuances politiques des listes élues au premier et second tour

Tout d’abord, il convient d’éclaircir un point. Les nuances politiques des élus des communes de moins de 1 000 habitants ne sont pas connues, d’ailleurs le plus souvent, elles n’en ont tout simplement pas. Leur mode de scrutin est dit « Majoritaire ». Ces petites communes sont 27 014 et représentent 9.5M d’habitants. Les 9 848 communes de plus de 1 000 habitants quant à elles représentent 58M de français, ce sont donc celles-ci qui sont étudiées ici.

Les couleurs politiques retenues sont celles des listes majoritaires élues au premier et deuxième tour. Cette carte sera rendue « clickable » par la suite pour apporter plus de détails, ce billet sera mis à jour.

Voir la carte en plein écran

Population et surface des territoires

Il est assez difficile de représenter des valeurs à la fois très hautes et très basse grâce à des graphiques basiques. Le « meilleur » compromis a été de mettre à part les valeurs concernant les communes de moins de mille habitants.


Note : 9 466 954 français résident dans les communes de moins de 1000 habitants

.


Note : Les communes de moins de 1000 habitants représentent 349 260,60 km2

Télécharger les données enrichies

La mention obligatoire d’attribution doit être « Licence ODbL © IdeesLibres.org 04/2014, Ministère de l’Intérieur 04/2014 » avec les liens indiqués lors d’une publication en ligne.

Élus municipaux 2014

Nos candidats aux municipales 2014, nuances, prénoms et patronymes

Mise à jour du 22/03 19h : ajout du fichier du 21/03

En supplément des données publiées sur Data.gouv.fr, le Ministère de l’Intérieur fournit également des données plus complètes au format XML sur son site. Je me suis donc occupé d’en faire une version CSV. L’Intérieur ayant communiqué sur les chiffres temporaires le 06 mars dernier (926 068 candidats), je me suis fait confirmer que le nombre de candidats obtenu du XML était bien exact : 932 464 candidats au 15 mars. On m’a également prévenu de quelques modifications/corrections à venir. Effectivement une mise à jour a eu lieu le 17 mars vers 16h (932 465 candidats), et une autre aujourd’hui même à midi. Le nombre de candidats se porte désormais à 932 405.

Premier constat, les données sont de bien meilleure qualité que celles de 2008. Les raisons en sont qu’à l’époque les candidats des communes de moins de 3 500 habitants n’avaient pas l’obligation de se déclarer préalablement en préfecture et que de nouveaux formulaires Cerfa éditables par ordinateur ont étés élaborés depuis. De meilleures sources donc et de surcroît un important travail de vérification et mise en cohérence sur la plupart des variables aurait été réalisé.

Télécharger les versions complètes :
Intitulés des colonnes disponibles
Candidats au 21 mars 2014
Candidats au 20 mars 2014
Candidats au 17 mars 2014
Candidats au 15 mars 2014
Ces fichiers étant volumineux (167Mo chacun une fois décompressés), n’espérez pas les ouvrir avec un tableur classique. Un SGBD est requis.
Licence et attribution.

Les nuances politiques

La récente polémique sur l’attribution des nuances politiques a engendré quelques changements.

Nb au 15/03 Nb au 20/03 Différence
Total 932 464 932 405 -59
Moins de 1 000 habitants 406 349 406 354 5
Liste Divers droite 152 014 149 035 -2 979
Liste Divers gauche 110 720 108 610 -2 110
Liste Divers 80 285 86 629 6 344
Liste Union de la Gauche 30 209 30 288 79
Liste Socialiste 29 872 29 339 -533
Liste Union pour un Mouvement Populaire 23 740 23 046 -694
Liste Union de la Droite 21 115 21 143 28
Liste Front National 20 218 20 191 -27
Liste Front de Gauche 12 801 13 739 938
Liste Union Démocrates et Indépendants 13 472 13 384 -88
Liste Extrême gauche 12 877 12 809 -68
Liste Europe-Ecologie-Les Verts 5 471 5 334 -137
Liste du Parti communiste français 5 127 4 678 -449
Liste Modem 2 890 2 848 -42
Liste Union du Centre 2 406 2 377 -29
Liste du Parti de Gauche 2 123 1 826 -297
Liste Extrême droite 775 775 0

Télécharger le nuancier et ses définitions
Nuancier politique du Ministère de l’Intérieur

Parité

Genre Nb %
Masculin 532 490 57
Féminin 399 915 43

Graphique sur la parité

Les prénoms les plus représentés par genre

Le fichier des conseillers municipaux qu’on m’avait fourni précédemment comportait les dates de naissances des élus mais aussi quelques incohérences dans celles-ci (principalement dans les communes de moins de 3500 habitants : la faute au mode de collecte de l’époque).

Les dates de naissance des candidats n’étant mises à disposition nulle part, il reste les prénoms pour se faire une idée.

1 Michel 17498 Isabelle 9006
2 Philippe 14987 Nathalie 8588
3 Alain 14497 Catherine 8587
4 Christian 10975 Sylvie 8319
5 Patrick 10711 Martine 7141
6 Bernard 10641 Françoise 6937
7 Daniel 9918 Christine 6721
8 Jean-Pierre 9105 Valérie 5682
9 Christophe 8999 Véronique 5431
10 Pierre 8729 Sandrine 5329
11 Gérard 8576 Chantal 4766
12 Pascal 8376 Monique 4660
13 Thierry 8299 Brigitte 4441
14 Laurent 7965 Sophie 4406
15 Jacques 7635 Nicole 4387
16 Eric 7474 Patricia 4382
17 Claude 7311 Laurence 4191
18 Jean-Claude 7170 Stéphanie 4183
19 Dominique 7067 Annie 4076
20 Frédéric 7029 Dominique 3978
21 Didier 7009 Céline 3892
22 Olivier 6422 Corinne 3851
23 Stéphane 6407 Anne 3739
24 Jean 5986 Christelle 3603
25 François 5900 Florence 3384
26 David 5574 Michèle 3267
27 Sébastien 5549 Marie 3052
28 Bruno 5456 Virginie 3028
29 André 5418 Jacqueline 2946
30 Nicolas 5262 Christiane 2875
31 Gilles 5066 Nadine 2873
32 Serge 4979 Béatrice 2808
33 Jean-Luc 4962 Anne-Marie 2801
34 Marc 4912 Hélène 2787
35 Guy 4907 Karine 2754
36 Yves 4460 Elisabeth 2733
37 Jean-Paul 4420 Evelyne 2672
38 Denis 4372 Pascale 2661
39 Jérôme 4178 Claudine 2543
40 Jean-Louis 4135 Danielle 2514
41 Vincent 3999 Fabienne 2487
42 Francis 3970 Delphine 2397
43 Jean-François 3962 Cécile 2383
44 Joël 3879 Caroline 2309
45 Hervé 3872 Marie-Christine 2213
46 Franck 3828 Carole 2196
47 Jean-Michel 3806 Annick 2184
48 Patrice 3733 Agnès 2104
49 Jean-Marie 3623 Séverine 2077
50 Jean-Marc 3491 Bernadette 2017

Télécharger les fichiers des prénoms
Tous les prénoms
Tous les prénoms par département
Ceux des conseillers actuels sont disponibles en bas de cette page.
Licence et attribution.

Les patronymes les plus représentés

Conseillers élus en 2008 Candidats 2014
1 MARTIN 1782 MARTIN 3101
2 BERNARD 1061 BERNARD 1695
3 PETIT 901 PETIT 1511
4 THOMAS 879 THOMAS 1416
5 DURAND 851 RICHARD 1337
6 RICHARD 800 ROBERT 1328
7 DUBOIS 798 DUBOIS 1317
8 LAURENT 778 DURAND 1297
9 MOREAU 709 LAURENT 1227
10 ROBERT 708 SIMON 1215
11 MICHEL 703 MOREAU 1164
12 SIMON 684 MICHEL 1137
13 LEROY 655 LEFEBVRE 1125
14 LEFEBVRE 597 LEROY 1099
15 BERTRAND 594 FOURNIER 983
16 GIRARD 579 ROUX 951
17 ROUX 570 BERTRAND 951
18 MOREL 564 LAMBERT 911
19 FOURNIER 544 MOREL 904
20 LAMBERT 538 GIRARD 866
21 BONNET 535 VINCENT 863
22 DUPONT 528 GARCIA 853
23 ROUSSEAU 522 DUPONT 846
24 VINCENT 516 DAVID 830
25 GARNIER 514 BONNET 812
26 LEFEVRE 507 ROUSSEAU 798
27 DAVID 501 BLANC 794
28 MERCIER 493 FAURE 780
29 FAURE 493 GARNIER 779
30 BLANC 484 MERCIER 773
31 GUERIN 475 LEFEVRE 770
32 MULLER 474 PERRIN 760
33 MATHIEU 469 LEGRAND 760
34 HENRY 467 HENRY 757
35 ROUSSEL 467 ROUSSEL 756
36 GAUTHIER 467 DUVAL 742
37 PERRIN 464 GAUTHIER 741
38 ANDRE 463 MULLER 729
39 CLEMENT 458 CHEVALIER 727
40 LEGRAND 438 FONTAINE 718
41 FRANCOIS 424 ROBIN 709
42 DUVAL 421 MORIN 706
43 ROBIN 418 MASSON 705
44 MORIN 405 MATHIEU 692
45 GARCIA 404 GUERIN 668
46 CHEVALIER 403 MARTINEZ 667
47 MASSON 401 NICOLAS 665
48 GERARD 385 BOYER 648
49 GAUTIER 385 GAUTIER 634
50 BLANCHARD 380 DUFOUR 631

Télécharger les fichiers des patronymes
Candidats :
Tous les patronymes
Tous les patronymes par département
Conseillers municipaux actuels :
Tous les patronymes
Tous les patronymes par département

Licence

La mention obligatoire d’attribution doit être « Licence ODbL © IdeesLibres.org 03/2014, Ministère de l’Intérieur 03/2014 » avec les liens indiqués lors d’une publication en ligne.

Les prénoms de nos conseillers municipaux

Mise à jour du 09/03/2014 : ajout du fichier « Tous les prénoms ».

Fin 2013, j’ai demandé au Ministère de l’Intérieur de me fournir un export des conseillers municipaux contenus dans le répertoire national des élus (la majorité des variables étant communicables au public). Malheureusement, les données qui m’ont été fournies, ne permettent pas de reconstituer les conseils municipaux à un instant « T » et ne contiennent pas les élus parisiens. J’attends toujours des nouvelles pour obtenir la base complète horodatée (exempte des variables non communicables bien sûr) que l’on m’a promis suite à plusieurs échanges il y a quelques mois…

En effet, les conseils municipaux subissent souvent des modifications dans leurs compositions (démissions, changements de fonctions, décès, etc) et à l’échelle de la France, ils représentent plus d’un demi-million d’élus. Les analyses pouvant être faites sont nombreuses puisque le fichier de l’Intérieur est censé contenir toutes personnes ayant occupé à un moment ces fonctions durant la mandature actuelle (dernières élections municipales de 2008 à nos jours, mandat de 6 ans).

Sans horodatage, les statistiques pouvant être produites avec le fichier qui m’a été fourni sont donc à interpréter comme représentatives de la population ayant accédé à la représentation municipale durant cette période plutôt que concernant la composition des conseils municipaux à un instant « T » en prenant en compte les limitations énoncées plus bas.

La non-présence des élus parisiens étant un problème (554 élus dont 517 en activité), je me suis attelé à reconstituer leur liste via différentes sources. Cela a été un peu fastidieux comme vous pouvez l’imaginer mais grâce aux différents sites des mairies d’arrondissement et Wikipedia, j’ai pu reconstituer les informations dont j’avais besoin. Bien sûr, je n’ai pas pu récolter autant de variables que le Ministère de l’Intérieur. Le nombre d’élus municipaux étudiés se porte donc à 526 989.

Les prénoms les plus représentés par genre

1 Michel 14136 Catherine 4389
2 Alain 10646 Françoise 4334
3 Philippe 9903 Isabelle 4295
4 Bernard 8992 Sylvie 4197
5 Christian 8102 Martine 4094
6 Daniel 7821 Nathalie 3942
7 Gérard 7009 Christine 3637
8 Jean-Pierre 6945 Monique 3005
9 Patrick 6884 Chantal 2835
10 Pierre 6711 Nicole 2798
11 Claude 6386 Véronique 2583
12 Jacques 6171 Annie 2479
13 Jean-Claude 5952 Valérie 2458
14 Pascal 5452 Brigitte 2405
15 Thierry 5341 Patricia 2096
16 Eric 5232 Michèle 2050
17 Jean 5227 Dominique 2046
18 Dominique 4959 Sandrine 1966
19 André 4918 Laurence 1925
20 Didier 4834 Jacqueline 1866
21 Christophe 4830 Corinne 1846
22 Laurent 4540 Christiane 1805
23 François 4286 Nadine 1694
24 Guy 4153 Sophie 1688
25 Gilles 3635 Anne 1678
26 Serge 3618 Anne-Marie 1670
27 Jean-Paul 3547 Evelyne 1639
28 Yves 3497 Elisabeth 1608
29 Olivier 3459 Florence 1552
30 Frédéric 3450 Claudine 1544
31 Bruno 3416 Béatrice 1477
32 Jean-Luc 3361 Christelle 1426
33 Denis 3307 Danielle 1392
34 Francis 3196 Pascale 1385
35 Stéphane 3166 Annick 1300
36 Jean-Louis 3155 Bernadette 1296
37 Marc 3107 Céline 1235
38 Robert 2876 Hélène 1221
39 Jean-Marie 2863 Stéphanie 1218
40 René 2857 Fabienne 1174
41 Joël 2798 Marie-Christine 1169
42 Jean-François 2772 Colette 1167
43 Jean-Michel 2595 Mireille 1151
44 Hervé 2436 Maryse 1122
45 Patrice 2419 Jocelyne 1118
46 David 2406 Geneviève 1117
47 Roger 2340 Marie-Claude 1102
48 Sébastien 2294 Marie-Thérèse 1067
49 Jean-Marc 2276 Agnès 1063
50 Gilbert 2242 Josiane 1058

Parité

Genre Nb %
Masculin 342 264 65
Féminin 184 725 35

Graphique sur la parité

Le prénom le plus représenté dans chaque département

Code Département Prénom Genre Nombre Conseillers municipaux du département Population départementale 2006 * Pourcentage de conseillers selon 2006 * Population départementale 2011 * Pourcentage de conseillers selon 2011 *
01 Ain Michel M 159 6353 566740 1,12 603827 1,05
02 Aisne Michel M 228 9843 537061 1,83 541302 1,82
03 Allier Michel M 111 4267 343309 1,24 342729 1,25
04 Alpes-de-Haute-Provence Alain M 66 2529 154501 1,64 160959 1,57
05 Hautes-Alpes Michel M 71 2175 130752 1,66 138605 1,57
06 Alpes-Maritimes Michel M 68 3066 1073184 0,29 1081244 0,28
07 Ardèche Michel M 120 4690 306238 1,53 317277 1,48
08 Ardennes Michel M 158 5500 285653 1,93 283110 1,94
09 Ariège Alain M 100 3811 146289 2,61 152286 2,50
10 Aube Michel M 157 5137 299704 1,71 303997 1,69
11 Aude Michel M 136 5351 341022 1,57 359967 1,49
12 Aveyron Michel M 116 4104 273377 1,50 275813 1,49
13 Bouches-du-Rhône Michel M 75 3358 1937405 0,17 1975896 0,17
14 Calvados Michel M 295 9443 671351 1,41 685262 1,38
15 Cantal Michel M 122 3176 149682 2,12 147577 2,15
16 Charente Michel M 145 5320 347037 1,53 352705 1,51
17 Charente-Maritime Michel M 179 6935 598915 1,16 625682 1,11
18 Cher Michel M 106 4035 314675 1,28 311694 1,29
19 Corrèze Michel M 110 3634 240363 1,51 242454 1,50
21 Côte-d’Or Michel M 246 8473 517168 1,64 525931 1,61
22 Côtes-d’Armor Michel M 190 5990 570861 1,05 594375 1,01
23 Creuse Michel M 113 3124 123401 2,53 122560 2,55
24 Dordogne Michel M 206 7066 404052 1,75 415168 1,70
25 Doubs Michel M 186 7317 516157 1,42 529103 1,38
26 Drôme Michel M 122 5005 468608 1,07 487993 1,03
27 Eure Michel M 251 8538 567221 1,51 588111 1,45
28 Eure-et-Loir Michel M 174 5638 421114 1,34 430416 1,31
29 Finistère Michel M 132 5533 883001 0,63 899870 0,61
2A Corse-du-Sud Antoine M 54 1493 135718 1,10 145846 1,02
2B Haute-Corse Antoine M 77 2838 158400 1,79 168640 1,68
30 Gard Michel M 152 5759 683169 0,84 718357 0,80
31 Haute-Garonne Michel M 212 8268 1186330 0,70 1260226 0,66
32 Gers Michel M 151 5217 181375 2,88 188893 2,76
33 Gironde Michel M 228 8866 1393758 0,64 1463662 0,61
34 Hérault Michel M 164 5780 1001041 0,58 1062036 0,54
35 Ille-et-Vilaine Michel M 169 6375 945851 0,67 996439 0,64
36 Indre Michel M 117 3296 232959 1,41 230175 1,43
37 Indre-et-Loire Michel M 127 4347 580312 0,75 593683 0,73
38 Isère Michel M 204 8458 1169491 0,72 1215212 0,70
39 Jura Michel M 198 6286 257399 2,44 261294 2,41
40 Landes Michel M 133 4680 362827 1,29 387929 1,21
41 Loir-et-Cher Michel M 160 4174 325182 1,28 331280 1,26
42 Loire Michel M 128 5046 741269 0,68 749053 0,67
43 Haute-Loire Michel M 102 3495 219484 1,59 224907 1,55
44 Loire-Atlantique Michel M 123 5004 1234085 0,41 1296364 0,39
45 Loiret Michel M 157 5253 645325 0,81 659587 0,80
46 Lot Michel M 110 4081 169531 2,41 174754 2,34
47 Lot-et-Garonne Michel M 144 4265 322292 1,32 330866 1,29
48 Lozère Michel M 66 2144 76800 2,79 77156 2,78
49 Maine-et-Loire Michel M 143 5407 766659 0,71 790343 0,68
50 Manche Michel M 290 7827 492563 1,59 499531 1,57
51 Marne Michel M 220 7654 565841 1,35 566571 1,35
52 Haute-Marne Michel M 138 4763 187652 2,54 182375 2,61
53 Mayenne Michel M 96 3761 299000 1,26 307031 1,22
54 Meurthe-et-Moselle Michel M 212 7861 725302 1,08 733124 1,07
55 Meuse Michel M 158 5553 193696 2,87 193557 2,87
56 Morbihan Michel M 155 4987 694821 0,72 727083 0,69
57 Moselle Alain M 203 10358 1036776 1,00 1045146 0,99
58 Nièvre Michel M 122 3946 222220 1,78 218341 1,81
59 Nord Michel M 324 12647 2565257 0,49 2579208 0,49
60 Oise Philippe M 263 9689 792975 1,22 805642 1,20
61 Orne Michel M 205 5945 292879 2,03 290891 2,04
62 Pas-de-Calais Michel M 326 12964 1453387 0,89 1462807 0,89
63 Puy-de-Dôme Michel M 175 6417 623463 1,03 635469 1,01
64 Pyrénées-Atlantiques Michel M 216 7318 636849 1,15 656608 1,11
65 Hautes-Pyrénées Michel M 138 4496 227736 1,97 229228 1,96
66 Pyrénées-Orientales Jean M 79 2938 432112 0,68 452530 0,65
67 Bas-Rhin Bernard M 182 8219 1079016 0,76 1099269 0,75
68 Haut-Rhin Michel M 135 6094 736477 0,83 753056 0,81
69 Rhône Michel M 141 5883 1669655 0,35 1744236 0,34
70 Haute-Saône Michel M 192 6191 235867 2,62 239695 2,58
71 Saône-et-Loire Michel M 244 7715 549361 1,40 555999 1,39
72 Sarthe Michel M 194 5638 553484 1,02 565718 1,00
73 Savoie Michel M 119 4497 403090 1,12 418949 1,07
74 Haute-Savoie Michel M 114 5224 696255 0,75 746994 0,70
75 Paris Catherine F 11 554 2181371 0,03 2249975 0,02
76 Seine-Maritime Michel M 274 10809 1243834 0,87 1251282 0,86
77 Seine-et-Marne Michel M 229 9038 1273488 0,71 1338427 0,68
78 Yvelines Michel M 144 5625 1395804 0,40 1413635 0,40
79 Deux-Sèvres Michel M 107 4438 359711 1,23 370939 1,20
80 Somme Philippe M 262 9712 564319 1,72 571211 1,70
81 Tarn Michel M 132 4327 365335 1,18 377675 1,15
82 Tarn-et-Garonne Michel M 76 2749 226849 1,21 244545 1,12
83 Var Alain M 96 3360 985099 0,34 1012735 0,33
84 Vaucluse Michel M 68 2748 534291 0,51 546630 0,50
85 Vendée Michel M 116 4981 597185 0,83 641657 0,78
86 Vienne Michel M 121 4208 418460 1,01 428447 0,98
87 Haute-Vienne Michel M 90 3043 367156 0,83 376058 0,81
88 Vosges Michel M 209 6414 379975 1,69 378830 1,69
89 Yonne Michel M 169 5887 340088 1,73 342463 1,72
90 Territoire de Belfort Alain M 35 1458 141201 1,03 143348 1,02
91 Essonne Michel M 97 4385 1198273 0,37 1225191 0,36
92 Hauts-de-Seine Catherine F 32 1480 1536100 0,10 1581628 0,09
93 Seine-Saint-Denis Michel M 26 1578 1491970 0,11 1529928 0,10
94 Val-de-Marne Alain M 36 1840 1298340 0,14 1333702 0,14
95 Val-d’Oise Alain M 88 3938 1157052 0,34 1180365 0,33
971 Guadeloupe Jacques M 12 951 400736 0,24 404635 0,24
972 Martinique Georges M 9 1019 397732 0,26 392291 0,26
973 Guyane Jean M 6 415 205954 0,20 237549 0,17
974 La Réunion Marie F 10 981 781962 0,13 828581 0,12
975 Saint-Pierre-et-Miquelon Karine F 3 47 6125 0,77 6080 0,77
976 Mayotte Fatima F 21 586 8256 7,10 9035 6,49
987 Polynesie Francaise Charles M 10 999 259706 0,38 268207 0,37
988 Nouvelle-Caledonie Pierre M 11 891 230789 0,39 245580 0,36

Sources population : INSEE, population légale, sauf Polynésie française ISPF 2007, 2012 et Nouvelle-Calédonie ISEE 2004, 2009

Télécharger les données

Tous les prénoms
Tous les prénoms par département
Correspondance code et nom des départements

La mention obligatoire d’attribution doit être « Licence ODbL © IdeesLibres.org 03/2014, Ministère de l’Intérieur 09/2013 » avec les liens indiqués lors d’une publication en ligne.

Limitations des données étudiées

  • Couverture temporelle du 09/03/2008 au 30/09/2013.
  • Les formulaires de candidatures (ou de modification) servant à alimenter cette base de données pouvant être remplis de manière manuscrite, il existe des erreurs de retranscription.
  • Lorsque les personnes ont des prénoms composés ou indiquent tous leurs prénoms, il n’est pas possible de le distinguer automatiquement (syntaxe non homogène) sans faire quelques choix arbitraires (que je n’ai pas fait).
  • Les différentes orthographes possibles des prénoms (avec ou sans accents, etc.) font qu’il est difficile de trancher entre erreurs de saisies et variantes. Les erreurs les plus grossières repérées ont été corrigées (liste des corrections sur demande).
  • Le genre renseigné semble pertinent dans l’ensemble, mais pas non plus exempt d’erreurs selon quelques vérifications manuelles.
  • DROM-COM : Dans les données fournies, il manque Wallis-et-Futuna (986), Saint-Barthélemy (977) et Saint-Martin (978).
  • Sept prénoms n’étaient pas renseignés : quatre hommes et deux femmes à Mayotte (code dpt 976) et un homme dans la Somme (code dpt 80), ils sont comptés et laissés vides dans le fichier pour permettre le calcul du nombre d’élus par départements et celui sur la parité.

Ces différentes raisons peuvent introduire un biais dans les classements réalisés. Les prénoms les plus répandus remontant naturellement dans les classements, pour chaque départements, il convient tout de même d’examiner attentivement les données avant d’exclure les prénoms les moins répandus pour arbitrer les éventuelles erreurs restantes, spécialement lorsque les écarts sont faibles.

Carte des codes postaux reconstituée grâce à Service-Public.fr

30/12/13 16h30 : Ajout d’un calque représentant les codes postaux dans OpenStreetMap pour comparer.

Un jeu de données libre, complet et à jour des codes postaux n’existe pas vraiment actuellement. L’utilité d’un tel fichier ne saute pas aux yeux, et pourtant, ce besoin se fait sentir régulièrement et particulièrement pour la cartographie. À chaque fois que j’ai besoin de géolocaliser des informations au niveau d’une ville, j’utilise un jeu de données qui contient les noms de villes, les codes INSEE, les numéros et les noms de départements que j’indexe dans un Solr (moteur de recherche libre) d’une manière un peu particulière afin de limiter le taux d’erreur, pour l’interroger ensuite avec les informations déterminantes de chacune des lignes du jeu de données à traiter.

Le préalable pour utiliser cette technique est que les noms de villes et les numéros ou noms de départements soient présents dans le jeu de données à géolocaliser (cela m’a servi pour la réserve parlementaire et certains décrets par exemple), le résultat est que les informations ressortent ensuite associées à leur code INSEE. S’il y a plusieurs résultats, l’outil tente une égalité sur les noms de villes en les normalisant et indique la liste complète des couples codes INSEE/noms de villes possibles en cas d’échec. Même si cela fonctionne plutôt bien, cela peut donc demander pas mal de vérifications manuelles sur des jeux de données volumineux et/ou anciens.

Pour les marchés publics (voir section « L’information à posteriori »), l’information code postal des prestataires est présente mais pas toujours avec le nom de leur ville. Pour réaliser la même opération, il faut donc disposer des correspondances codes INSEE/codes postaux. Ce besoin s’étant fait sentir également (à des fins de vérification) sur la liste de discussion française d’OpenStreetMap, je me suis donc amusé à regarder ce qu’on pouvait reconstituer via les codes postaux des adresses des organismes présents sur Service-Public.fr (fichier mis à jour pour l’occasion) et les codes INSEE liés en excluant les CEDEX.

On y trouve 6 383 codes postaux concernant 37 356 communes (France métropolitaine et outre mer). Ce premier résultat n’est pas mauvais mais il est incomplet et comporte quelques erreurs provenant des codes INSEE des villes sièges associés à certains organismes (exemple: une adresse utilise 21800 en code postal et est référencée par le code INSEE de Dijon), il parait néanmoins possible de détecter ces cas avec le fichier des correspondances ci dessous et ce sera ma prochaine étape. Ce qu’il y a de bien avec l’Open Data c’est que chacun peut améliorer, ne vous gênez donc pas si cela vous intéresse (histoire de ne pas faire le même travail chacun dans son coin, je veux bien être tenu au courant par mail ou twitter, les commentaires étant désactivés sur ce blog pour cause de spam et de changement de moteur de blog imminent).

La source officielle pour ce genre d’information est la Poste (avouez que vous vous en doutiez), mais ils ne fournissent pas encore ce fichier librement. Le seul moyen de vérification officiel fourni est donc un formulaire sur leur site, avec des CGU peu propices au scraping. Vivement que la Poste nous permette d’arrêter ces acrobaties en libérant plus de choses…

Voir la carte en plein écran

Les zones entourées par un trait noir sur fond vert représentent l’agrégation des communes du Geofla de l’IGN utilisant le même code postal. Les zones plus vertes sont celles ou plusieurs codes postaux sont utilisés (et contiennent certains des cas cités plus haut). Des traits fins et verts représentent les limites communales du Geofla. Les « trous » sont les communes ou l’information du code postal est manquante. Il est possible de combler ces manques avec ce fichier (dont les codes postaux sont issus de Wikipedia). À noter qu’un petit bug d’affichage des labels sur la carte me fait penser qu’il est temps que je mette à jour ma version de Geoserver.

Télécharger les données (licence ODbL © IdéesLibres.org, DILA 2013, IGN Geofla 2012) :

(Tous les polygones sont en EPSG 4326).

Vous souhaitant de bonnes fêtes de fin d’année !


Base de données géolocalisée des administrations françaises

Service-Public.fr

Annuaire de l’administration sur Service-public.fr 22/04/13

Mise à jour du 06/05/13 : précisions sur les organismes non représentés.

Libérée sous Licence Ouverte il y a à peine plus d’un an et mise à jour très régulièrement depuis, cette base de données contient actuellement 59 348 services publics géolocalisés avec leurs horaires (86%) et les adresses de leurs sites internet (95%) entre autres informations utiles (au moment d’écrire ces lignes, la version date du 28/03/13). Rien que pour cela, celle ci est déjà des plus intéressantes mais ce n’est pas tout…

Provenance des données

Sur 1 540 éditeurs, les deux plus importants en terme de volume sont la Documentation française (49%) et la DILA (38.6%). Viennent ensuite le Ministère de l’intérieur (6.7%) et le Ministère de la Justice (3%), les 2.7% restants provenant des guichets eux mêmes à l’exception notable du Conseil Régional de Lorraine qui semble centraliser les coordonnées des EPCI sur son territoire.

Historique et fraîcheur des informations

Rien ne permet de juger de la période d’apparition d’un établissement dans la base mais les dates de mises à jour sont présentes pour chacun d’eux ce qui est bien suffisant pour nous renseigner :

Année de mise à jour établissements
2002 1
2003 97
2004 1040
2005 356
2006 616
2007 6040
2008 245
2009 841
2010 808
2011 21187
2012 10403
2013 17714

Détail pour cette année :

Mois de mise à jour (2013) établissements
Janvier 10046
Février 4913
Mars 2755

On constate donc que le projet est bien vivant, et même particulièrement actif ce premier trimestre avec quasiment autant d’éditions que durant l’année 2012 uniquement pour le mois de janvier.

Qualité de la géolocalisation

En complément des codes insee et adresses physiques présentes pour chaque établissement, on dispose des coordonnées géographiques accompagnées d’une indication de précision les concernant. La documentation technique nous fournit l’information suivante :

La précision est un entier compris entre 0 et 9 qui indique la précision avec laquelle l’adresse a été géocodée ou géolocalisée. Nous utilisons les mêmes valeurs que Google Maps : http://code.google.com/apis/maps/documentation/reference.html#GGeoAddressAccuracy. Les valeurs inférieures strictement à 4 ou égales à 5 ne doivent pas être positionnées sur une carte, car trop imprécises. Note : la localisation de niveau 5 (code postal) est en France moins bonne qu’une localisation au niveau 4 (commune).

Concrètement :

Niveau de Précision établissements Définition (source)
0 443 Unknown location.
1 1 Country level accuracy.
2 10 Region (state, province, prefecture, etc.) level accuracy.
3 2 Sub-region (county, municipality, etc.) level accuracy.
4 13094 Town (city, village) level accuracy.
5 17 Post code (zip code) level accuracy.
6 28787 Street level accuracy.
7 88 Intersection level accuracy.
8 15587 Address level accuracy.
9 1319 Premise (building name, property name, shopping center, etc.) level accuracy.

Il n’y a pas d’explication sur l’origine de l’information en elle même mais si on part du principe qu’il n’y a que l’échelle des niveaux de précision qui a été empruntée à google, en l’état les niveaux de précisions 8 et 9 sont utilisables. Ce qui nous fait 28.5% de la base. Cela donne des envies de crowdsourcing pour cet été, en plus des adresses textuelles, les niveaux 6 et 7 pourront faciliter grandement la tâche.

Un inventaire des services publiques en France ?

Au vu des efforts récents de centralisation des informations dans ce fichier, il est fort probable que l’on n’en soit pas loin pour les services concernés par cette base. Ce document (daté du 29/01/13) peut aider à se faire une opinion : liste des types d’organismes; par recoupement, il nous permet de connaître les services qui ne sont pas concernés par cette mise à disposition.

Non présent dans la base
Agence de l’eau
Agence départementale d’insertion
Agence régionale de santé (ARS)
Conseil départemental d’accès au droit
Centre départemental de documentation pédagogique
Conseil économique, social et environnemental régional
Centre en route de la navigation aérienne
Conseil de la culture, de l’éducation et de l’environnement
Chambre régionale ou territoriale des comptes
Centre régional de documentation pédagogique
Centre régional d’éducation populaire et de sports (CREPS)
Centre ou délégation régionale de recrutement et de formation de la police nationale
Direction de l’aviation civile
Direction du contrôle fiscal
Droit des femmes et égalité, mission départementale
Direction départementale des finances publiques
Direction territoriale de la protection judiciaire de la jeunesse
Direction départementale ou service de la sécurité publique
Direction interdépartementale des routes
Direction régionale des entreprises, de la concurrence, de la consommation, du travail et de l’emploi
Direction interrégionale de la mer
Météo France, direction interrégionale
Direction interrégionale de la police judiciaire
Délégation régionale aux droits des femmes et à l’égalité
Direction régionale des finances publiques
Direction régionale et interdépartementale de l’équipement et de l’aménagement (DRIEA)
Unité territoriale de la DRIEA
Direction régionale et interdépartementale de l’environnement et de l’énergie (DRIEE)
Unité territoriale de la DRIEE
Direction régionale et interdépartementale de l’hébergement et du logement (DRIHL)
Unité territoriale de la DRIHL
Délégation régionale de l’INSEE
Direction régionale de la jeunesse, des sports et de la cohésion sociale
Délégation régionale de l’ONISEP
Direction interdépartementale ou régionale de la protection judiciaire de la jeunesse
Délégation régionale à la recherche et à la technologie
Direction interrégionale des services pénitentiaires
Direction des services fiscaux
Direction zonale de la police aux frontières
Direction régionale de l’Office national des forêts
Préfecture de région
Service territorial de l’architecture et du patrimoine
Service de la navigation
Secrétariat général pour l’administration de la police (SGAP)

Pour la plupart de ces organismes, on comprend aisément leur absence d’un annuaire public (usage inter-administrations). Néanmoins pour certains comme les Préfectures de région c’est moins évident, et si le critère d’extraction de la base principale de Service-Public.fr est la portée territoriale, c’est donc possiblement une erreur.  A noter que les Ministères, Institutions ou autres Autorités indépendantes et Centres d’appel et de contact ne sont pas non plus représentés, c’est un peu dommage mais c’est relativement normal, puisqu’il s’agit de la « Base de données locales v2″.

Voyons maintenant ce que nous avons :

établissements Nombre
Agence de l’environnement et de la maîtrise de l’énergie (ADEME), réseau local 26
Agence départementale pour l’information sur le logement (ADIL) 105
Association nationale pour la formation professionnelle des adultes (AFPA), réseau local 381
Association de gestion du fonds pour l’insertion des personnes handicapées (AGEFIPH) 20
Agence nationale de l’habitat (ANAH), réseau local 101
Association pour l’emploi des cadres (APEC) 46
Association pour l’emploi des cadres, ingénieurs et techniciens de l’agriculture et de l’agroalimentaire (APECITA), réseau local 17
Délégation territoriale de l’Agence régionale de santé 12
Banque de France, succursale 217
Bureau d’aide aux victimes 166
Bureau ou centre du service national 31
Cour administrative d’appel 8
Caisse d’allocations familiales (CAF) 1352
Caisse d’assurance retraite et de la santé au travail (CARSAT) 31
Chambre de commerce et d’industrie (CCI) 154
Centre de gestion de la fonction publique territoriale 92
Centre de détention 25
Centre des impôts foncier et cadastre 268
Centre pénitentiaire 45
Conseil général 101
Chambre d’agriculture 94
Chambre de métiers et de l’artisanat 105
Centre d’information de conseil et d’accueil des salariés (CICAS) 101
Centre d’information sur les droits des femmes et des familles (CIDFF) 117
Information jeunesse, réseau local 1489
Centre d’information et d’orientation (CIO) 562
Commission d’indemnisation des victimes d’infraction 185
Centre national de la fonction publique territoriale (CNFPT), réseau local 98
Commissariat de police 628
Commission départementale de conciliation 107
Cour d’appel 38
Caisse primaire d’assurance maladie (CPAM) 1153
Conseil régional 26
Centre de ressources et d’information des bénévoles (CRIB) 170
CROUS et ses antennes 96
Centre de semi-liberté 11
Direction départementale de la cohésion sociale (DDCS) 50
Direction départementale de la cohésion sociale et de la protection des populations (DDCSPP) 46
Protection des populations (direction départementale, DDPP) 50
Direction départementale des territoires -et de la mer- (DDT) 90
Défenseur des droits 419
Unité territoriale de la DIRECCTE 6
Délégation à la mer et au littoral 35
Direction régionale des affaires culturelles 26
Direction régionale de l’alimentation, de l’agriculture et de la forêt (DRAAF) 26
Direction interrégionale et régionale des douanes 44
Direction régionale de l’environnement, de l’aménagement et du logement (DREAL) 21
Unité territoriale de la DREAL 2
Intercommunalité (EPCI) 2512
Etablissement spécialisé pour mineurs 6
Fédération départementale pour la pêche et la protection du milieu aquatique 93
Fédération départementale des chasseurs 95
Fongecif 26
Brigade de gendarmerie 3324
Greta 220
Service de publicité foncière (ex-Conservation des hypothèques) 357
Direction des services départementaux de l’Éducation nationale, ex-Inspection académique 97
Mission d’accueil et d’information des associations (MAIA) 100
Mairie 36720
Mairie (collectivités d’outre-mer) 1
Maison d’arrêt 99
Maison centrale 6
Maison départementale des personnes handicapées (MDPH) 105
Mission locale et Permanence d’accueil, d’information et d’orientation (PAIO) 727
Maison de justice et du droit 139
Mutualité sociale agricole (MSA), réseau local 202
Office français de l’immigration et de l’intégration (ex ANAEM), réseau local 28
Office national des anciens combattants (ONAC), réseau local 101
Préfecture de police de Paris, certificat d’immatriculation 1
Préfecture de police de Paris, permis de conduire 1
Permanence juridique 850
Point info famille 430
Centre de protection maternelle et infantile (PMI) 1299
Pôle emploi (ex ANPE et ASSEDIC) 944
Préfecture de police de Paris 1
Préfecture de police de Paris, antenne d’arrondissement 26
Préfecture 101
Conseil de prud’hommes 216
Rectorat 35
Centre des finances publiques (SIE) 53
Centre des finances publiques (SIP) 58
Centre des finances publiques (SIP-SIE) 22
Sous-préfecture 241
Service pénitentiaire d’insertion et de probation 103
Service universitaire d’information et d’orientation 92
Tribunal administratif 33
Tribunal pour enfants 156
Tribunal de grande instance 169
Tribunal d’instance 303
Tribunal de commerce 152
Urssaf 111

Cette base constitue donc tout de même une très bonne source pour qui veut évaluer certaines politiques publiques car non seulement chacun de ces organismes comporte les codes insee des villes les hébergeant mais chacune des 36 827 villes françaises identifiées également par leur code insee comporte la liste des organismes dont leurs habitants dépendent. Ce qui nous donne environ 4 millions de relations dont un maximum de 304 par ville avec Lille en tête et un minimum de 7 dans certaines collectivités d’outre mer avec une moyenne à 107.8 et une médiane à 100 tout rond.

D’autres infos intéressantes

Accessibilité Nombre
Oui 12501
Sur demande 932
Non 5352
Non renseigné 40563

Une bonne surprise que la présence de cette information ! On regrettera que celle ci ne soit pas renseignée systématiquement. Dans un autre registre, une bonne idée aurait été d’ajouter les codes SIRET/SIREN lorsqu’applicable, cela permettrait de contextualiser avec d’autres jeux de données les utilisant. Sinon la liste des sites internet (16 226 URL différentes) contient quelques perles, notamment un prestataire en création de site qui semble avoir trouvé là un bon moyen de se faire de la pub gratuite… (15 fois, pour l’indice).

Une base peu ré-utilisée

Malgré des conditions de ré-utilisations minimales et l’intérêt que présentent les données qu’elle contient, cette base semble être plutôt peu réutilisée en dehors du co-marquage, qui avait cours bien avant cela. Ceci est sans doute dû au format de mise à disposition (96 175 fichiers xml distincts) qui pour être parfait pour un développeur nécessite des connaissances et quelques jours de travail pour rendre tout cela exploitable facilement avec d’autres jeux de données.

Mise à disposition en CSV sous ODbL

Comme j’utilise cette source pour certains projets dont je vous parlerais très bientôt, et qu’il fallait bien inaugurer dignement ce blog, j’ai décidé de mettre à disposition les données ainsi re-formatées et mises à jour automatiquement ici même :

Page de téléchargement

N’hésitez pas à me faire part de vos remarques ou projets de réutilisation !

 

Liens