Fréquence des prénoms des candidats au bac 2012

Je poursuis mon analyse des prénoms des candidats au bac cette année (voir billet précédent) en m'intéressant cette fois à la fréquence des différents prénoms portés par les candidats, indépendamment de leurs résultats. Les 346 581 candidats portent 18 473 prénoms différents. Le prénom le plus porté est Camille avec 4 848 candidats. Voici les quelques prénoms les plus utilisés, représentatifs des prénoms à la mode aux alentours de l'année 1994 (nuage réalisé sur Wordle).

Prénoms

Camille     4848
Marie       4354
Thomas      4134
Manon       4131
Nicolas     3851
Alexandre   3831
Maxime      3720
Laura       3702
Marine      3639
Pauline     3630
Marion      3433
Antoine     3370
Julie       3157
Mathilde    3045
Quentin     3036
Guillaume   2913
Pierre      2872
Julien      2854
Kevin       2835
Lea         2780
Anais       2775
Romain      2621
Clement     2615
Melanie     2576
Justine     2564
Sarah       2398
Florian     2298
Chloe       2256
Charlotte   2172
Valentin    2150

Une observation intéressante est que les prénoms rares sont, paradoxalement, très nombreux. Ainsi, 12 129 prénoms soit 65% de tous les prénoms ne sont portés que par un seul candidat! Mais ces candidats ne représentent que 3.5% du total des candidats. Un nombre important de parents souhaite ainsi donner un prénom unique à leur enfant, souvent d'ailleurs en trouvant des variantes orthographiques originales de prénoms plus classiques. Par exemple, le prénom Zinedine admet comme variantes, entre autres: Zin-Eddine, Zine-Din, Zine-Dine, Zine-Eddine, Zineddine ou Zinnedine. D'ailleurs, les prénoms composés représentent 15% de tous les prénoms (et 2% de tous les candidats).

Poursuivant le raisonnement, on peut s'intéresser au nombre de prénoms portés par 2, 3, 4 candidats ou plus. Cela revient à étudier la distribution des fréquences des prénoms. On obtient alors la courbe suivante.

Loi de Zipf

A gauche est représenté la fraction de prénoms qui sont portés par 1, 2, ... jusqu'à 20 candidats (points bleus). Si 65% des prénoms sont portés par un seul candidat, 10% le sont par 2 candidats, 5% le sont par 3, etc. Cette courbe démarre à une valeur importante mais diminue ensuite extrêmement rapidement. Il s'agit d'une propriété caractéristique de nombreux phénomènes et qui porte le nom de "longue traîne". L'utilisation des mots dans une langue donnée, la répartition des richesses, la population dans les villes constituent quelques exemples. Il y a ainsi très peu de villes extrêmement peuplées, et énormément de villes très peu peuplées, de telle sorte qu'environ 20% de toutes les villes représentent 80% de la population. Ou encore, 20% d'une population concentre 80% des richesses. C'est la loi des 80-20, ou principe de Pareto, qui quantifie en quelque sorte certaines inégalités.

Ici, ce principe est approximativement vérifié qualitativement mais non quantitativement: il est en fait plus marqué que la règle des 80-20! Ainsi 80% des candidats sont représentés non pas par 20% des prénoms, mais par 2.5%! Au delà de l'observation d'un grand nombre de prénoms rares, on peut faire celle d'un petit nombre de prénoms très répandus. Ainsi, seuls 0.5% des prénoms servent à nommer la moitié des candidats. De plus, 10% des prénoms représentent 90% des candidats, formant ainsi plutôt une règle des 90-10.

Mathématiquement, on peut constater que la distribution des fréquences des prénoms semble suivre de manière assez approximative une loi de Zipf, typique d'une distribution à longue traîne et satisfaisant à une règle de type 80-20. Cette loi signifie que le nombre de prénoms donné à \(n\) candidats est proportionnel à \(1/n^s\), avec \(s>1\) un paramètre réel (loi de puissance). On constate en effet que la distribution des fréquences des prénoms dans un graphique log-log est approximativement linéaire, suggérant une loi de puissance (voir panneau de droite dans la figure précédente). On peut tenter de faire correspondre une loi de Zipf à ces données, à l'aide d'une méthode d'estimation statistique. En utilisant la méthode du maximum de vraisemblance, on trouve une valeur \(s \simeq 1.9\) pour le paramètre. Cette distribution adaptée aux données est représentée en rouge dans la figure précédente.

Une autre manière de représenter cette distribution est d'afficher le pourcentage de candidats couverts par 1, 2, 3... prénoms, en triant les prénoms par ordre décroissant de fréquence. On obtient le graphique suivant (à droite, échelle log-log) :

Fréquence

Le "coude" observé à gauche est typique d'une loi de Zipf. De gauche à droite, les prénoms sont classés par fréquence décroissante (le prénom le plus donné d'abord, Camille, puis le second, Marie, etc.). Au fur et à mesure que l'on ajoute ces prénoms, la fraction de candidats représentés augmente très rapidement (partie gauche du coude). Puis viennent les prénoms beaucoup plus rares, portés par un nombre très faible de candidats (partie droite). La courbe croît alors très lentement, le nombre de candidats couverts n'augmentant que d'une fraction infinitésimale à chaque prénom.

La répartition des prénoms est ainsi particulièrement hétérogène, avec d'un côté des prénoms très répandus, et de l'autre côté des prénoms totalement originaux, nouveaux, ou uniques. Y aurait-il deux grandes tendances chez les parents, entre les "traditionalistes" qui souhaiteraient utiliser des prénoms classiques (ou des prénoms d'ascendants familiaux), et les "modernistes" qui souhaiteraient rompre avec le passé et marquer leur originalité? Notons qu'il est possible de concilier les deux tendances, en quelque sorte, en utilisant un prénom du passé en second prénom, comme pour manifester un lien avec les générations précédentes. Par ailleurs, cette tendance observée dans une population très spécifique (une partie des candidats au bac 2012) est-elle la même que celle observée plus généralement dans toute la population? Je laisse le soin aux sociologues d'y répondre.