La frontière des röstis

Cet article est issu de la newsletter IA Comprise et reproduit ici par commodité. Recevez toutes les lettres dans votre boîte mail au fur et à mesure de leur publication en laissant votre adresse dans le cadre à droite !

Chère lectrice, cher lecteur,

Les röstis (prononcer « reuchtis ») sont une délicieuse spécialité culinaire suisse à base de fines lamelles de pommes de terre grillées à la poêle, éventuellement accompagnées de lard ou d’un œuf.

Le plat idéal pour se constituer de belles poignées d’amour tout au long de l’hiver !

Mais c’est aussi un terme que l’on retrouve dans le contexte d’une tout autre spécialité suisse : la démocratie directe.

Patates ou Kartoffeln ?

Plusieurs fois par an, les Suisses sont amenés à se prononcer sur des questions politiques, proactivement ou en réaction à une loi, à l’initiative d’un nombre suffisant de citoyens [1]. En cas d’acceptation [2], le texte de l’initiative prend valeur constitutionnelle (le plus élevé dans la hiérarchie des lois) et le gouvernement doit proposer dans un délai raisonnable un projet de loi pour la mettre en œuvre.

En novembre 2020, les Suisses ont par exemple voté sur une initiative visant à interdire le financement d’entreprises de l’armement. La carte des résultats est intéressante : tous les cantons de l’ouest (francophones ou « romands »), ont largement approuvé l’initiative (à plus de 55%), tandis que tous les cantons centraux et de l’est (germanophones ou « alémaniques »), l’ont rejeté ou approuvé de justesse (moins de 55%) [3].

*Taux d’approbation de la votation populaire « Pour une interdiction du financement des producteurs de matériel de guerre »*

Les röstis étant à l’origine un plat typiquement alémanique, ils ont donné leur nom à une expression familière pour désigner cette frontière linguistique : le « röstigraben », ou frontière des röstis.

Au-delà des interprétations a posteriori, ce röstigraben franco-germanique caractérise-t-il réellement les résultats des votations suisses ? En d’autres termes, un observateur ignorant totalement ces données linguistiques la verrait-il apparaître, simplement en regardant les résultats des votations ?

Éviter le biais de confirmation

Une façon de le vérifier consisterait à observer les résultats de toutes les votations et décompter les fois où cette frontière apparaît. Cette approche présente toutefois un gros défaut : elle laisse beaucoup de latitude dans la définition de l’hypothèse à vérifier.

Faut-il prendre la moyenne des résultats de chaque région arbitrairement définie (quitte à négliger des cantons qui se singulariseraient dans chaque région) ?
Où inclure les cantons bilingues (Valais, Berne…) ?
Que faire du Tessin (italophone) ?
Etc.

Lorsque l’on souhaite « démontrer » un phénomène, il y a souvent moyen de jouer sur les détails d’une hypothèse de telle façon qu’elle montre ce que l’on souhaite… C’est pourquoi je propose ici une autre approche, qui ne laisse que très peu de place aux choix arbitraires : un clustering.

Grouper les cantons…

En renseignant pour chaque canton ses résultats lors de chaque votation, il est possible de les regrouper selon des critères mathématiques de similarité.

J’ai regardé les résultats des 48 dernières votations, entre 2015 et 2020, pour avoir une bonne image globale des tendances récentes. Sans trop entrer dans les détails techniques, j’ai utilisé un algorithme dit K-Means (déjà évoqué dans une lettre précédente) qui consiste à grouper les cantons en minimisant les écarts autour de « centres » théoriques.

Le principal choix arbitraire à faire consiste à déterminer le nombre de groupes que l’on souhaite : j’en ai retenu 2 seulement, pour voir si la frontière linguistique apparaîtrait effectivement. Voici le résultat, en coloriant les cantons selon le groupe de similarité auquel ils appartiennent :

*La simplicité de cette carte ne rend pas hommage à la complexité des calculs y ayant abouti…*
*(cliquez sur la carte pour l’agrandir)*

Malgré sa simplicité apparente, le résultat est particulièrement frappant : sans avoir fourni la moindre donnée démographique ou linguistique, la séparation entre cantons francophones et germanophones est apparue naturellement ! [4]

Cela indiquerait que le röstigraben est non seulement important, mais même le critère le plus important pour caractériser les résultats des votes !

… et grouper les votations

Comment ont voté au juste ces deux ensembles lors de chaque votation ? Là encore, il serait possible d’effectuer l’analyse votation par votation, mais il est bien plus efficace de laisser les mathématiques à l’œuvre en appliquant la même approche de clustering, cette fois sur les votations ! On peut ensuite représenter ces groupes de votations (définis à partir des résultats canton par canton) selon l’écart à la moyenne nationale dans chacune des régions définies plus haut :

*Plus la case est bleue, plus la région linguistique a voté davantage en faveur de l’initiative par rapport à la moyenne nationale (et vice-versa en rose) (cliquez sur l’image pour l’agrandir)*

Premier élément qui saute aux yeux : alors que ces groupes de votations ont été constitués à partir des cantons (et non des clusters de cantons), le comportement de vote de chacune des deux régions est cohérent dans chacun des groupes ! Cela confirme que les deux clusters de régions linguistiques ont un sens pour interpréter les résultats.

Seule une votation (sur la « compétitivité du site entreprenarial suisse ») se singularise, ce qui indique que le soutien à cette initiative ne se répartissait pas du tout selon les régions linguistiques classiques [5]. Dans le détail, les trois groupes de votations se répartissent de la manière suivante :

Un groupe (« A ») de votations visiblement largement plus soutenues côté francophone que germanophone
Un groupe (« B ») à l’inverse nettement plus soutenues côté germanophone que francophone
Un groupe (« C ») où la différence est moins claire et où la région linguistique n’est vraisemblablement pas le principal facteur explicatif des différences de vote

Note : Étant donné que je n’ai défini que deux régions, les couleurs sur une votation donnée sont forcément opposées : si une région la soutient plus que la moyenne nationale, l’autre la soutient donc moins que la moyenne nationale. Cela explique aussi pourquoi les écarts de la région francophone sont plus marqués (dans un sens ou dans l’autre) par rapport à la région germanophone : elle est moins peuplée et contribue donc moins à la moyenne nationale.

L’Ouest est à gauche, l’Est est à droite

Il y aurait également beaucoup à dire sur l’orientation politique des différentes votations. Pour ne pas trop allonger cette lettre déjà longue, je vous livre directement ci-dessous les résultats à partir des recommandations de vote des principaux partis suisses.

Le groupe A de votations où le soutien est plus fort dans les régions francophones sont toutes soutenues par les partis de gauche et opposées par le parti le plus à droite, et inversement pour le groupe B où le soutien est plus fort dans les régions germanophones (cliquez sur l’image pour l’agrandir)

Finalement, le röstigraben semble être bien davantage une frontière politique, entre des cantons penchant davantage à gauche côté francophone que germanophone, qu’une frontière linguistique…

D’ailleurs, si vous êtes observateur, ce n’est pas tout à fait exact que les deux clusters épousent la frontière linguistique : tout au nord la ville de Bâle, germanophone (quoiqu’à la frontière française) semble politiquement plus proche des cantons francophones. Est-ce que l’on ne manquerait pas quelque chose en ne regardant que les cantons ?…

Des cantons aux communes

En choisissant une large maille (les 26 cantons suisses) répartis en deux clusters seulement, on masque vraisemblablement de nombreux détails. Que se passe-t-il si l’on descend à l’échelle de la commune (plus de 2000 en Suisse), en laissant la possibilité de les répartir en davantage de clusters ?

Dans ce clustering, chaque point (ici les communes) est associé au cluster dont le centre (le vote « moyen » à chaque votation) est le plus proche. En représentant ces points par un cluster, on perd de l’information : la « distance » entre chaque point et le centre de ce cluster.

En additionnant les distances de tous les points avec les centres des clusters, on a donc une mesure de la perte d’information globale liée au clustering : plus cette somme est faible, plus les points sont proches de chaque centre et donc plus le clustering est précis [6]. En augmentant le nombre de clusters, on diminue mécaniquement ces distances (puisque le centre que l’on rajoute sera forcément plus proche de certains points), jusqu’à atteindre 0 quand il y a autant de clusters que de points (chaque point étant son propre cluster). Déterminer le nombre « optimal » de clusters consiste donc à estimer à partir de quel endroit cette somme diminue trop peu pour que cela vaille la peine d’ajouter de la complexité.

Voici ce que donne la représentation graphique de la perte d’information en fonction du nombre de clusters :

*Évaluation du nombre optimal de clusters pour regrouper les communes*

Le plus gros gain se produit évidemment lorsque l’on ajoute le 2^e cluster, puis les gains ralentissent. À partir de ce graphe, j’ai fixé le nombre de clusters à 4, les gains au-delà paraissant trop faibles.

Voici ce que donne la carte des communes de Suisse, coloriées selon 4 couleurs différentes selon le cluster auquel elles appartiennent d’après les scores des 48 dernières votations (les zones blanches correspondant à des régions largement inhabitées) :

*(cliquez sur la carte pour l’agrandir)*

Cette carte fait apparaître de nombreux détails intéressants. Si la frontière linguistique apparaît toujours (communes rouges et jaunes d’un côté, bleues et vertes de l’autre), elle paraît plus nuancée avec :

Un cluster (rouge) de communes principalement urbaines et francophones, mais qui inclut également les deux grandes villes alémaniques, Berne et Zürich
Un cluster (jaune) de communes principalement rurales et francophones, mais qui inclut aussi le Tessin (centre-sud), les parties francophones du Valais (sud-ouest) et du canton de Berne (centre) ainsi que les grands centres urbains alémaniques qui n’étaient pas dans le cluster précédent (Bâle, Winterthur, Saint-Gall…)
Un cluster (vert) correspondant plutôt aux communes en périphérie des agglomérations alémaniques
Et enfin un cluster (bleu) correspondant aux communes alémaniques restantes, essentiellement rurales

Lorsque l’on s’intéresse aux types de votations soutenues ou non par les différents clusters, on retrouve la séparation gauche/droite entre les clusters rouge et jaune d’une part, bleu et vert d’autre part, mais avec une nuance supplémentaire : le cluster jaune est légèrement moins « à gauche » que le rouge, tandis que le cluster vert est légèrement moins « à droite » que le bleu. Si cette opposition urbain/rural se retrouve dans de nombreux pays, une spécificité de la Suisse est que ce röstigraben reste un facteur encore plus déterminant en matière d’orientation politique…

Si vous étiez déjà fin connaisseur de la politique suisse, vous connaissiez probablement déjà parfaitement ce fameux röstigraben – hors peut-être certains détails, comme la plus grande proximité entre les habitants de Zürich ou Berne avec ceux de Genève ou Lausanne par rapport à leurs voisins alémaniques immédiats.

Pour autant, j’espère dans tous les cas que cette lettre aura atteint son but : montrer l’efficacité des outils de Data Science pour assimiler, très rapidement et sans connaissance préalable, les informations les plus importantes dans un environnement nouveau !

À la prochaine,

Erwan

Sources :
https://www.bk.admin.ch/ch/f/pore/va/vab_2_2_4_1_gesamt.html
https://opendata.swiss/fr/dataset/empfehlungen-der-parteien-bei-den-eidgenossischen-abstimmungsvorlagen8/resource/3a393fb1-8872-4636-85aa-13514716d99b
[1] 100’000 signatures pour une initiative populaire, 50’000 signatures pour un référendum en réaction à une loi
[2] Si la votation recueille au moins 50% des voix exprimées au niveau fédéral, mais également dans une majorité de cantons
[3] Ainsi que le Tessin, italophone. Pour ne rien simplifier, la frontière linguistique n’épouse pas toujours exactement les frontières des cantons, elle traverse notamment le canton de Berne (au centre) et du Valais (au sud).
[4] Avec les cantons bilingues côté germanophone
[5] Les cantons ont voté très différemment de l’ordinaire, le canton francophone de Vaud votant différemment de Genève ou Neuchâtel, tandis que côté germanophone le canton de Zoug a également voté très différemment de ses voisins pourtant démographiquement proches.[6] On additionne généralement plutôt les carrés des distances plutôt que les distances, afin de pénaliser fortement les points très distants des centres des clusters.

Des lettres et des chiffres