Aller au contenu

D1 - Résultats Exploitables (Data Visualisation)

Compétence C5 : Organiser les sources de données sous forme de résultats exploitables (data visualisation) pour alimenter les outils décisionnels et visualiser les résultats de façon compréhensible permettant d'aider les directions métiers à la prise de décision.


1. Démarche de visualisation

Notre stratégie de visualisation suit le cheminement naturel d'une analyse prédictive : comprendre le passé, valider le modèle, puis présenter l'avenir. Chaque figure répond à une question précise et prépare la suivante. L'ensemble forme un récit cohérent pour le client Electio-Analytics.

 PHASE 1                    PHASE 2                   PHASE 3
 Exploration                Modélisation               Communication
 "De quoi dispose-t-on ?"   "Le modèle est-il fiable ?" "Que prédit-on pour 2027 ?"
 ┌─────────────────┐        ┌─────────────────┐        ┌─────────────────┐
 │ 6 figures        │──────▶│ 4 figures        │──────▶│ 5 figures        │
 │ (Notebook 01)    │        │ (Notebook 02)    │        │ + 2 cartes       │
 └─────────────────┘        └─────────────────┘        │ (Notebook 03)    │
                                                        └─────────────────┘

2. Phase 1 — Comprendre le terrain (Notebook 01)

Objectif : avant de prédire quoi que ce soit, il faut prouver au client que l'on maîtrise les données. Cette phase répond à la question : "Sur quoi travaille-t-on exactement ?"

# Figure Type Pourquoi cette figure ?
1 Distribution des communes Histogramme + boxplot Point de départ obligatoire. Montre l'hétérogénéité du territoire (41 à 268 000 hab.). Justifie le choix de pondérer les résultats par population dans la suite.
2 Participation électorale Barplot + scatter Indicateur de qualité des données. Un taux de ~77% au T1 confirme la représentativité des scrutins. La baisse 2017→2022 est un signal à surveiller.
3 Top candidats T1 Barplot horizontal Vue d'ensemble par élection. Identifie les 3 candidats majeurs en Gironde (Macron, Mélenchon, Le Pen) qui concentreront l'analyse.
4 Comparaison 2017 vs 2022 Barplot côte-à-côte Première dynamique temporelle. C'est ici que l'on voit les tendances : progression Mélenchon (+4 pts), stabilité Le Pen. C'est cette dynamique que le ML devra capter.
5 Heatmap communes x candidats Heatmap Zoom sur les disparités locales. Les 10 plus grandes communes votent différemment → le territoire n'est pas homogène. Un modèle par commune est justifié.
6 Indicateurs sécurité Lineplot Validation de la donnée socio-économique. Confirme que les indicateurs SSMSI existent et ont une tendance lisible (hausse, sauf creux COVID 2020), mais uniquement pour Bordeaux.

Transition vers la Phase 2 : l'exploration confirme que les données sont cohérentes et qu'il existe des dynamiques temporelles et spatiales exploitables. On peut construire un modèle.


3. Phase 2 — Valider le modèle (Notebook 02)

Objectif : le client ne fait confiance à une prédiction que si on lui montre pourquoi le modèle fonctionne. Cette phase répond à : "Peut-on faire confiance à votre algorithme ?"

# Figure Type Pourquoi cette figure ?
7 Corrélation des features Heatmap Transparence sur les inputs. Montre que le vote précédent domine les corrélations (~0.7-0.9). Le client comprend que "le meilleur prédicteur du vote est... le vote précédent".
8 LR vs Random Forest (R²) Barplot comparatif Justification du choix d'algorithme. Le Random Forest surpasse la Régression Linéaire sur tous les candidats. Ce n'est pas un choix arbitraire, c'est mesurable.
9 Feature importance Barplots par candidat Explicabilité du modèle. Le % de voix précédent pèse 60-70%, suivi de la participation (~10-15%) et de la population (~5-10%). Le client comprend ce qui fait bouger les prédictions.
10 Prédictions brutes 2027 Barplot + scatter Premier aperçu des résultats. Macron ~28%, Mélenchon ~25%, Le Pen ~22%. Mais ce n'est qu'un chiffre brut — les visualisations avancées viendront le contextualiser.

Transition vers la Phase 3 : le modèle est validé (R² = 0.72 pour Le Pen, meilleur score) et explicable. On peut maintenant présenter les prédictions de façon actionnable.


4. Phase 3 — Communiquer les prédictions (Notebook 03)

Objectif : transformer des prédictions numériques en outils d'aide à la décision. Cette phase répond à : "Concrètement, que doit retenir le client ?"

4.1 Tendances et fiabilité

# Figure Type Pourquoi cette figure ?
11 Évolution 2017→2022→2027 Courbes temporelles Figure clé de la présentation. Trait plein = réel, pointillé = prédiction. Le client voit d'un coup d'œil les trajectoires et distingue le connu du projeté.
12 Intervalles de confiance Barres d'erreur IC 95% Honnêteté scientifique. Code couleur R² (vert/orange/rouge) pour que le client sache immédiatement quels candidats ont des prédictions fiables et lesquels sont incertains.

4.2 Dimension géographique

# Figure Type Pourquoi cette figure ?
13 Carte candidat en tête Folium interactif Visualisation la plus impactante. Chaque commune est colorée selon le candidat prédit en tête. Tooltip au survol avec le détail. Le client peut explorer librement.
14 Carte gradient Macron Folium interactif Zoom sur un candidat. Gradient d'intensité montrant les bastions et les faiblesses de Macron, commune par commune. Applicable aux autres candidats.
15 Top/Bottom communes Barplots comparatifs Identification des extrêmes. Pour chaque candidat majeur, les 10 communes les plus et les moins favorables. Utile pour cibler une stratégie de campagne locale.

4.3 Synthèse et clivages

# Figure Type Pourquoi cette figure ?
16 Dashboard synthèse Multi-panel (5 panneaux) Figure de conclusion. Regroupe podium, R², intervalles de confiance, évolution et métriques clés. Un seul visuel pour tout résumer en soutenance.
17 Clivage urbain/rural Scatter + tendance Insight stratégique final. Macron et Mélenchon performent en zone urbaine, Le Pen en zone rurale. Tendance linéaire visible. Donne au client un axe d'analyse supplémentaire.

5. Cartes interactives

Les 2 cartes Folium sont consultables dans un navigateur :

  • docs/figures/visualisation/carte_predictions_2027.html — candidat en tête par commune
  • docs/figures/visualisation/carte_macron_2027.html — gradient de vote Macron

Fonctionnalités : zoom, tooltip au survol (détail par candidat), légende couleur.


6. Aide à la décision

Question du client Réponse visuelle Figures
Qui est en tête en 2027 ? Podium + classement fig. 16 (dashboard)
Quelles sont les tendances ? Trajectoires temporelles fig. 11 (évolution)
Où sont les bastions de chaque candidat ? Carte colorée par commune fig. 13-14 (cartes)
Peut-on faire confiance aux prédictions ? Barres d'erreur + code couleur R² fig. 12 (IC)
Quel est le clivage urbain/rural ? Nuage de points + tendance fig. 17 (scatter)
Quelles communes cibler en priorité ? Communes extrêmes par candidat fig. 15 (top/bottom)

Fichiers de référence :

  • Notebooks : notebooks/01_exploration.ipynb, 02_feature_engineering_ml.ipynb, 03_visualisation_avancee.ipynb
  • Figures statiques : docs/figures/exploration/, docs/figures/ml/
  • Cartes interactives : docs/figures/visualisation/