Créez et utilisez une base de données immobilière avec SQL
Conception et mise en place d’une base de données immobilière (projet DATAImmo) : modélisation en 3NF, conformité RGPD, intégration des données publiques et analyses via requêtes SQL.
Mission
Au sein du réseau national d'agences Laplace Immo, j'ai été chargé de concevoir et d'implémenter l'infrastructure de données du projet stratégique "DATAImmo". L'objectif était de centraliser les transactions immobilières françaises (DVF), les données démographiques de l'INSEE et les référentiels géographiques pour permettre aux agences de mieux prévoir les prix de vente.
Les enjeux majeurs incluaient la structuration d'un volume important de données brutes, le respect strict de la 3e forme normale (3NF) et la mise en conformité avec le RGPD.
Comment avez-vous procédé ?
1. Analyse et Gouvernance des données (Dictionnaire de données) : J'ai réalisé un audit complet des sources de données (DVF, INSEE, data.gouv). J'ai formalisé un dictionnaire de données exhaustif définissant les codes, types (Varchar, Integer, Double), longueurs et règles de gestion (ex: concaténation du département et de la commune pour créer une clé unique fiable).
2. Modélisation Relationnelle (Conception 3NF) : J'ai conçu le schéma relationnel de la base pour éliminer les redondances et garantir l'intégrité des données :
- Normalisation : Application de la 3NF pour séparer les entités (Biens, Ventes, Communes, Régions).
- Architecture des clés : Création de clés primaires et étrangères robustes, incluant des clés composites pour la gestion géographique.
- RGPD : Anonymisation des données sensibles (noms des acquéreurs, adresses précises) dès la phase de conception.
3. Implémentation et Peuplement (ETL & SQL) :
- Préparation : Nettoyage et formatage des fichiers CSV via Power Query pour assurer la correspondance avec le Modèle Physique de Données (MPD).
- Implémentation : Création des tables sous SQLite avec définition stricte des contraintes (NOT NULL, PRIMARY KEY, FOREIGN KEY).
- Validation : Vérification de l'intégrité du chargement (30 335 lignes pour les contrats, 38 916 pour les régions) via des requêtes de contrôle.
4. Analyse du marché via SQL Avancé : J'ai développé une série de requêtes complexes pour extraire des indicateurs métier :
- Top 10 des appartements les plus chers par région.
- Taux d'évolution des ventes entre trimestres (ex: +3,68% au T2 2020).
- Comparaison du prix au m² selon la typologie des biens (ex: les T3 sont 12,86% moins chers au m² que les T2).
- Classement régional des prix au m² pour les grands appartements (Bretagne vs Île-de-France).
Livrables réalisés
- Dictionnaire des données complet : Référentiel technique et métier des variables.
- Schéma Relationnel Normalisé : Diagramme visuel de l'architecture de la base.
- Base de données opérationnelle : Fichier SQLite peuplé et testé.
- Support de présentation stratégique : Synthèse de la méthodologie, de la conformité RGPD et des analyses SQL pour la direction technique (CTO). consultables ici : https://github.com/GaelleHenaf/OC_DA5---Creez_et_utilisez_une_base_de_donnees_immobiliere_avec_SQL
Résultats Clés
- Structure de données optimisée sans redondance (3NF).
- Base de données conforme RGPD prête pour des modèles de Machine Learning.
- Identification de 46 communes clés ayant enregistré plus de 50 ventes au 1er trimestre.