Segmentation d'Images par Clustering
Projet de Machine Learning Non Supervisé
Contexte et Objectifs
Ce projet, mené sur JupyterLab, consistait à segmenter un jeu de 200 images réparties en 20 catégories alimentaires. L'objectif était de maîtriser le pipeline complet d'un projet de Machine Learning : du pré-traitement des données à l'évaluation des modèles, en passant par l'étape cruciale du feature engineering.
Approche Méthodologique
La performance du clustering dépend fortement de la manière dont les images sont représentées numériquement (les descripteurs) et de l'algorithme choisi. J'ai donc mené une analyse comparative sur ces deux axes.
1. Comparaison des Descripteurs Visuels
Le choix du descripteur est crucial car il détermine l'information que le modèle utilisera pour regrouper les images.
Descripteur | Ce qu'il capture | Atouts & Limites |
---|---|---|
HoG | Formes & textures via les gradients | Robuste aux variations de couleur, mais sensible à la rotation. |
Histogramme HSV | Distribution des couleurs | Indépendant de la luminosité, mais perd l'information spatiale. |
Filtres de Gabor | Textures à différentes fréquences | Très précis pour les textures, mais génère des vecteurs longs. |
2. Comparaison des Modèles de Clustering
J'ai implémenté deux algorithmes aux logiques fondamentalement différentes.
Critère | K-means | DBSCAN |
---|---|---|
Principe | Minimiser la variance intra-cluster (centroïdes) | Regrouper les points par densité (voisinage) |
Forme des clusters | Suppose des formes sphériques | Peut trouver des formes arbitraires |
Gestion du bruit | Assigne tous les points à un cluster | Capable d'identifier les outliers (bruit) |
3. Métriques d'Évaluation
Pour évaluer la qualité des clusters de manière non supervisée, j'ai utilisé plusieurs métriques :
- Score de Silhouette : Mesure à quel point un point est similaire à son propre cluster par rapport aux autres clusters.
- AMI (Adjusted Mutual Information) : Compare les clusters trouvés aux vraies catégories (quand elles sont connues) en corrigeant le hasard.
- Méthode du coude : Une heuristique visuelle pour estimer le nombre optimal de clusters (K) pour K-means.
Résultats et Analyse des Expériences
Le tableau suivant résume les résultats des principales expériences menées.
Expérience | Modèle | Descripteurs | Métriques Clés | Interprétation |
---|---|---|---|---|
Couleur pure | K-means (K=20) | HSV | Silh. 0,28 | Sépare bien les fruits, mais confond les pâtisseries. |
Forme pure | K-means (K=20) | HoG | Silh. 0,33 | Regroupe les gâteaux par leurs contours, mais mélange les fruits. |
Meilleur compromis | K-means (K=20) | HoG + HSV | Silh. 0,48 • AMI 0,72 | 19/20 catégories bien regroupées. Le coude était net à K=20. |
Détection de densité | DBSCAN | HoG + HSV | 4% d'outliers | Isole un micro-cluster de "biscuits chocolatés" et gère bien le bruit. |
Bilan et Apprentissages
Ce projet a confirmé que pour un problème de classification avec un nombre de catégories connu, la combinaison HoG + HSV + K-means offre un excellent équilibre performance/simplicité. Pour des problèmes plus exploratoires où le nombre de groupes est inconnu ou en présence de bruit, DBSCAN est une alternative plus robuste.