La data science entre dans l'octogone : L'UFC analysé par la théorie des graphes

Quand la data rencontre les sports de combat

Le monde du sport regorge de données : statistiques de joueurs, résultats de matchs, classements... Mais comment donner un sens à cette masse d'informations ? Parmi les différentes approches possibles, allant de l'analyse statistique pure à la modélisation d'algorithmes d'intelligence artificielle, nous avons décidé d'essayer une approche spécifique : l'usage de la théorie des graphes.

La théorie des graphes est une branche des mathématiques qui étudie les relations entre les objets. Dans un graphe, les objets sont représentés par des "nœuds" (ou "sommets"), et les relations entre ces objets sont représentées par des "arêtes" (ou "liens").

Chez Nodelio, on utilise beaucoup cette approche pour modéliser les interactions des données dites sociales, que ce soit pour détecter des tendances sur les réseaux sociaux, segmenter des communautés d'audience ou identifier des influenceurs.

Application à l'UFC : cartographier le matchmaking

Les sports de combat sont des sports de matchmaking. C'est-à-dire que les rencontres sont déterminées qualitativement par les organisations qui estiment quels combats seront les plus intéressants, les plus légitimes sportivement et surtout les plus vendeurs auprès du public.

Dans ce cadre, l'Ultimate Fighting Championship (UFC) offre un terrain particulièrement fertile pour l'application de la théorie des graphes. Voici pourquoi :

  1. Complexité du matchmaking : L'UFC doit équilibrer de nombreux facteurs pour créer des affrontements intéressants : niveau des combattants, catégorie de poids, popularité, rivalités...
  2. Évolution historique : Depuis ses débuts en 1993, l'UFC a connu une évolution significative. Un graphe peut capturer cette histoire riche.
  3. Interconnections multiples : Les combattants s'affrontent plusieurs fois au cours de leur carrière, créant un réseau dense de connexions.

Dans notre étude, nous avons créé un graphe où :

  • Chaque combattant est représenté par un nœud.
  • Chaque combat entre deux combattants est représenté par un lien.
Exemple de maillage avec Conor McGregor

Ce graphe nous permet de visualiser le "maillage" du matchmaking de l'UFC au fil de son histoire. Voici comment le lire :

  • Taille des nœuds : Elle est déterminée par le "PageRank" du combattant (nous y reviendrons).
  • Couleur des arêtes : Elle représente la catégorie de poids du combat.
  • Proximité spatiale : Plus deux nœuds sont proches, plus leur carrière est similaire, c'est-à-dire qu'ils ont affronté des adversaires proches voire similaires.

Cette visualisation nous permet d'observer en un coup d'œil les combattants qui ont marqué le sport, leurs proximités mutuelles, ainsi que les liens entre différentes générations de combattants ou catégories de poids.

Plongeons dans la théorie des graphes

Version interactive du Network Graph, données mises à jour avant l'UFC Paris.

Première remarque intéressante, le mapping des combattants fait instantanément ressortir deux variables représentées par l'horizontalité et la verticalité :

  • Axe horizontal : De gauche à droite, nous avons les différentes catégories de poids, des poids mouches aux poids lourds.
  • Axe vertical : Du bas vers le haut, nous avons une progression chronologique. Les combattants les plus anciens sont en bas du graphe, tandis que les plus récents sont en haut.

PageRank : qui sont les combattants les plus influents ?

Le PageRank, initialement développé par Google, est un algorithme qui mesure l'importance relative des nœuds dans un graphe. Initialement conçue pour déterminer le classement des pages web pour leur référencement naturel (SEO), cette métrique reste très pertinente dans de nombreux contextes pour identifier les combattants les plus "influents" d'un réseau.

Méthodologie

L'idée du PageRank est de calculer pour chaque nœud la probabilité qu'un utilisateur qui parcourt le graphe aléatoirement tombe sur le nœud en question. En simplifiant, on peut interpréter le PageRank de notre graphe UFC tel que :

  1. Nous considérons chaque combat comme un "vote" d'un combattant pour un autre.
  2. L'importance du "vote" est pondérée par l'importance du combattant qui l'émet.
  3. Nous itérons ce processus jusqu'à ce que les valeurs convergent.
Représentation du calcul du PageRank sur un graphe.

Insights

Le PageRank dans le contexte de l'UFC nous offre deux insights intéressants :

  1. Identification des légendes : Les combattants avec un PageRank élevé sont souvent ceux qui ont marqué l'histoire de l'UFC, pas seulement par leurs victoires, mais aussi par la qualité de leurs adversaires. On peut par exemple noter que Jon Jones et Israel Adesanya sont les combattants avec le PageRank le plus élevé. Attention toutefois, le PageRank a tendance à favoriser les combattants les plus récents qui bénéficient de l'influence des anciens.
  2. Effet "Kingmaker" : Certains combattants peuvent avoir un PageRank élevé non pas parce qu'ils ont gagné beaucoup de combats, mais parce qu'ils ont affronté et vaincu des champions, chaque victoire apportant un PageRank important. Attention à nouveau, cet effet peut devenir caricatural dans certaines situations, par exemple dans notre réseau Matt Hamill possède un des PageRank les plus élevés parce qu'il a vaincu Jon Jones (seule défaite par disqualification).

Betweenness Centrality : les connecteurs du réseau

La betweenness centrality est une mesure de centralité basée sur les plus courts chemins. Elle quantifie le nombre de fois qu'un nœud agit comme un pont le long du chemin le plus court entre deux autres nœuds.

Méthodologie

Pour calculer la betweenness centrality dans notre graphe UFC :

  1. Nous identifions tous les plus courts chemins entre chaque paire de combattants.
  2. Pour chaque combattant, nous comptons combien de ces chemins passent par lui.
  3. Nous normalisons ces valeurs pour obtenir un score final.
Représentation de la betweenness centrality dans un graphe.

Insights

La betweenness centrality nous offre une vision intéressante sur le réseau UFC :

  1. Identification des "Gatekeepers" : Dans le jargon du MMA, un "gatekeeper" désigne un combattant expérimenté qui, bien qu'il n'atteigne jamais le sommet, représente une étape cruciale à franchir pour ceux qui souhaitent devenir prétendants au titre. Affronter un gatekeeper est un test de compétence pour les aspirants, car une victoire ouvre la voie vers la conquête de la ceinture. Ces combattants ont souvent une betweenness élevée, car ils affrontent à la fois des espoirs montants et des vétérans établis. On peut penser à des combattants comme Derrick Lewis ou Donald Cerrone.
  2. Ponts entre les ères : Ces combattants ont souvent des carrières longues qui s'étendent sur plusieurs "générations" de l'UFC, servant de lien entre différentes époques du sport. On peut évidemment citer Jim Miller, recordman du nombre de combats à l'UFC avec 44 combats dans l'organisation.
  3. Polyvalence des catégories : Une forte betweenness peut indiquer des combattants qui ont évolué dans plusieurs catégories de poids, créant des connexions entre des parties autrement distinctes du graphe. Dustin Poirier et Frankie Edgar en sont deux exemples, ayant combattu à la fois en poids plume (Featherweight) et poids léger (Lightweight).

Complémentarité du PageRank et de la Betweenness Centrality

Bien que ces deux mesures puissent parfois identifier les mêmes combattants importants, elles offrent des perspectives complémentaires :

  • Le PageRank met en lumière les combattants qui ont eu le plus d'impact global sur le sport.
  • La betweenness centrality identifie les combattants qui ont joué un rôle crucial dans la structure et l'évolution du réseau UFC.

En combinant ces deux mesures, nous obtenons une image plus complète et nuancée de l'importance d'un combattant dans l'histoire de l'UFC, allant au-delà des simples records de victoires et de défaites.

Les plus courts chemins : six degrés de séparation dans l'UFC ?

Vous avez probablement entendu parler de la théorie des "six degrés de séparation". Dans notre graphe UFC, nous pouvons explorer un concept similaire : Quel est le plus court chemin entre deux combattants donnés ?

Par exemple, combien de combats faut-il pour relier un pionnier de l'UFC à une star actuelle ? Ces chemins racontent souvent des histoires fascinantes sur l'évolution du sport et passent par des combats mythiques de l'organisation.

De champion à champion

Voici un exemple de réflexion que l'on pourrait avoir : Quel plus court chemin relie Alexandre Pantoja, le champion actuel des poids mouche (Flyweight, la catégorie de poids masculine la plus légère), à Jon Jones, le champion actuel des poids lourds (Heavyweight, la catégorie de poids masculine la plus lourde) ?

Les plus fins connaisseurs du sport peuvent se remémorer les combats de ces combattants et y trouver un chemin de mémoire.

Les personnes les plus curieuses peuvent aller parcourir le graphe à la manière d'un labyrinthe pour y tracer un chemin de lien en lien.

Les plus malins d'entre nous peuvent utiliser des algoritmes bien connus, comme l'algorithme de Dijkstra, pour obtenir instantanément le résultat !

Dans notre cas présent, nous obtenons le résultat suivant :

Plus court chemin de victoires reliant Alexandre Pantoja à Jon Jones

De l'octogone à la salle de réunion : la puissance de l'analyse des graphes

L'analyse que nous venons de réaliser sur l'UFC n'est pas qu'un exercice ludique pour les fans de MMA ou les passionnés de data science. Elle illustre parfaitement comment des outils mathématiques avancés peuvent révéler des insights précieux dans des données complexes et apparemment chaotiques.

Au-delà du sport : applications dans le monde de l'entreprise

Les mêmes techniques que nous avons utilisées pour analyser le réseau des combattants de l'UFC peuvent être appliquées dans divers contextes professionnels :

  1. Analyse des communautés en ligne : Cartographier les interactions entre les utilisateurs sur les réseaux sociaux pour identifier les influenceurs, les sous-groupes et les dynamiques de communication.
  2. Consumer insights : Utiliser l'analyse de graphes pour comprendre les relations entre les préférences des consommateurs, les comportements d'achat et les caractéristiques des produits.
  3. Analyse des audiences : Segmenter et profiler les audiences en fonction de leurs interactions, intérêts et comportements en ligne pour des stratégies marketing plus ciblées.
  4. Analyse thématique et des conversations : Extraire et visualiser les principaux sujets de discussion et leur évolution au fil du temps dans les médias sociaux ou les feedbacks clients.
  5. Process de la data et vulgarisation : Transformer des données complexes en visualisations de graphes intuitives pour faciliter la compréhension et la prise de décision à tous les niveaux de l'entreprise.

La data science au service de vos enjeux

Chez Nodelio, nous croyons que chaque entreprise a son propre "réseau UFC" à découvrir. Vos données contiennent des histoires fascinantes et des insights précieux qui n'attendent que d'être révélés.

Que vous cherchiez à mieux comprendre vos communautés en ligne, à obtenir des insights consommateurs approfondis, à analyser vos audiences avec précision, à décrypter les conversations autour de votre marque ou à rendre vos données accessibles à toute votre organisation, l'analyse de graphes et d'autres techniques avancées de data science peuvent vous offrir un avantage concurrentiel significatif.