Algorithmes de recommandation

La recommandation est l’élément pour lequel le rôle des algorithmes est le plus manifeste pour le public. Par exemple, Netflix a organisé un concours très médiatisé pour améliorer les algorithmes de recommandation[1], alors que les créateurs de vidéos sur des plateformes comme YouTube et TikTok présentent souvent « l’algorithme » comme un agent combiné, un gardien et un antagoniste[2],[3]. L’absence de contraintes physiques quant à la taille de leurs catalogues signifie que les plateformes de diffusion en continu peuvent héberger des milliers, des millions, voire des centaines de millions d’éléments. S’il s’agit de l’un de leurs arguments de vente, une paralysie du choix peut cependant s’ensuivre. Les plateformes ont constaté que le public tolère peu cette situation : par exemple, Netflix estime qu’un utilisateur qui n’a pas sélectionné ce qu’il souhaite regarder dans les 90 secondes suivant sa recherche de contenu est plus susceptible de quitter la plateforme[4]. Pour éviter que les utilisateurs ne quittent la plateforme, les systèmes de recommandation utilisent généralement au moins deux algorithmes différents : un pour filtrer les contenus susceptibles de ne pas plaire au consommateur et l’autre pour prioriser les contenus restants afin de mettre de l’avant ceux qui sont les plus susceptibles de plaire aux utilisateurs. Comme nous le verrons, à cette étape du processus, le système de recommandation peut déterminer quels contenus sont proposés et comment ils sont présentés.

Certains services de diffusion en continu, comme Disney+, utilisent des systèmes de recommandation qui s’appuient principalement sur des données relatives au contenu lui-même : ils priorisent, par exemple, les nouveautés et les contenus populaires. Cependant, la plupart intègrent les données qu’ils ont recueillies sur les utilisateurs afin de trouver des associations entre le contenu et les différents utilisateurs. Ils le font de trois façons (ou en combinant l’une ou l’autre) :

  1. en associant les attributs explicites d’un élément (balises, acteurs, genre cinématographique, etc.) et les éléments que l’utilisateur a appréciés par le passé (approche fondée sur le contenu);
  2. en sondant les utilisateurs sur leurs préférences, puis en associant les éléments à ces réponses (approche fondée sur les connaissances);
  3. en identifiant des utilisateurs similaires, puis en recommandant des éléments qu’ils ont aimés (approche fondée sur le filtrage collaboratif)[5].

Quelle que soit l’approche (ou la combinaison d’approches) utilisée, elle nécessite une grande quantité de données sur le contenu et les utilisateurs pour être efficace. La difficulté de faire des recommandations efficaces pour les nouveaux utilisateurs est connue sous le nom de problème de démarrage à froid, et chaque plateforme le résout à sa manière[6]. Toutefois, en général, ce problème est principalement résolu en recueillant les données des utilisateurs aussi rapidement et précisément que possible, à la fois de manière explicite (p. ex. en « identiquetant » des contenus ou en demandant aux utilisateurs de les noter) et implicite (p. ex. en déterminant si un utilisateur a fini ou pas de regarder un contenu, ce qui permet de déterminer s’il l’a aimé ou non).

Ce que les utilisateurs et les créateurs appellent « l’algorithme » est en réalité constitué de nombreux systèmes différents : des algorithmes d’association et de classification sont utilisés pour analyser les préférences des utilisateurs, identiqueter des vidéos et recommander des vidéos aux utilisateurs sur cette base. Les interactions des utilisateurs sont ensuite évaluées principalement en fonction de leur appréciation de la vidéo, de leurs commentaires sur la vidéo, de la durée de chaque consultation, et du temps écoulé avant que l’utilisateur revienne à l’application après l’avoir quittée. Ces évaluations servent à entraîner davantage le modèle de recommandation pour cet utilisateur[7]. L’ensemble du cycle peut fonctionner comme un algorithme de rétroaction puisque les informations recueillies sur le public peuvent être utilisées pour décider du contenu que la plateforme doit créer, commander ou acquérir.

Si la diffusion des médias numériques augmente le potentiel de diversité en permettant aux plateformes d’offrir un catalogue quasi illimité et en réduisant le coût pour le consommateur qui cherche à essayer quelque chose de nouveau[8], il est prouvé que la diffusion algorithmique réduit en fait cette diversité. En général, les services de télévision diffusés en continu représentent mieux les acteurs latino‑américains, LGBTQ2S+ et autochtones que la télédiffusion et la télédistribution américaines[9]. Netflix, en particulier, surpasse la télédiffusion sur le plan de la diversité de genre, alors que 30 % des scénaristes, 31 % des réalisateurs et 52 % des personnages principaux étaient des femmes (contre respectivement 22 %, 19 % et 45 % pour la télédiffusion américaine)[10] et ses films comptent une proportion plus élevée de femmes et de membres de groupes sous-représentés‑ que ceux des studios hollywoodiens[11]. Cependant, il n’est pas clair si ces effets sont attribuables aux algorithmes des services de diffusion en continu, indépendamment de ceux-ci‑ ou malgré eux. La diversité accrue sur Spotify peut être davantage attribuable à son catalogue essentiellement infini ou à la possibilité pour les auditeurs de créer et de partager leurs propres listes de lecture, permettant ainsi à des chansons et à des artistes issus de communautés diverses de devenir suffisamment populaires pour que les algorithmes du service commencent à les recommander[12].

Les données sur la diversité dans les services de diffusion en continu ouverts, comme YouTube et TikTok, sont mitigées. Une étude canadienne sur YouTube a révélé qu’une majorité significative (70,5 %) apprécie la diversité représentée sur cette plateforme, et près de la moitié (48,2 %) estime que la diversité y est mieux représentée que dans les médias traditionnels. La même étude a révélé que les « minorités visibles » (terme utilisé par les auteurs du rapport, conformément à l’usage de Statistique Canada) étaient représentées à peu près à égalité avec leur représentation dans la population canadienne parmi les contributeurs sur YouTube, alors que les peuples autochtones, les femmes et les personnes ayant une incapacité étaient nettement sous-représentés[13].

Il existe des preuves indiquant que les utilisateurs qui publient du contenu dans les médias sociaux ressentent une pression pour se conformer aux souhaits de l’algorithme de recommandation, ou du moins à leur compréhension de ceux-ci. Bien que cette pression se traduise souvent par leur participation à un système conflictuel (« pirater l’algorithme »), s’il existe un décalage entre l’identité de l’utilisateur et la façon dont l’algorithme a classé son contenu, elle le marginalisera ou minimisera sa diversité à mesure qu’il gagne en popularité. Par exemple, une femme qui publie des vidéos scientifiques sur YouTube a exprimé sa frustration face au genre de son public : alors que son public était initialement composé à parts égales d’hommes et de femmes, il est devenu majoritairement masculin alors qu’elle gagnait en popularité[14].

Les recherches montrent également systématiquement que les créateurs ressentent une pression pour se rendre plus visibles aux yeux de l’algorithme : « Cette logique façonne les sujets abordés dans les vidéos, les genres avec qui ils interagissent, la durée des vidéos, les titres utilisés, la conception des vignettes vidéo et l’organisation du discours. » Mais si le contenu est trop orienté vers l’algorithme, il risque d’être considéré comme un « piège à clics » et de susciter des réactions hostiles de la part des utilisateurs[15]. Les créateurs doivent donc trouver le juste équilibre entre répondre aux préférences (selon leur perception) de l’algorithme sans donner l’impression d’en faire trop, un équilibre beaucoup plus facile à faire si leur production est déjà favorisée par l’algorithme.

Les créateurs subissent également des pressions pour produire et publier du contenu plus souvent afin de conserver leur classement algorithmique. Comme l’a fait remarquer un contributeur sur YouTube : « l’algorithme vous oblige à produire du contenu en permanence. Vous ne pouvez donc pas vous dire que vous allez faire un court métrage et faire ensuite une pause d’un mois et demi en disant que les courts métrages prennent du temps. Vous ne pouvez pas procéder de la sorte. Vous allez perdre des centaines de milliers d’abonnés et vous ne gagnerez pas d’argent. » La même étude a révélé que les créateurs sur YouTube privilégiaient les changements conceptuels qui minimiseraient « l’effet Matthew » et favoriseraient le hasard, c’est-à-dire permettre, plus précisément, aux utilisateurs de voir ce que leurs amis regardent, leur montrer du contenu sur lequel ils ne cliqueraient pas autrement, promouvoir davantage les recommandations sélectionnées par des humains, et promouvoir les créateurs qui ne sont pas encore populaires[16].

Il existe deux façons d’améliorer le contenu que les algorithmes de recommandation vous montrent : filtrer soigneusement vos fils d’actualités[17] et entraîner l’IA[18].

Le filtrage consiste à trouver des sources que vous appréciez et sur lesquelles vous pouvez compter. Pour obtenir des informations fiables, trouvez et suivez des sources qui possèdent des connaissances ou une expertise sur le sujet, disposent d’un processus de vérification et de correction des informations, sont motivées par la précision, et visent à être objectives ou transparentes quant à leur point de vue.

Entraîner votre algorithme signifie envoyer des signaux qui indiquent ce que vous voulez (et ne voulez pas) voir.

Consultez la fiche-conseil suivante pour connaître des étapes précises vous permettant d’entraîner votre algorithme.


[1] Bennett, J., et Lanning, S. (2007). The Netflix prize. Dans Proceedings of KDD Cup and Workshop. Consulté à l’adresse https://www.cs.uic.edu/~liub/KDD-cup-2007/NetflixPrize-description.pdf.

[2] Hinkle, D. (2021). How Streaming Services Use Algorithms. Arts Management & Technology Laboratory. Consulté à l’adresse https://amt-lab.org/blog/2021/8/algorithms-in-streaming-services.

[3] Pedersen, E. (2019). "My Videos are at the Mercy of the YouTube Algorithm": How Content Creators Craft Algorithmic Personas and Perceive the Algorithm that Dictates Their Work. [Thèse de maîtrise]. Département de génie électrique et d’informatique, Université de Californie à Berkeley. Consulté à l’adresse https://digitalassets.lib.berkeley.edu/techreports/ucb/text/EECS-2019-48.pdf.

[4] Gomez-Uribe, C.A., et Hunt, N. (2015). The Netflix Recommender System: Algorithms, Business Value, and Innovation. ACM Transactions on Management Information Systems (TMIS), 6(4), 1-19.

[5] Hinkle, D. (2021). How Streaming Services Use Algorithms. Arts Management & Technology Laboratory. Consulté à l’adresse https://amt-lab.org/blog/2021/8/algorithms-in-streaming-services.

[6] Bonini, T., et Gandini, A. (2019). "First week Is Editorial, Second Week Is Algorithmic": Platform Gatekeepers and the Platformization of Music Curation. Social Media + Society. Consulté à l’adresse https://doi.org/10.1177/2056305119880006.

[7] Smith, B. (2021). How TikTok Reads Your Mind. The New York Times. Consulté à l’adresse https://www.nytimes.com/2021/12/05/business/media/tiktok-algorithm.html.

[8] Tan, T.F., Netessine, S., et Hitt, L. (2017). Is Tom Cruise Threatened? An Empirical Study of the Impact of Product Variety on Demand Concentration. Information Systems Research, 28(3), 643-660.

[9] Nielsen (2020). Being Seen on Screen: Diverse Representation And Inclusion on TV. Consulté à l’adresse https://www.nielsen.com/us/en/insights/report/2020/being-seen-on-screen-diverse-representation-and-inclusion-on-tv/.

[10] Hailu, S. (2021). Streamers Put More Women in Charge of TV Shows Than Broadcast Networks, Study Finds. Variety. Consulté à l’adresse https://variety.com/2021/tv/news/boxed-in-study-2021-streaming-networks-1235063810/.

[11] Smith, S.L., Pieper, K., Choueiti, M., Yao, K., Case, A., Hernandez, K., et Moore, Z. (2021). Inclusion in Netflix Original U.S. Scripted Series & Films. INDICATOR, 46, 50-6.

[12] Dhaenens, F., et Burgess, J. (2019). ‘Press play for pride’: The cultural logics of LGBTQ-themed playlists on Spotify. New Media & Society, 21(6), 1192-1211.

[13] Berkowitz, I.S., Davis, C., et Smith H. (2019). Watchtime Canada: How YouTube Connects Creators and Consumers. Faculté de communication et de design, Université Ryerson. Consulté à l’adresse https://audiencelab.fcad.ryerson.ca/wp-content/uploads/2019/05/YouTube-Full-Report-FINAL_V7_May21.pdf.

[14] Bishop, S. (2020). Algorithmic Experts: Selling Algorithmic Lore on YouTube. Social Media + Society, 6(1), 2056305119897323.

[15] Bishop, S. (2020). Algorithmic Experts: Selling Algorithmic Lore on YouTube. Social Media + Society, 6(1), 2056305119897323.

[16] Pedersen, E. (2019). "My Videos are at the Mercy of the YouTube Algorithm": How Content Creators Craft Algorithmic Personas and Perceive the Algorithm that Dictates Their Work. [Thèse de maîtrise]. Département de génie électrique et d’informatique, Université de Californie à Berkeley. Consulté à l’adresse https://digitalassets.lib.berkeley.edu/techreports/ucb/text/EECS-2019-48.pdf.

[17] Frau-Meigs, D. (2024). Algorithm Literacy as a Subset of Media and Information Literacy: Competences and Design Considerations. Digital, 4(2), 512-528.

[18] de Groot, T., de Haan, M., et van Dijken, M. (2023). Learning in and about a filtered universe: young people’s awareness and control of algorithms in social media. Learning, Media and Technology, 48(4), 701-713.