Comment les courtiers en données façonnent votre vie depuis l'ombre

En ce moment même, quelque part, une entreprise à qui vous n’avez jamais parlé — dont vous n’avez peut-être même jamais entendu parler — est peut-être en train de décider si vous obtenez un prêt, un appartement, ou même combien de temps vous passez en prison.

Nous connaissons déjà le pouvoir des algorithmes pour façonner ce que nous voyons et à qui nous parlons sur les réseaux sociaux. Mais ce n’est que la surface. Les algorithmes sont profondément intégrés dans des douzaines d’autres industries et prennent souvent des décisions ayant des impacts qui changent la vie. Et ils dépendent des données qu’ils obtiennent des courtiers en données.

Mais comment cela fonctionne-t-il ? Quel est exactement le rôle des courtiers en données dans l’alimentation de ces algorithmes ? Quelles sont les conséquences réelles de ce commerce obscur ? Et le plus important : que pouvons-nous faire pour garantir l’équité et la responsabilité, surtout alors que nous nous dirigeons vers un avenir où la prise de décision pilotée par l’IA croît de façon exponentielle ?

Le rôle caché des courtiers en données
Souscription algorithmique
Vérifications des antécédents des locataires basées sur les données
Caution fixée par algorithme
Problèmes courants avec les algorithmes alimentés par des données
Nous devons résoudre ces problèmes avant que l’IA ne les adopte
Comment reprendre le contrôle

Le rôle caché des courtiers en données

Les courtiers en données sont des organisations à but lucratif qui collectent et vendent de vastes quantités de données personnelles, agrégeant tout(nouvelle fenêtre), de vos dossiers financiers et habitudes d’achat à votre navigation web et votre emplacement en temps réel. C’est une industrie massive — et lucrative. On estime que 5 000 sociétés de courtage de données(nouvelle fenêtre) opèrent dans le monde entier sur ce qui est devenu un marché de 270 milliards de dollars.

Malgré sa taille, l’industrie ne fait face à pratiquement aucune surveillance complète(nouvelle fenêtre) (du moins aux États-Unis), ce qui signifie que les courtiers collecteront et vendront toutes les données pour lesquelles il existe une demande. Cela signifie également qu’ils sont peu incités à s’assurer que les données qu’ils vendent sont exactes(nouvelle fenêtre).

En savoir plus sur les courtiers en données

Toutes sortes d’organisations, des annonceurs aux départements gouvernementaux américains, se tournent vers les courtiers en données pour obtenir des informations granulaires et intimes. De plus en plus, les entreprises utilisent ces données pour alimenter leurs algorithmes et prendre des décisions qui affectent la vie quotidienne des gens à travers les États-Unis. Les informations collectées et vendues par les courtiers en données — des données qui sont souvent truffées d’erreurs — sont utilisées pour déterminer les taux d’intérêt que les gens paient, s’ils sont approuvés pour un prêt, s’ils peuvent même louer un appartement ou décrocher un emploi.

Voici trois situations dans lesquelles des informations que vous ne saviez pas avoir partagées pourraient finir par altérer invisiblement votre trajectoire de vie.

Souscription algorithmique

Les banques et autres fournisseurs de technologies financières ont été parmi les premières industries à adopter des algorithmes, les utilisant pour déterminer qui obtient l’approbation pour un prêt hypothécaire, un prêt commercial ou des cartes de paiement. Ils s’appuient sur les scores de crédit traditionnels ainsi que sur une foule d’autres données alternatives (paiements de services publics, éducation, même la façon dont vous remplissez les formulaires) pour prédire si quelqu’un remboursera le prêt. Le résultat est un système de boîte noire qui peut fournir des résultats divergents pour des candidats apparemment similaires.

Une enquête de 2021 par The Markup(nouvelle fenêtre) a révélé que les prêteurs, lorsqu’ils comparaient certains candidats à des candidats blancs aux qualifications similaires, étaient :

40 % plus susceptibles de refuser des prêts immobiliers aux candidats latinos
50 % plus susceptibles de refuser les candidats asiatiques / des îles du Pacifique
70 % plus susceptibles de refuser les Amérindiens
80 % plus susceptibles de rejeter les candidats noirs

Ces disparités ont persisté même après avoir contrôlé les facteurs que l’industrie blâme traditionnellement pour ces taux d’approbation plus faibles.

Quiconque a travaillé avec des statistiques sait que les modèles ne valent que ce que valent les données qui les alimentent. Si ces données reflètent, par exemple, une histoire de redlining(nouvelle fenêtre), alors le modèle sera biaisé. Et ces modèles contiennent toutes sortes de données, comme votre flux de réseaux sociaux(nouvelle fenêtre) ou même si vous tapez votre nom en MAJUSCULES(nouvelle fenêtre). Comme l’a dit un PDG de la fintech, « Toutes les données sont des données de crédit ».

Et avec ces algorithmes, il est souvent difficile de repérer le facteur qui a conduit à un rejet. Cela rend impossible pour les gens de faire appel ou d’offrir une correction, ce qui devrait être requis, étant donné à quel point une grande partie de ces données semble tangentielle et à quelle fréquence les courtiers en données ont des informations inexactes et obsolètes.

Vérifications des antécédents des locataires basées sur les données

Si vous décidez de louer, vous ne pouvez pas échapper aux algorithmes. Les propriétaires et les gestionnaires immobiliers se tournent de plus en plus vers des services de sélection de locataires automatisés, comme LeasingDesk ou RentGrow, qui s’appuient sur des courtiers en données pour effectuer des vérifications des antécédents des candidats. Ces services tentent de quantifier à quel point un locataire pourrait être risqué en examinant les scores de crédit des candidats, les dossiers d’expulsion, les casiers judiciaires et une foule d’autres données personnelles. Le résultat est que de nombreuses personnes se voient refuser un logement sur la base de données douteuses ou obsolètes.

En 2021, la Federal Trade Commission (FTC) a infligé une amende de 4,25 millions de dollars à AppFolio, un service de sélection de locataires, pour avoir vendu des rapports d’antécédents qui identifiaient mal les candidats(nouvelle fenêtre) et contenaient des informations obsolètes, comme des avis d’expulsion annulés ou résolus. Ces erreurs ont eu des conséquences réelles, forçant les gens à trouver un autre endroit où vivre.

Les algorithmes qui génèrent ces scores sont également une boîte noire. En 2021, ProPublica a parlé à une locataire(nouvelle fenêtre) qui avait un excellent score de crédit (plus de 750), pas de casier judiciaire et pas d’expulsions. Malgré cela, elle a reçu un score de locataire de 685 sur 1 000 — l’équivalent d’un D — sans explication. Elle a été obligée de payer un mois de loyer supplémentaire comme dépôt de garantie. Comme la plupart des locataires, elle n’avait aucune idée de pourquoi son score était si bas ou comment le corriger.

Caution fixée par algorithme

L’utilisation peut-être la plus conséquente des algorithmes cachés alimentés par des courtiers en données se trouve dans le système de justice pénale. Les tribunaux et les forces de l’ordre à travers le pays ont adopté des outils d’évaluation des risques algorithmiques pour aider les juges à décider s’il faut accorder une caution ou une libération avant le procès aux accusés. Dans certains cas, ces outils aident même à décider de la condamnation et de la libération conditionnelle. Les algorithmes prennent des données d’entrée (telles que le casier judiciaire de quelqu’un, son âge, son statut d’emploi, et parfois son emplacement ou ses antécédents familiaux) et calculent un score qui reflète supposément le risque de récidive ou de défaut de comparution devant le tribunal de la personne.

Les partisans de ces systèmes affirment que l’automatisation de ces décisions garantit l’objectivité. Après tout, les juges humains sont accusés d’être incohérents et biaisés tout le temps. Cependant, comme pour la souscription de prêts automatisée et la sélection des locataires, ces décisions reposent sur des données. Si les données sont peu fiables, inexactes ou biaisées, leurs conclusions le seront également.

En 2016, ProPublica a mené une enquête sur COMPAS(nouvelle fenêtre), ou Correctional Offender Management Profiling for Alternative Sanctions. Ce système largement utilisé, développé par la société à but lucratif Northpointe (maintenant Equivant Supervision), a été jugé comme délivrant un nombre écrasant de faux positifs pour les accusés noirs et de faux négatifs pour les accusés blancs. En d’autres termes, les accusés noirs qui n’ont pas récidivé étaient presque deux fois plus susceptibles que les accusés blancs d’être étiquetés à haut risque par l’algorithme, tandis que les accusés blancs qui ont récidivé étaient plus fréquemment mal étiquetés à faible risque. (Northpointe a contesté la validité du rapport de ProPublica.)

De même, dans son examen de 2022 de l’IA dans le système judiciaire britannique(nouvelle fenêtre), le comité de la justice et des affaires intérieures de la Chambre des lords a déclaré qu’il y a « des inquiétudes concernant les dangers des biais humains contenus dans les données originales qui se reflètent, et sont davantage intégrés, dans les décisions prises par les algorithmes ».

Il y a peu de choses que les accusés peuvent faire pour contester ces scores puisque l’algorithme est propriétaire et que les scores qu’ils crachent sont rarement révélés au tribunal. Cela signifie que la liberté d’un accusé peut dépendre d’un score secret généré par un modèle non divulgué utilisant des données inconnues et souvent peu fiables.

Problèmes courants avec les algorithmes alimentés par des données

Chaque fois que la prise de décision est automatisée — que ce soit dans la souscription de prêts, la sélection des locataires ou l’évaluation des risques pour les accusés — plusieurs problèmes surgissent encore et encore :

Fiabilité des données : Si les données que vous donnez à un algorithme sont peu fiables, inexactes ou biaisées, alors toutes les conclusions qu’il donnera refléteront ces défauts.

Manque de transparence : Lorsque les algorithmes sont propriétaires, il est impossible pour le sujet des données de revérifier ou de contester son évaluation (en supposant qu’il soit au courant du score en premier lieu).

Utilisation de données inappropriées et personnelles : Beaucoup diraient que la façon dont vous remplissez un formulaire ne devrait pas avoir d’impact sur l’obtention d’un prêt et que les gens devraient pouvoir garder d’autres types de données sensibles et personnelles privées s’ils le choisissent.

Nous devons résoudre ces problèmes avant que l’IA ne les adopte

Il est important que nous corrigions le tir pour plusieurs raisons. Premièrement, de plus en plus de vies sont impactées par les systèmes algorithmiques décrits ci-dessus. Deuxièmement, de plus en plus d’informations sont balayées par les courtiers en données — le marché du courtage de données devrait valoir plus de 470 milliards de dollars d’ici 2030(nouvelle fenêtre). Troisièmement, les algorithmes s’étendent tout le temps à de nouveaux secteurs, comme la police prédictive(nouvelle fenêtre) et la prédiction des risques pour la santé(nouvelle fenêtre), où il a été constaté que les algorithmes renforçaient des biais qui étaient déjà présents dans les données.

Mais la raison de loin la plus importante pour laquelle nous devons corriger cela maintenant est d’éviter cette situation avec l’IA. J’ai surtout utilisé le terme algorithmes tout au long de cet article, car ces systèmes sont très basiques par rapport aux offres d’IA d’aujourd’hui, mais ils fonctionnent comme des assistants IA basiques pour une tâche spécifique. Et à mesure que des chatbots IA beaucoup plus puissants sont intégrés dans de plus en plus de systèmes, de flux de travail et d’organisations, ils ont le potentiel de répliquer ces types de problèmes à une échelle beaucoup plus grande.

Et le public tire déjà la sonnette d’alarme. Plus de la moitié du public américain (et des professionnels de l’IA)(nouvelle fenêtre) veut plus de contrôle sur la façon dont l’IA est utilisée dans leur vie.

Comment reprendre le contrôle

Les algorithmes cachés et l’écosystème de courtiers en données qui les permet doivent être maîtrisés. Comment nous assurons-nous que la technologie travaille pour la société, et non contre elle ? Les experts en confidentialité et en éthique de l’IA ont proposé une approche à plusieurs volets :

Réforme juridique et surveillance : Les gouvernements — le gouvernement américain en particulier — doivent mettre à jour les lois pour réglementer les courtiers en données et la prise de décision algorithmique, comblant les lacunes qui permettent une exploitation incontrôlée des données. Les États-Unis doivent adopter une loi fédérale sur la protection de la vie privée. Malheureusement, les choses vont dans la direction opposée. Le Bureau de protection financière des consommateurs a récemment retiré une proposition(nouvelle fenêtre) qui aurait obligé les courtiers en données à tenir des registres plus précis et à limiter à qui ils pouvaient vendre des données.

Transparence algorithmique : Pour garantir la responsabilité, les entreprises utilisant l’IA pour prendre des décisions impactant la vie doivent divulguer les facteurs clés derrière leurs algorithmes et permettre des audits indépendants. Sans transparence, les consommateurs ne peuvent pas comprendre, contester ou corriger des décisions automatisées nuisibles. L’Acte sur l’IA de l’UE(nouvelle fenêtre) et la loi locale de la ville de New York(nouvelle fenêtre) sont des étapes vers une surveillance significative.

Surveillance humaine et examen des décisions : Aucune décision affectant les droits ou les moyens de subsistance d’une personne ne devrait être laissée entièrement à un algorithme — les individus doivent avoir le droit à un examen humain. En gardant du personnel formé dans la boucle et en permettant les appels, nous pouvons nous assurer que les systèmes automatisés restent responsables, contextuels et humains. Cela existe déjà en Europe sous le RGPD(nouvelle fenêtre), mais devrait être étendu aux États-Unis.

Minimisation des données au niveau personnel : Cela peut sembler accablant, mais il y a des choses que vous pouvez faire pour limiter la quantité de données que les courtiers en données reçoivent de vous. Payez en espèces. Utilisez des services chiffrés de bout en bout. Naviguez sur internet avec un VPN digne de confiance(nouvelle fenêtre), un bloqueur de publicités(nouvelle fenêtre) et un navigateur axé sur la confidentialité. Ces mesures simples peuvent limiter les données brutes qui alimentent des décisions algorithmiques injustes.

Pour un meilleur internet et un monde meilleur

Alors que les algorithmes influencent de plus en plus les décisions critiques de la vie — du logement et du crédit à l’emploi et à la justice — nous devons affronter les systèmes opaques et les flux de données incontrôlés qui les alimentent. Ces technologies promettent l’efficacité mais délivrent souvent des biais, de l’exclusion et des préjudices, surtout lorsqu’elles sont alimentées par des courtiers en données non réglementés.

Pour changer de cap, nous avons besoin de lois qui imposent la transparence, limitent les pratiques d’exploitation des données et garantissent une surveillance humaine là où cela compte le plus. Construire un avenir numérique plus juste signifie ouvrir les boîtes noires algorithmiques et remettre les gens au centre de la prise de décision. Si nous agissons maintenant — en tant que citoyens, développeurs et décideurs politiques — nous pouvons créer un monde où la technologie respecte la vie privée, renforce l’équité et gagne notre confiance.

Comment les courtiers en données façonnent votre vie depuis l’ombre