Les « données sales » entravent l’atterrissage des algorithmes dans les entreprises

-

La qualité des données est un enjeu fondamental pour la bonne exécution des applications d’intelligence artificielle (IA) générative. « La qualité de votre intelligence artificielle dépend de la qualité de ses données », déclare Raúl Bartolomé, directeur général des informations et des données chez Capgemini Espagne, citant une phrase fréquemment répétée ces derniers temps dans le secteur. “Si les données ne sont pas bonnes, la réponse ne sera pas bonne”, ajoute Bartolomé pour souligner l’importance d’avoir des informations de qualité pour que l’IA fonctionne correctement, donc minimiser et éliminer les données sales, ou ‘dirty data’ en anglais, est une tâche à laquelle les organisations accordent de plus en plus d’importance.

« Les « données sales » sont des informations obsolètes, erronées, en double ou incomplètes. Cela peut constituer un défi pour les entreprises lorsqu’il s’agit de gérer correctement toutes les données qu’elles reçoivent », déclare Juan Luis Moreno, associé et directeur de l’innovation chez The Valley. Les données sales Ils peuvent survenir pour plusieurs raisons. Il peut s’agir d’informations mal saisies, cela peut être le résultat d’un calcul erroné, ou encore parce qu’elles proviennent de deux sources différentes, explique Bartolomé de Capgemini.

Au sein des organisations, il arrive parfois que les mêmes données soient stockées différemment dans deux bases de données différentes, par exemple, le service marketing peut avoir un nom d’entreprise avec l’acronyme “SL” à la fin, tandis que le service commercial est stocké sous la forme ” SL ».

L’une des premières étapes pour résoudre ce type de problème est de le gérer et de le normaliser correctement, c’est-à-dire de définir ce que mesurent les données, comment elles seront saisies dans la base de données, comment elles seront calculées, qui devra les enregistrer et qui sera chargé de gérer ces informations au sein de l’entreprise. Il est nécessaire d’investir dans des outils technologiques pour homogénéiser les données et établir une culture au sein de l’organisation axée sur le souci de sa qualité, explique Bartolomé, de Capgemini.

« Lorsque les modèles d’IA sont entraînés avec des ensembles de données contenant des erreurs, des biais ou des informations incorrectes, ils sont susceptibles de produire des résultats inexacts ou des « hallucinations ». Celles-ci peuvent se manifester par des réponses incorrectes, des conclusions biaisées ou des prédictions inexactes », explique Moreno de The Valley.

C’est l’une des conséquences les plus graves de l’introduction de mauvaises données dans l’IA générative, que le système puisse « s’occuper » de vous. Ces « hallucinations » se produisent lorsque l’IA invente des réponses basées sur des informations incorrectes. L’IA générative répondra toujours avec un certain degré de confiance, mais si des informations incorrectes lui sont fournies, elle est susceptible de générer des réponses incorrectes qui peuvent sembler véridiques. C’est ce qu’on appelle les « hallucinations » de l’intelligence artificielle, comme l’explique Bartolomé.

«La qualité des données est un processus continu. Les problèmes liés aux données de mauvaise qualité sont courants, ils peuvent être complexes à résoudre et nécessiter de gros efforts s’ils ne sont pas résolus à temps”, explique David Hurtado, directeur de l’innovation chez Microsoft en Espagne. Hurtado estime qu’il existe une série de pratiques qui peuvent conduire à une mauvaise gestion des données, comme la mise en œuvre de procédures de gestion des données erronées, la non-mise à jour des informations, une catégorisation inadéquate ou le manque d’investissement dans une infrastructure technologique adéquate.

L’investissement dans la technologie est essentiel, mais il améliore également la culture de l’organisation

Il existe également des solutions automatisées, comme celles proposées par la société Datarmony, qui tentent de corriger et d’identifier les erreurs dans les données avant qu’elles ne provoquent de graves problèmes. L’objectif de ces solutions est d’améliorer la phase de collecte des données afin qu’elles soient correctement stockées. “La qualité des données est une question dont nous prenons conscience de l’importance lorsque nous perdons des ventes ou des clients”, explique Enric Quintero, PDG de l’entreprise.

Actuellement, de nombreuses entreprises sont confrontées à des problèmes de gestion des données car, depuis l’émergence du « big data », elles ont commencé à stocker toutes sortes d’informations sur leur entreprise sans stratégie et sans savoir ce qu’elles feraient de ces données. «Dans le même temps, de grands ‘fournisseurs de cloud’ (AWS, Azure et Google) sont apparus, proposant de grandes capacités de stockage de manière économiquement raisonnable. Actuellement, au milieu du tourbillon de l’IA, les entreprises tentent en vain d’utiliser ces données pour les algorithmes d’IA », déclare Tony Rodríguez, responsable de la stratégie et de la gestion des données chez NTT Data.

Pour Rodríguez, le problème était que ce stockage était réalisé sans aucune stratégie de gouvernance des données, c’est-à-dire que les informations étaient stockées « brutes » sans aucun traitement de qualité ni catalogage de ce que ces données représentent pour l’entreprise. Face à cette situation, de nombreuses entreprises mettent en œuvre des stratégies pour traiter de manière adéquate les informations dont elles disposent et être en mesure d’exécuter des outils d’IA générative.

L’expert de NTT Data estime que les entreprises doivent commencer à travailler sur une bonne stratégie de gouvernance des données qui leur permette de disposer d’un glossaire des données, d’outils pour mesurer la qualité de l’information et de plans de remédiation pour répondre aux erreurs. De Microsoft, Hurtado commente que d’autres stratégies efficaces consistent à établir clairement un ensemble de règles de qualité ou à effectuer un nettoyage périodique des informations.

«Je ne veux pas manquer de commenter l’importance fondamentale de combiner de manière équilibrée deux éléments: les personnes et les outils. Améliorer la qualité des données nécessite à la fois des experts et des ressources techniques pour pouvoir accomplir la tâche », explique l’expert de Microsoft.

« Sans normes claires, les données peuvent être incohérentes et difficiles à interpréter. La saisie manuelle des données est également un point de vulnérabilité, car elle augmente le risque d’erreurs humaines telles qu’une saisie incorrecte ou l’omission d’informations importantes. Une autre erreur courante est le manque de validation des données, qui peut entraîner l’inclusion d’informations incorrectes dans les bases de données », explique Moreno de The Valley.

Enrique Serrano, président de la commission IA et big data d’Ametic, considère que la gestion des données dans les entreprises espagnoles a commencé en 2018, lorsque des domaines de data scientists ont commencé à être créés pour lancer les premiers projets d’analyse avancée. Selon les dernières données de l’Observatoire national de l’informatique et de la société pour 2023, seulement 11,8% des entreprises de plus de 10 salariés utilisent déjà l’IA dans leurs processus« ce qui est un indicateur très faible, compte tenu de la facilité avec laquelle toutes les entreprises, grandes et petites, ont aujourd’hui à adopter des solutions de marché en un temps record et avec des budgets adaptés à chacun : solutions ouvertes, paiement à l’usage ou paiement intégral du produit final », Serrano.

Serrano affirme que l’entreprise espagnole renforce ses capacités en matière de solutions d’IA et de « big data », mais il reste encore un long chemin à parcourir, puisqu’elle en est encore aux débuts de cette technologie. «Nous devons être plus disruptifs et perdre la peur de changer radicalement certains processus commerciaux en introduisant l’IA générative et en en automatisant certaines parties. Les prévisions que nous utilisons montrent une croissance attendue de plus de 50 % de l’utilisation de l’IA par les organisations dans les mois à venir”, commente-t-il.

-

NEXT Les résultats du premier trimestre 2024 de Corning Incorporated sont prometteurs par Investing.com