Un long chemin vers une Intelligence Artificielle (IA) véritablement ouverte
Frederic Dupeux,
Chief Information Security Officer
at Banque Havilland
Le terme « open-source » est devenu à la mode dans le domaine de l’Intelligence Artificielle (IA), avec des acteurs majeurs comme Meta et Elon Musk qui s’en défendent. Cependant, aucun consensus n’existe quant à la définition d’une IA ouverte. Cette ambiguïté permet aux entreprises leaders de manipuler le concept à leur avantage, ce qui pourrait renforcer leur position dominante.
L’essor de l’intelligence artificielle entraîne de nombreux questionnements d’ordre éthique, juridique et conceptuel au sein de la communauté open source. Si l’open source bénéficie d’une définition claire, i.e. un code source accessible, modifiable et redistribuable ; ce n’est pas le cas de l’IA ouverte. En effet, aucune définition consensuelle n’a été adoptée en raison d’intérêts divergents et de la complexité des systèmes d’IA par rapport aux logiciels traditionnels. Contrairement aux logiciels, les systèmes d’IA sont dépendants de grandes quantités de données et impliquent de nombreux composants tels que les données d’entraînement, le code de prétraitement et l’architecture du modèle.
Une des préoccupations majeures de la communauté open source concerne, à raison, les droits de propriété intellectuelle lorsque des algorithmes sont formés sur des quantités importantes de données sans connaissance de leur provenance. Cette incertitude décourage certains développeurs à partager leurs données, ce qui pourrait entraver le progrès dans le domaine de l’IA open source. Il s’agit d’une véritable bataille entre l’ensemble des acteurs du milieu, la performance des modèles actuels dépendant directement du volume de données ingurgitées.
La complexité et le manque de transparence de l’IA rendent difficile la compréhension ou la rationalité des décisions de l’IA en se basant uniquement sur le code source, remettant en question le concept d’IA ouverte. La génération de texte, d’images, de vidéos ou de code soulève donc des problèmes de licence, de sécurité et de réglementation en raison du manque de clarté sur leur origine.
Du partage au pillage
Historiquement, l’open source est né d’une volonté de partage et de la nécessité, pour les fournisseurs de matériel, de proposer des logiciels pour leurs machines. Aujourd’hui encore, ce mode de fonctionnement évolue constamment et encourage l’innovation, la collaboration et le partage des connaissances au sein d’une communauté diversifiée. Alors que le logiciel était au centre de l’évolution des systèmes informatiques durant les premières décennies, les données jouent un rôle central dans les avancées de l’IA depuis ces deux dernières décennies.
Les entreprises technologiques leaders dans le domaine de l’IA ont adopté diverses stratégies vis-à-vis de l’open source. Certains modèles IA sont partagés plus librement que d’autres. Meta a, par exemple, publié son modèle Llama 2 en tant qu’open source, tandis qu’OpenAI a restreint l’accès à ses modèles les plus puissants. Google propose des modèles Gemma accessibles gratuitement et conçus pour rivaliser avec les modèles de ses concurrents. De nombreux modèles qualifiés d’open source sont pourtant accompagnés de restrictions d’utilisation, en contradiction avec les principes mêmes de l’open source.
L’utilisation des données pour la création des IA est l’un des principaux points d’achoppement. Si les modèles préformés sont souvent partagés, les ensembles de données pour les former ne le sont pas, ce qui limite la possibilité de modifier et d’étudier pleinement ces modèles. Ce manque de transparence des données est un obstacle important à une véritable ouverture de l’IA.
En effet, selon Aviya Skowron, responsable des politiques et de l’éthique au sein du groupe de recherche à but non lucratif sur l’IA EleutherAI, il existe un manque de clarté quant à l’utilisation d’informations protégées par le droit d’auteur dans la formation de modèles IA. Stefano Zacchiroli, professeur à l’Institut Polytechnique de Paris et acteur majeur dans le processus de définition de l’Open Source Initiative (OSI), estime, quant à lui, qu’une description complète des données d’entrainement est essentielle pour que les modèles IA soient considérés comme open source.
Les grandes entreprises hésitent à partager les données d’entrainement en raison d’avantages concurrentiels et de préoccupations d’ordre réglementaire. Cette réticence nuit à l’éthique même de l’open source et ne peut que renforcer le pouvoir des grandes entreprises technologiques. En effet, selon le site Patronus.ai, le modèle d’openAI GPT4 ainsi que les modèles Mistral/Mixtral et Lama2 de Meta concentreraient le plus grand nombre de violations de copyright. Avec 44% de contenu protégé par des droits d’auteur, GPT4 est de loin le modèle générant le plus de reproductions exactes de contenu protégé.
L’IA à fort impact sociétal sera forcément ouverte
Une définition claire et largement acceptée de l’IA à code source ouvert est nécessaire et urgente afin d’empêcher ces entreprises puissantes de dicter des termes qui conviennent à leurs intérêts.
Une IA véritablement ouverte aurait de nombreux avantages, tels que la promotion de l’innovation, de la transparence, de la responsabilité, de l’équité et des valeurs humaines, en bref une IA à fort impact sociétal et éthique. Une IA ouverte permettrait de palier aux principales menaces générées par l’IA, à savoir son utilisation malveillante ainsi que la perpétuation de préjugés et de discriminations. Une IA ouverte permettrait de générer d’importants progrès sociaux et économiques, en particulier dans des secteurs tels que les soins de santé, l’éducation et la finance.
Par exemple, dans le secteur bancaire, les promesses de l’IA sont indéniables, notamment pour les systèmes de détection de fraudes afin de mieux anticiper les activités criminelles. Il est aussi possible d’imaginer une nouvelle forme de relation clients ou de conseils financiers personnalisés qui pourraient être adaptés aux besoins individuels. Enfin, l’IA devrait permettre d’envisager une nouvelle forme de gestion des risques et de prévision des crises. Les algorithmes d’apprentissage pourraient rapidement identifier les prémices d’une crise afin de mieux en gérer les effets.
A l’heure de la prise de conscience sur les incroyables potentialités de l’Intelligence Artificielle, mais aussi des menaces qui l’accompagnent, il est urgent de proposer une réflexion sur une utilisation responsable et éthique de l’intelligence artificielle. L’open source, basé depuis ses débuts sur des valeurs de partage et de transparence, peut offrir une voie vers une intelligence artificielle en lien avec nos valeurs humaines. Cette voie nécessitera une collaboration continue entre les développeurs, les chercheurs et les régulateurs pour garantir son avenir.
(source: Agefi)