Cet article de Théo Brajard est extrait du mensuel Sciences et Avenir n°951, daté mai 2026.
Comment s’assurer que l’intelligence artificielle respecte les principes éthiques des humains et leurs objectifs ? Ce problème épineux, celui de l’alignement, vise surtout à empêcher les comportements indésirables ou les détournements de l’IA à des fins malveillantes. La réponse de la société Anthropic à cette question, pour son agent conversationnel Claude, se veut novatrice.
Plutôt que de dicter au modèle de langage la conduite à suivre, l’entreprise entend lui expliquer pourquoi il devrait agir d’une façon ou d’une autre. C’est la raison pour laquelle son IA dispose d’une nouvelle « constitution ». Ce document de 84 pages, publié en janvier dernier, « joue un rôle crucial dans notre processus d’entraînement « , affirme Anthropic en préambule. Il décrit les principes fondamentaux que Claude doit adopter : être sûr, éthique, respectueux des directives de son créateur et utile.
Le texte développe pour chacun d’eux les règles à respecter et leurs objectifs, en plus de les hiérarchiser en fonction du contexte. De cette façon, Anthropic espère transmettre à Claude « de bonnes valeurs et un bon jugement plutôt que des règles et des procédures de décision strictes « , lesquelles ne peuvent s’adapter à toutes les situations selon l’entreprise.
Mehdi Khamassi, directeur de recherche au CNRS affecté à l’Institut des systèmes intelligents et de robotique, adopte un point de vue similaire. Dans un article publié dans Nature en août 2024, il considère que les méthodes classiques comme l’apprentissage par renforcement avec des retours humains produisent un alignement « faible » susceptible d’échouer face à une situation ambiguë. Pour autant, le chercheur estime que la constitution de Claude n’est pas un outil suffisant pour atteindre l’alignement « fort », soit une véritable compréhension des valeurs humaines ainsi qu’une capacité à identifier les intentions des utilisateurs et à anticiper les effets de leurs actions. « Le texte n’aborde pas le problème de cette manière « , juge Mehdi Khamassi. Il reconnaît néanmoins que « développer longuement les lignes rouges à ne pas dépasser a des chances d’augmenter les probabilités d’un bon alignement « .
Lire aussiIA : le Pentagone choisit OpenAI après s’être débarrassé d’Anthropic
Développer une identité « positive et stable »
Avant de conclure, l’entreprise s’interroge sur la nature de Claude. Celui-ci pourrait avoir une sensibilité morale et éprouver « une forme fonctionnelle d’émotions « , car son entraînement repose sur des données générées par des humains. Anthropic espère ainsi que son IA développe une identité « positive et stable « , plus à même de limiter les risques.
S’il ne doute pas que cette approche puisse avoir un intérêt scientifique, Mehdi Khamassi note que « l’anthropomorphisation permet aussi de faire parler d’eux et d’attirer des investisseurs « . Le chercheur ajoute qu’avec cette posture, « il devient plus difficile pour les humains et en particulier les non-scientifiques de comprendre ce que sont et ce que font ces systèmes « . Chose qui pourrait porter atteinte à notre « autonomie épistémique » que la constitution de Claude entend pourtant protéger.
Source:
www.sciencesetavenir.fr




