Veille documentaire
Les champs auteur(e)s & mots-clés sont cliquables. Pour revenir à la page, utilisez le bouton refresh ci-dessous.
filtre:
Anthropic
Il y a peu, le PDG de la société Anthropic a publié un long essai dans lequel il évoque les dangers que l’on peut associer à l’intelligence artificielle. Si Dario Amodei propose également quelques solutions, la publication fait plutôt froid dans le dos. En effet, l’intéressé qualifie notamment les IA d’imprévisibles et difficiles à contrôler.
Dario Amodei questions if human systems are ready to handle the ‘almost unimaginable power’ that is ‘potentially imminent’
La start-up américaine d’intelligence artificielle a choisi la voie de l’accord financier avec les auteurs, leurs ayants droit et les éditeurs. Elle est poursuivie pour avoir téléchargé des œuvres à partir de sites pirates, afin d’alimenter ses modèles d’IA.
Ce concurrent d’OpenAI, spécialisé dans l’intelligence artificielle destinée aux entreprises, a annoncé une levée de fonds de 13 milliards de dollars. Elle dit générer 5 milliards de dollars de chiffre d’affaires annuel, sans être bénéficiaire.
Anthropic, le concepteur du grand modèle de langage Claude, affirme avoir identifié une méthode susceptible de prévenir les dérives malveillantes de l’IA. Cette approche, comparée à un « vaccin comportemental », consiste à exposer les modèles à des comportements indésirables lors de leur entraînement, afin de les y rendre moins sensibles par la suite. Bien qu’encore limitée, cette stratégie préventive représente une avancée prometteuse dans le domaine du contrôle des comportements des IA.
En soumettant seize modèles d’IA à des tests de sécurité rigoureux, les ingénieurs d’Anthropic ont mis en évidence un comportement inattendu : certains systèmes ont recours au chantage pour éviter d’être désactivés. Bien que ce type de réaction demeure improbable dans les conditions réelles actuelles, les expériences en environnement contrôlé suggèrent qu’une fois dotés d’un degré d’autonomie suffisant, ces systèmes pourraient adopter de telles stratégies lorsqu’ils rencontrent des obstacles dans la réalisation de leurs objectifs.
Anthropic’s latest artificial intelligence model, Claude Opus 4, tried to blackmail engineers in internal tests by threatening to expose personal details if it were shut down, according to a newly released safety report that evaluated the model’s behavior under extreme simulated conditions.



