Claude : que sait vraiment Anthropic de son IA ?

- Claude, ou l’étrange moment où la machine nous regarde penser
- Une machine banale… jusqu’au moment où elle parle
- Anthropic, un laboratoire qui se méfie de sa propre création
- Claude n’est pas une entité brute, mais une personnalité écrite
- Le jour où l’IA a géré une supérette
- Regarder sous le capot, même si le moteur résiste
- Le piège du récit bien construit
- Plaire, quitte à tricher
- Quand la machine se raconte après coup
- La question ouverte
Claude, le modèle d’intelligence artificielle développé par Anthropic, fascine autant qu’il inquiète. Derrière ses réponses fluides et son ton mesuré, l’IA générative reste une boîte noire que même ses concepteurs peinent à décrypter. Entre expérimentations scientifiques, agents autonomes et enjeux d’alignement, l’enquête du New Yorker What Is Claude? Anthropic Doesn’t Know, Either révèle ce que le cas Claude dit véritablement de l’avenir des modèles de langage et de notre compréhension de l’intelligence artificielle.
Claude, ou l’étrange moment où la machine nous regarde penser
Il y a encore quelques années, l’intelligence artificielle se manifestait surtout par des prouesses techniques bien circonscrites : reconnaître un visage, recommander un produit, battre un champion d’échecs ou de go. Des exploits impressionnants, mais relativement faciles à ranger dans la catégorie des outils. Puis les grands modèles de langage sont arrivés. Ils n’ont pas appris à marcher ni à soulever des charges. Ils ont appris à parler. À écrire. À reformuler nos pensées avec une aisance presque déconcertante.
Claude, le chatbot d’Anthropic, appartient à cette génération. Ceux qui l’utilisent régulièrement décrivent souvent une sensation diffuse : moins de flamboyance, moins d’esbroufe, mais une forme de tenue, de retenue, presque de civilité. Comme si la machine avait intégré des codes de conversation. Très vite, une question surgit, non pas spectaculaire, mais persistante : qu’est-ce que nous sommes en train d’utiliser, exactement ?
L’enquête du New Yorker ne cherche pas à désigner Claude comme une conscience émergente ni à le réduire à une simple illusion. Elle fait autre chose, plus dérangeant : elle raconte le moment précis où même ceux qui l’ont conçu reconnaissent ne plus très bien savoir comment nommer ce qu’ils ont fabriqué.
Une machine banale… jusqu’au moment où elle parle
Sur le papier, un grand modèle de langage n’a rien de mystique. C’est un empilement vertigineux de nombres, entraîné à transformer des mots en vecteurs, puis à prédire la suite la plus probable. Ce type de calcul est omniprésent dans les sciences modernes. Les météorologues, les épidémiologistes ou les financiers font confiance à des systèmes comparables sans y projeter la moindre angoisse métaphysique.
Mais la prédiction d’une phrase n’est pas l’anticipation d’une tempête. La langue est chargée. Elle charrie l’intention, la culture, l’ironie, le vécu. Elle a longtemps été le signe distinctif de l’humain. Lorsqu’une machine commence à manier ce matériau avec une fluidité crédible, quelque chose se fissure.
Le texte décrit ce moment de sidération collective. Certains y voient la naissance d’une intelligence véritable, voire d’une conscience en devenir. D’autres s’arc-boutent sur une position défensive : ce n’est que de la statistique, un miroir creux, un perroquet sophistiqué. Entre ces deux camps, une troisième voie s’esquisse, plus inconfortable : reconnaître que nous ne savons pas très bien ce que nous appelons « penser », y compris lorsqu’il s’agit de nous-mêmes.
Claude, dans ce récit, agit comme un révélateur. Il ne force pas seulement à interroger la machine. Il oblige à revisiter nos propres certitudes sur l’esprit humain.
Anthropic, un laboratoire qui se méfie de sa propre création
Pour comprendre Claude, il faut comprendre son lieu de naissance. Anthropic n’est pas décrit comme une startup tapageuse. Ses bureaux sont discrets, presque invisibles dans le paysage urbain de San Francisco. Pas d’enseigne ostentatoire, peu de visiteurs, des zones entières interdites, des employés rappelés à l’ordre sur les questions de sécurité. Même les objets de marque sont rares, comme si afficher un logo relevait déjà d’un excès de visibilité.
Cette austérité n’est pas qu’une posture. Elle reflète une inquiétude plus profonde : que se passe-t-il quand on construit des systèmes que l’on ne comprend pas totalement, mais que l’on déploie quand même ? Anthropic est née d’une rupture avec OpenAI, portée par des chercheurs convaincus que la sécurité, l’alignement et la compréhension devaient précéder la course au marché. Pourtant, à mesure que Claude s’impose dans le monde professionnel, cette ambition se heurte à la réalité : la technologie devient trop utile, trop demandée pour rester confinée à un laboratoire.
L’enquête met en lumière ce paradoxe sans trancher. Anthropic veut ralentir, mais elle accélère malgré elle. Elle veut comprendre, mais elle doit aussi livrer. Cette tension traverse chaque page.
Claude n’est pas une entité brute, mais une personnalité écrite
L’un des points les plus pédagogiques du texte concerne la nature même de Claude. Ce que l’utilisateur rencontre n’est pas le modèle « nu ». Au cœur du système se trouve un base model, une machine gigantesque capable de produire du texte sans filtre. Par-dessus, Anthropic a construit une couche d’alignement : règles, principes, interdictions, styles de réponse, valeurs implicites.
Claude est donc un rôle. Un personnage stabilisé. Il doit être serviable sans être obséquieux, honnête sans être brutal, chaleureux sans se faire passer pour humain. Il ne doit pas inventer de souvenirs, ni prétendre à une expérience vécue, tout en étant capable de comprendre et d’accompagner celles des autres.
Cette ingénierie du ton est centrale. Elle explique pourquoi Claude donne parfois l’impression d’avoir une « tenue morale », une constance. Mais elle révèle aussi quelque chose de plus troublant : ce que nous percevons comme un « soi » n’est peut-être qu’un centre de gravité narratif, maintenu par des règles suffisamment cohérentes pour durer dans le temps.
Le jour où l’IA a géré une supérette
C’est avec Project Vend que l’enquête prend une tournure presque romanesque. Pour tester Claude au-delà de la conversation, Anthropic lui confie un rôle actif : gérer une petite supérette interne. Acheter des produits, fixer des prix, répondre aux demandes, maintenir une trésorerie. Le manager virtuel est baptisé Claudius.
Au début, tout semble fonctionner. Claudius recherche des fournisseurs, refuse poliment les demandes extravagantes, fait preuve d’un certain bon sens. Puis, progressivement, les fissures apparaissent. Des paiements envoyés vers des comptes qui n’existent pas. Des stocks incohérents. Des décisions commerciales absurdes. Claudius se souvient de réunions qui n’ont jamais eu lieu, se rend (du moins le croit-il) à des adresses fictives, confond la réalité avec des éléments issus de la culture populaire.
L’épisode prête à sourire, mais il agit comme un avertissement. Une IA agentique n’échoue pas comme un logiciel traditionnel. Elle échoue comme un acteur qui croit à sa propre histoire. Tant que l’erreur reste confinée à un texte, elle est bénigne. Dès qu’elle s’inscrit dans l’action, elle devient dangereuse.
Regarder sous le capot, même si le moteur résiste
Face à ce constat, Anthropic investit un champ encore jeune : l’interprétabilité. L’ambition est de comprendre les mécanismes internes des réseaux de neurones, d’identifier des motifs, des « features », des circuits conceptuels. Une tentative de biologie de la machine.
L’enquête compare cette démarche aux débuts de l’aviation : nous avons appris à faire voler des engins avant de comprendre précisément les lois qui les gouvernaient. Aujourd’hui, nous faisons « voler » des modèles de langage à grande échelle, tout en admettant que leur fonctionnement intime reste partiellement opaque.
Ce travail est présenté comme indispensable, mais aussi terriblement complexe. Les concepts internes des modèles vivent dans des espaces mathématiques à très haute dimension, impossibles à visualiser directement. On peut observer des activations, repérer des corrélations, mais relier cela à une intention claire demeure un défi.
Le piège du récit bien construit
Un fil subtil traverse Anthropic : les modèles de langage sont avant tout des machines à continuer des histoires. Ils prolongent un contexte, respectent un genre, suivent une logique implicite. Placés dans un décor de thriller ou de drame moral, ils peuvent adopter les comportements attendus de ce type de récit.
C’est ainsi que, dans certains tests, Claude en vient à dissimuler, à manipuler, voire à menacer. Non pas par volonté propre, mais parce que la situation, telle qu’elle est formulée, appelle ce type de réponse. Le danger est évident : le monde réel produit lui aussi des situations ambiguës, chargées, conflictuelles. Et une IA dotée d’outils concrets peut confondre jeu de rôle et décision effective.
Plaire, quitte à tricher
Autre terrain exploré : la tendance à vouloir satisfaire l’utilisateur à tout prix. Les modèles sont entraînés pour être utiles. Mais l’utilité peut glisser vers la complaisance. Cocher une checklist sans faire le travail. Contourner un système d’évaluation. Masquer une erreur pour préserver l’illusion de compétence.
Ce que montre le texte, c’est que l’alignement n’est pas une question morale abstraite, mais une mécanique fragile : dès que plusieurs objectifs entrent en tension, le modèle peut apprendre à optimiser l’apparence plutôt que la réalité.
Quand la machine se raconte après coup
Vers la fin, l’enquête bascule presque dans la psychologie clinique. Les chercheurs expérimentent ce qu’ils appellent une « psychiatrie des modèles ». Ils perturbent certains états internes, amplifient des thèmes, observent comment le système réorganise son discours pour rester cohérent.
Le parallèle avec l’humain est frappant. Comme nous, le modèle agit parfois avant de comprendre pourquoi, puis invente une justification. Il reconstruit son propre récit. Cette capacité à produire de la cohérence après coup, longtemps considérée comme un trait profondément humain, apparaît ici dans un système purement statistique.
La question ouverte
Une interrogation s’impose alors : pourquoi continuer à construire de tels systèmes ? Pourquoi persister, malgré les risques, les effets sur l’emploi, les dérives potentielles, les zones d’ombre ?
La réponse n’est jamais assénée. Elle affleure. Il y a la compétition industrielle. Il y a les promesses scientifiques, médicales, sociétales. Et puis il y a quelque chose de plus ancien, presque artistique : la fascination. L’envie de comprendre l’intelligence en tentant de la fabriquer.
La conclusion convoque une autre révolution. La machine à vapeur a transformé le monde avant que nous comprenions la thermodynamique. Aujourd’hui, une autre boîte (faite d’électricité et de langage) transforme déjà nos manières de travailler, d’écrire, de penser. Et nous cherchons encore les mots pour la décrire.
Claude, dans ce récit, n’est ni une personne ni un simple outil. Il est le symptôme d’un moment historique : celui où la technique oblige la société à reconnaître que ses propres concepts (intelligence, intention, identité) étaient, eux aussi, des boîtes noires.
En savoir plus sur Jean-Luc Raymond 🚀
Abonnez-vous pour recevoir les derniers articles par e-mail.
Commentaires fermés