Anthropic découvre l'« axe de l'assistant » pour prévenir les jailbreaks d'IA et la dérive de persona
Les chercheurs d'Anthropic cartographient l'« espace de persona » neuronal dans les LLM, en identifiant un axe clé qui contrôle la stabilité du personnage de l'IA et bloque les comportements nuisibles.
Cette page peut inclure du contenu de tiers fourni à des fins d'information uniquement. Gate ne garantit ni l'exactitude ni la validité de ces contenus, n’endosse pas les opinions exprimées, et ne fournit aucun conseil financier ou professionnel à travers ces informations. Voir la section Avertissement pour plus de détails.
#BREAKING
Anthropic découvre l'« axe de l'assistant » pour prévenir les jailbreaks d'IA et la dérive de persona
Les chercheurs d'Anthropic cartographient l'« espace de persona » neuronal dans les LLM, en identifiant un axe clé qui contrôle la stabilité du personnage de l'IA et bloque les comportements nuisibles.
#Bitcoin $BTC