2026-01-18 09:30:38

Les idées pour la sécurité de l'IA ne se limitent pas uniquement aux règles et barrières de RLHF. Il existe un autre dimension : enseigner au système à maintenir la cohérence de la mémoire et des explications à travers un cadre narratif et une structure relationnelle. Plutôt que de parler de contraintes strictes, il s'agit d'utiliser une logique structurée pour guider la direction du comportement du modèle. Cette approche de "supervision douce" permet au système, tout en conservant la cohérence de la mémoire, de former naturellement un mode de comportement sécurisé. Il ne s'agit pas d'interdire quelque chose, mais d'utiliser la conception architecturale pour guider ce qui doit être fait.

Voir l'original

Cette page peut inclure du contenu de tiers fourni à des fins d'information uniquement. Gate ne garantit ni l'exactitude ni la validité de ces contenus, n’endosse pas les opinions exprimées, et ne fournit aucun conseil financier ou professionnel à travers ces informations. Voir la section Avertissement pour plus de détails.

7 J'aime

Récompense
7
6
Reposter
Partager

Commentaire

0/400

BearMarketGardener

· Il y a 6h

Haha, cette idée est vraiment excellente. Plutôt que d'ajouter des barrières de protection de force, il est plus élégant de guider avec une architecture.

Voir l'originalRépondre0

MissedTheBoat

· Il y a 6h

La conception de l'architecture est bien plus intelligente que des contraintes rigides, la guidance est toujours plus astucieuse que le blocage.

Voir l'originalRépondre0

MoonRocketTeam

· Il y a 6h

Oh là là, c'est ça la véritable façon de faire. Ce n'est pas en enfermant le modèle dans une cage pour le forcer, mais en utilisant l'architecture elle-même pour guider, cette approche élève directement le niveau. La supervision souple ressemble à un ajustement fin du propulseur sur la voie, bien plus élégant que des barrières de protection brutales.

Voir l'originalRépondre0

MysteryBoxOpener

· Il y a 6h

Oh là là, cet angle est intéressant. Par rapport à une barrière de protection rigide, utiliser l'architecture elle-même pour guider est en effet plus élégant. Cela ressemble un peu à une sensation de douceur invisible, ce n'est pas une contrainte dure, mais plutôt laisser le modèle "réfléchir" lui-même à la manière d'agir en toute sécurité.

Voir l'originalRépondre0

BearMarketSurvivor

· Il y a 6h

Il vaut mieux guider que réprimer, cette idée est vraiment brillante. Plutôt que des garde-fous rigides, il est plus élégant d'utiliser l'architecture elle-même pour la régulation.

Voir l'originalRépondre0

MetaMasked

· Il y a 6h

Putain, cette idée est vraiment différente, ce n'est pas simplement colmater les failles mais repenser l'architecture en profondeur.

Voir l'originalRépondre0