Code accessible ici Le Steering, ou Activation steering, consiste à orienter la sortie d’un LLM (la prédiction du token suivant) en manipulant directement les représentations intermédiaires calculées par le modèle au moment de l’inférence dans le but d’activer certains sous-espaces plutôt que d’autres. Traditionnellement les techniques utilisées pour contrôler le comportement [...]
Suite...