L’architecture Transformers qui sous-tend les réseaux de neurones du même nom comprend deux facettes distinctes dédiées d’une part à l’encodage et d’autre part au décodage, qui sont mobilisables soit ensemble soit indépendamment l’une de l’autre. Ces types de “stacks” encodage-décodage préexistaient aux LLM dans des modèles NLP de type seq2seq par exemple mais sans le [...]
Suite...