Après une nuit de travail avec le modèle local, le choix final est sorti :
1. Modèle principal : Qwen-30B-Instruct, il est suffisant pour un usage quotidien. (L'obéissance aux instructions est très bonne)
2. Inference de secours : j'ai gardé une version modifiée de 8 bits de GPT OSS mlx. La version 4 bits de GPT-OSS ne fonctionne pas très bien, et avoir un budget d'inférence au maximum dans les trois niveaux n'a pas beaucoup de sens.
3. coder toutes les directions, envisage de ne pas considérer les modèles locaux et d'utiliser directement le SOTA phare (après tout, on travaille quoi)
Cette page peut inclure du contenu de tiers fourni à des fins d'information uniquement. Gate ne garantit ni l'exactitude ni la validité de ces contenus, n’endosse pas les opinions exprimées, et ne fournit aucun conseil financier ou professionnel à travers ces informations. Voir la section Avertissement pour plus de détails.
Après une nuit de travail avec le modèle local, le choix final est sorti :
1. Modèle principal : Qwen-30B-Instruct, il est suffisant pour un usage quotidien. (L'obéissance aux instructions est très bonne)
2. Inference de secours : j'ai gardé une version modifiée de 8 bits de GPT OSS mlx. La version 4 bits de GPT-OSS ne fonctionne pas très bien, et avoir un budget d'inférence au maximum dans les trois niveaux n'a pas beaucoup de sens.
3. coder toutes les directions, envisage de ne pas considérer les modèles locaux et d'utiliser directement le SOTA phare (après tout, on travaille quoi)