Après une nuit de travail avec le modèle local, le choix final est sorti :


1. Modèle principal : Qwen-30B-Instruct, il est suffisant pour un usage quotidien. (L'obéissance aux instructions est très bonne)

2. Inference de secours : j'ai gardé une version modifiée de 8 bits de GPT OSS mlx. La version 4 bits de GPT-OSS ne fonctionne pas très bien, et avoir un budget d'inférence au maximum dans les trois niveaux n'a pas beaucoup de sens.

3. coder toutes les directions, envisage de ne pas considérer les modèles locaux et d'utiliser directement le SOTA phare (après tout, on travaille quoi)
GPT-5.01%
Voir l'original
Cette page peut inclure du contenu de tiers fourni à des fins d'information uniquement. Gate ne garantit ni l'exactitude ni la validité de ces contenus, n’endosse pas les opinions exprimées, et ne fournit aucun conseil financier ou professionnel à travers ces informations. Voir la section Avertissement pour plus de détails.
  • Récompense
  • Commentaire
  • Reposter
  • Partager
Commentaire
0/400
Aucun commentaire
Trader les cryptos partout et à tout moment
qrCode
Scan pour télécharger Gate app
Communauté
Français (Afrique)
  • 简体中文
  • English
  • Tiếng Việt
  • 繁體中文
  • Español
  • Русский
  • Français (Afrique)
  • Português (Portugal)
  • Bahasa Indonesia
  • 日本語
  • بالعربية
  • Українська
  • Português (Brasil)