El gran modelo local ha estado en pruebas toda la noche, y finalmente se ha elegido.
1. Modelo principal: Qwen-30B-Instruct, es suficiente para el trabajo diario. (El cumplimiento de instrucciones es muy bueno)
2. Inferencia de respaldo: se dejó un GPT OSS mlx modificado de 8 bits. La versión de 4 bits de GPT-OSS no es muy buena, aumentar al máximo el presupuesto de inferencia en tres niveles no tiene mucho sentido.
3. coder en todas las direcciones, planea no considerar modelos locales y usar directamente el SOTA insignia (después de todo, hay que trabajar)
1. Modelo principal: Qwen-30B-Instruct, es suficiente para el trabajo diario. (El cumplimiento de instrucciones es muy bueno)
2. Inferencia de respaldo: se dejó un GPT OSS mlx modificado de 8 bits. La versión de 4 bits de GPT-OSS no es muy buena, aumentar al máximo el presupuesto de inferencia en tres niveles no tiene mucho sentido.
3. coder en todas las direcciones, planea no considerar modelos locales y usar directamente el SOTA insignia (después de todo, hay que trabajar)
GPT11.28%