Model besar lokal telah direpotkan semalaman, akhirnya pilihan pun keluar:
1.Model utama: Qwen-30B-Instruct, cukup untuk pekerjaan sehari-hari. (Kepatuhan instruksi sangat baik)
2. Inferensi cadangan: Menyimpan versi modifikasi 8-bit dari GPT OSS mlx. Versi 4-bit dari GPT-OSS tidak terlalu baik, dan mengoptimalkan anggaran inferensi hingga tiga level tidak banyak berarti.
3. coder semua arah, berencana untuk tidak mempertimbangkan model lokal dan langsung menggunakan SOTA flagship (bagaimanapun juga bekerja)
1.Model utama: Qwen-30B-Instruct, cukup untuk pekerjaan sehari-hari. (Kepatuhan instruksi sangat baik)
2. Inferensi cadangan: Menyimpan versi modifikasi 8-bit dari GPT OSS mlx. Versi 4-bit dari GPT-OSS tidak terlalu baik, dan mengoptimalkan anggaran inferensi hingga tiga level tidak banyak berarti.
3. coder semua arah, berencana untuk tidak mempertimbangkan model lokal dan langsung menggunakan SOTA flagship (bagaimanapun juga bekerja)
GPT4.01%