LLM per PC domestici: qualche test
Prima di dare conto di alcuni dei modelli a uso domestico più noti, occorre però una breve spiegazione tecnica.
Detto questo, ecco i risultati dei test, condotti per ciascun modello e da terminale tramite llama.ccp e da interfaccia grafica con i vari Jan, LM Studio e gpt4all.
Quanto all'italiano, benché occorra sempre tenere conto che i dati di addestramento degli LLM rimangono maggioritariamente in inglese e che l'italiano è una lingua grammaticalmente molto più complessa, pure non mancano soluzioni domestiche di buon livello.
Dunque è già possibile interagire con gli LLM localmente sul proprio PC senza doversi affidare a servizi esterni e mantenendo quindi il pieno controllo dei propri dati; non solo in inglese, ma anche in lingua italiana.
You may read this article also in English.
Fino a poco tempo fa l'unico modo per interagire con un LLM era affidarsi ai principali servizi online, come ChatGPT, LeChat, Copilot, Gemini... Oggi però il formato di compressione GGUF rende possibile fare girare LLM relativamente leggeri, ma davvero prestanti, anche sul computer di casa facendolo ragionare con esiti sorprendenti.
Tra le altre, i vari modelli sono di norma classificati dalle due etichette B e Q.
B indica i miliardi di parametri utilizzati dal modello per ragionare; per semplificare si potrebbe dire che indica la dimensione del cervello dell'LLM. Un modello da 8B è quindi più colto e logico di uno da 4B, e naturalmente richiede al PC più memoria RAM per funzionare.
Q indica la quantizzazione, ossia il livello di compressione e di conseguenza la qualità operativa del modello. Un valore alto come Q8 indica una compressione minore e dunque un modello più preciso in termini di coerenza e ragionamento; un valore basso come Q4 rende sì il modello più leggero e veloce da gestire per il PC, ma sacrifica un po' di precisione nel ragionamento e nella coerenza.
Per l'iterazione in inglese la famiglia Llama-3.1 domina la scena domestica, specialmente nelle versioni uncensored.
Il DarkIdol Llama 3.1 8B Q8 quantizzato da QuantFactory al momento è certamente la scelta migliore per il computer di casa: preciso, completamente privo di censura, capace di gestire conversazioni lunghissime (nell'ordine delle 80 mila parole, come a dire un romanzo di quasi 600 pagine) e ideale per essere personalizzato tramite system message come assistente specifico.
Per PC più piccoli può andare anche la versione Q4, sempre da QuantFactory, ma naturalmente c'è da fare più attenzione alla coerenza di ragionamento.
Un'alternativa equilibrata al DarkIdol è il Cognitive Computations Dolphin Mistral 24B Q4 quantizzato da Bartowski; si dimostra molto coerente e fluido, offrendo una base di conoscenza più ampia, grazie ai suoi 24 miliardi di parametri, che generalmente riesce a compensare la minore precisione da maggior compressione.
Un ottimo peso piuma per chi ha davvero poche risorse è lo Jan v3.5 4B Q4 quantizzato dalla stessa Jan; un LLM leggero e flessibile, personalizzabile tramite system message, anche se la coerenza va monitorata con attenzione.
La prima scelta è certamente lo Llama-3 8B Ita Q8 quantizzato ancora da QuantFactory. Come il DarkIdol è basato su LLama-3, non ha censura di sorta, sa gestire conversazioni estremamente lunghe, è ottimale per la personalizzazione tramite messaggi di sistema e ha un ottimo livello logico e di coerenza. C'è solo talora qualche sbavatura grammaticale, ma davvero poca cosa.
Buona alternativa è l'ANITA NEXT 24B Q4 quantizzato da Marco Polignano, che ha un'ottima cura linguistica e una buona coerenza logica nonostante la maggiore compressione.
Da tenere d'occhio per il futuro il Minerva 7B instruct v1.0 Q8 quantizzato dal dipartimento NLP della Sapienza, il Mistral Ita 7B Q8 quantizzato da QuantFactory e il Modello Italia 9B GGML Q8 quantizzato da Francesco Baldassarri. Sulla carta hanno tutti buone potenzialità per l'uso domestico, anche se al momento si sono rivelati di fatto non utilizzabili a causa di vari difetti tecnici.