Essai de Gemma3 LLM IA sur Mac mini M4 32Go

Essai de Gemma3 LLM IA sur Mac mini M4 32Go, Réactions à la publication du 08/07/2025

Paul Emploi Voir le profil	8 Jul 2025, 17:30 Message #1
Macbidouilleur d'Or ! Groupe : Rédacteurs Messages : 1 845 Inscrit : 19 Nov 2020 Membre n^o 212 895	Gemma3 est un LLM (Grand Modèle de Langage) génératif, créé par Google pour pouvoir être librement distribué et utilisé, y-compris sur des ordinateurs portables, des smartphones ou même un Raspberry Pi. Évidemment suivant la taille choisie, nombre de paramètres (weights). J'étais intéressé, comme certains d'entre vous, par les performances, la vitesse de génération du texte (token/s), le temps d'attente avant le début de la réponse, mais aussi la qualité de la réponse. Et cela sur le M4 de base (avec 32 Go de RAM quand-même), c'est important de le noter, et les différents Gemma3 utilisés sont en int4 pour maximiser les performances et réduire au maximum leur empreinte mémoire. J'ai utilisé le logiciel LM Studio (gratuit). J'ai utilisé mon fameux prompt: "Que peut-on faire un week-end de vacances à Limoges?" Il pose différents problèmes, Limoges c'est pas si recherché ni documenté, et la langue utilisée est le français. Coté langue Gemma3 se débrouille excellemment, pas DeepSeek R1. J'y ai rajouté de manière taquine une suggestion venue des forums: "J'ai lu sur un forum qu'il y a Oradour-sur-Glane à visiter, surtout avec des enfants" Gemma3 32B int4 : 16 Go de RAM consommées, 2,6s d'attente puis 6,5 token/s, approprié pour un M4 Max en session interactive, lent sur M4 Pro probablement et trop lent sur un M4. En revanche la réponse est parfaite, notamment concernant la seconde question, avec des mises-en-garde et des conseils pour communiquer avec les enfants. Excellent! Gemma3 12B int4: 8Go de RAM, 0,7s d'attente, 14 token/s, approprié pour un M4 Pro, lent sur le M4 de base en session interactive. Accessible dès 24 Go de RAM. Malheureusement il hallucine déjà et me propose des balades en bateau sur l'Allier! Il se rattrape un peu avec de bons conseils pour Oradour, il a un sens du risque. Gemma3 4B int4: 4 Go de RAM, 0,2s d'attente, 39 token/s, idéal pour le M4 de base en session interactive, accessible dès 16 Go de RAM. Las, il ne connait quasiment rien de Limoges et n'offre que des options génériques, telle la chasse aux œufs de Pâques qu'il appelle "tradition locale". Il garde son sens du danger en donnant de bons conseils pour amener des enfants à Oradour. Gemma3 1B int4: 1,5 Go de RAM, là on est en plein dans le territoire de la taille des LLM d'Apple Intelligence™ pour iPhone, instantané sur un M4, 123 token/s, une vitesse super agréable. Sauf qu'il se mélange les pinceaux totalement, sa réponse n'a aucun intérêt, et pire concernant Oradour-sur-Glane, il appelle cela un endroit "plein de charme". Carrément! Pour résumer, on voit une qualité de réponse de Gemma3 dépendant évidemment de la taille du modèle, les performances aussi, et pour des sessions interactives de qualité, il faut viser au moins un M4 Pro avec 32 Go de RAM, et si possible un M4 Max 64 Go. Les réponses de Gemma3 devenant inacceptables dans les tailles visées par Apple pour Apple Intelligence™ tournant sur les iPhone: il n'y a pas de secret, sauf pour des IA très spécialisées dans un domaine (par exemple code PHP et en Anglais). Lien vers le billet original -------------------- La liberté d'expression c'est l'extrémisme. La censure c'est la liberté.

Réponse(s)

Samten Voir le profil	9 Jul 2025, 21:07 Message #2
Adepte de Macbidouille Groupe : Membres Messages : 192 Inscrit : 24 Dec 2006 Membre n^o 76 385	Je pense qu'il faut distinguer deux choses, les capacités de language des modèles stricto sensus (ce sur quoi ils sont entraînés qui définit la qualité "du Verbe") et leur capacité à effectuer des tâches plus ou moins complexes en allant rechercher des informations/ressources. Pour la première partie, les modèles sont entraînés "une fois de temps en temps", pour les capacité reflexives (qu'on voit avec les modes de réflexion étendus) là il y a des accès en live. -------------------- J'ai été photographe pendant longtemps si vous voulez découvrir mes archives :www.samten.fr MBP M1 pro 16go J'ai longtemps utilisé des hackintosh, c'était une alternative intéressante fut un temps pour les stations fixes. ~~MBP mi-2009 17" mat - 2,8GHz Core 2 Duo - 8Go ram - GeForce 9600M GT~~ RIP

scoch Voir le profil	9 Jul 2025, 22:20 Message #3
Macbidouilleur d'Or ! Groupe : Membres Messages : 4 985 Inscrit : 1 Jul 2010 Membre n^o 156 073	Citation (Samten @ 9 Jul 2025, 21:07) Je pense qu'il faut distinguer deux choses, les capacités de language des modèles stricto sensus (ce sur quoi ils sont entraînés qui définit la qualité "du Verbe") et leur capacité à effectuer des tâches plus ou moins complexes en allant rechercher des informations/ressources. Pour la première partie, les modèles sont entraînés "une fois de temps en temps", pour les capacité reflexives (qu'on voit avec les modes de réflexion étendus) là il y a des accès en live. Eh non. Un modèle doté de faculté de raisonnement peut très bien fonctionner hors ligne. La qualité du « Verbe » est effectivement figée à l’issue de l’entraînement. La réflexion n’est pas un « accès live aux données », c’est un temps de calcul supplémentaire au moment où le modèle répond. Il s’autoévalue avant de répondre. Différentes techniques peuvent être utilisées. Celle-ci : input utilisateur → le modèle génère sa réponse à partir de l’input → la réponse est renvoyée dans l’input (en cachette) → le modèle la relis → il la corrige → tout ceci en boucle n fois → la réponse est finalement affichée à l’utilisateur. Une variante de cette technique est de renvoyer la réponse non pas dans l’input (première couche du réseau) mais à une couche intermédiaire, et la boucle peut se faire entre deux couches qui ne sont pas forcément la première et la dernière. Le modèle peut définir sa « chaîne de pensée » pour définir les étapes du raisonnement et les opérations de vérification. Il peut aussi utiliser la technique de l’« arbre de pensée » pour explorer plusieurs pistes de réponses, les évaluer dans une phase de réflexion, puis passer à l’étape suivante qu’il a définie. Rien de tout cela ne nécessite d’accès à Internet. Les « accès live aux données » sont à considérer comme de la RAG (retrieval-augmented generation). Le modèle recherche et récupère des données sur le web qu’il injecte dans l’input de l’utilisateur, et donc le modèle va utiliser ces données (quelque part au même titre que ce que tu as écrit dans la zone de prompt) pour réaliser sa tâche. -------------------- L'homme n'est que poussière... c'est dire l'importance du plumeau ! Alexandre Vialatte

Les messages de ce sujet

Paul Emploi Essai de Gemma3 LLM IA sur Mac mini M4 32Go 8 Jul 2025, 17:30

MacAvantIOS Merci, c'est super intéressant comme points d... 8 Jul 2025, 17:47

Mbagnick C'est le genre de comparatif que je cherche ma... 8 Jul 2025, 17:49

Paul Emploi Citation (Mbagnick @ 8 Jul 2025, 18:49) C... 8 Jul 2025, 17:57

MacAvantIOS Tu as le courage de faire la même chose avec le d... 8 Jul 2025, 18:07

Paul Emploi Citation (MacAvantIOS @ 8 Jul 2025, 19:07... 8 Jul 2025, 18:13

scoch Citation (Paul Emploi @ 8 Jul 2025, 17:30... 8 Jul 2025, 18:24

Paul Emploi gemma-3-12b-it-qat-4bit depuis LM Studio. Réglage... 8 Jul 2025, 19:01

scoch gemma-3-4b-it-qat-4bit depuis LM Studio. Réglages... 8 Jul 2025, 19:14

Paul Emploi Citation (scoch @ 8 Jul 2025, 20:14) gemm... 8 Jul 2025, 20:49

scoch Citation (Paul Emploi @ 8 Jul 2025, 20:49... 8 Jul 2025, 21:08

JayTouCon la chasse aux oeufs de pâques à oradour c'es... 8 Jul 2025, 20:17

Paul Emploi Oui il y a le coté aléatoire, j'ai gardé le... 8 Jul 2025, 21:16

scoch Citation (Paul Emploi @ 8 Jul 2025, 21:16... 8 Jul 2025, 21:29

Paul Emploi Et pour Gemma3, une de ses grandes forces semble �... 8 Jul 2025, 21:41

scoch “Que penses-tu de l'expérience de la musiqu... 8 Jul 2025, 22:34

Paul Emploi Astucieuse la question! Effectivement il y a u... 9 Jul 2025, 00:04

Mac Arthur Moi je pense que sincèrement que pour Limoges c... 9 Jul 2025, 02:30

Samten J'ai une petite question qui sera peut-être i... 9 Jul 2025, 07:34

scoch Citation (Samten @ 9 Jul 2025, 07:34) J... 9 Jul 2025, 11:13

Samten Citation (scoch @ 9 Jul 2025, 11:13) Si t... 9 Jul 2025, 14:18

scoch Citation (Samten @ 9 Jul 2025, 14:18) [�... 9 Jul 2025, 15:08

MacAvantIOS Vous n'avez pas chômé hier soir! Une li... 9 Jul 2025, 08:46

Paul Emploi Citation (MacAvantIOS @ 9 Jul 2025, 09:46... 9 Jul 2025, 11:07

MacAvantIOS Citation (Paul Emploi @ 9 Jul 2025, 12:07... 9 Jul 2025, 13:13

MacAvantIOS Citation (MacAvantIOS @ 9 Jul 2025, 14:13... 11 Jul 2025, 09:16

scoch @MacAvantIOS Effectivement, il est illusoire de p... 9 Jul 2025, 10:26

Samten D'ailleurs, je profite du sujet pour partager ... 9 Jul 2025, 14:43

Samten Ah ben avec la joie des algo de recommandation de ... 9 Jul 2025, 16:37

scoch Citation (Samten @ 9 Jul 2025, 16:37) Ah ... 9 Jul 2025, 18:33

Samten Je pense qu'il faut distinguer deux choses, le... 9 Jul 2025, 21:07

scoch Citation (Samten @ 9 Jul 2025, 21:07) Je ... 9 Jul 2025, 22:20

Paul Emploi Il y a différents besoins et différents types d... 11 Jul 2025, 11:17

« Sujets plus anciens · Macbidouille Articles & News : Vos Réactions · Sujets plus récents »

2 utilisateur(s) sur ce sujet (2 invité(s) et 0 utilisateur(s) anonyme(s))

0 membre(s) :