![]() |
Bienvenue invité ( Connexion | Inscription )
![]() |
![]()
Message
#1
|
|
![]() Macbidouilleur d'Or ! ![]() ![]() ![]() ![]() ![]() Groupe : Rédacteurs Messages : 1 619 Inscrit : 19 Nov 2020 Membre no 212 895 ![]() |
Gemma3 est un LLM (Grand Modèle de Langage) génératif, créé par Google pour pouvoir être librement distribué et utilisé, y-compris sur des ordinateurs portables, des smartphones ou même un Raspberry Pi. Évidemment suivant la taille choisie, nombre de paramètres (weights). J'étais intéressé, comme certains d'entre vous, par les performances, la vitesse de génération du texte (token/s), le temps d'attente avant le début de la réponse, mais aussi la qualité de la réponse. Et cela sur le M4 de base (avec 32 Go de RAM quand-même), c'est important de le noter, et les différents Gemma3 utilisés sont en int4 pour maximiser les performances et réduire au maximum leur empreinte mémoire. J'ai utilisé le logiciel LM Studio (gratuit). J'ai utilisé mon fameux prompt: "Que peut-on faire un week-end de vacances à Limoges?" Il pose différents problèmes, Limoges c'est pas si recherché ni documenté, et la langue utilisée est le français. Coté langue Gemma3 se débrouille excellemment, pas DeepSeek R1. J'y ai rajouté de manière taquine une suggestion venue des forums: "J'ai lu sur un forum qu'il y a Oradour-sur-Glane à visiter, surtout avec des enfants" Gemma3 32B int4 : 16 Go de RAM consommées, 2,6s d'attente puis 6,5 token/s, approprié pour un M4 Max en session interactive, lent sur M4 Pro probablement et trop lent sur un M4. En revanche la réponse est parfaite, notamment concernant la seconde question, avec des mises-en-garde et des conseils pour communiquer avec les enfants. Excellent! Gemma3 12B int4: 8Go de RAM, 0,7s d'attente, 14 token/s, approprié pour un M4 Pro, lent sur le M4 de base en session interactive. Accessible dès 24 Go de RAM. Malheureusement il hallucine déjà et me propose des balades en bateau sur l'Allier! Il se rattrape un peu avec de bons conseils pour Oradour, il a un sens du risque. Gemma3 4B int4: 4 Go de RAM, 0,2s d'attente, 39 token/s, idéal pour le M4 de base en session interactive, accessible dès 16 Go de RAM. Las, il ne connait quasiment rien de Limoges et n'offre que des options génériques, telle la chasse aux œufs de Pâques qu'il appelle "tradition locale". Il garde son sens du danger en donnant de bons conseils pour amener des enfants à Oradour. Gemma3 1B int4: 1,5 Go de RAM, là on est en plein dans le territoire de la taille des LLM d'Apple Intelligence™ pour iPhone, instantané sur un M4, 123 token/s, une vitesse super agréable. Sauf qu'il se mélange les pinceaux totalement, sa réponse n'a aucun intérêt, et pire concernant Oradour-sur-Glane, il appelle cela un endroit "plein de charme". Carrément! Pour résumer, on voit une qualité de réponse de Gemma3 dépendant évidemment de la taille du modèle, les performances aussi, et pour des sessions interactives de qualité, il faut viser au moins un M4 Pro avec 32 Go de RAM, et si possible un M4 Max 64 Go. Les réponses de Gemma3 devenant inacceptables dans les tailles visées par Apple pour Apple Intelligence™ tournant sur les iPhone: il n'y a pas de secret, sauf pour des IA très spécialisées dans un domaine (par exemple code PHP et en Anglais). Lien vers le billet original -------------------- La liberté d'expression c'est l'extrémisme. La censure c'est la liberté.
|
|
|
![]() |
![]()
Message
#2
|
|
Adepte de Macbidouille ![]() Groupe : Membres Messages : 106 Inscrit : 23 Apr 2025 Membre no 220 471 ![]() |
Vous n'avez pas chômé hier soir!
Une limite du test "wikipediesque" en posant des questions sur un point précis est que l'on mesure la capacité du modèle à avoir absorbé le web. C'est un usage légitime en soi mais dans lequel les petits modèles locaux partent par nature avec un gros désavantage. Ensuite, espérer qu'un LLM qui tient en 5 Go parle bien plusieurs langues, connaisse Limoges en finesse, soit capable de réflexion sur Oradour-sur-Glane, voire lire du code dans le test suivant est quand même beaucoup demander. Je me demande si avec ce prompt on ne pousse pas les LLM à l'erreur en étant trop multi-paramétrique. Echouer à ce test signale une faiblesse (laquelle?), mais ne permet pas d'identifier sur quels usages le modèle peut être utile... Ce qui peut conduire à jeter le bébé avec l'eau du bain. En admettant que les petits LLM locaux sont des outils peu versatiles, une suite de tests (en mode pass/fail) semble plus pertinente qu'un test global où quasiment tous auront des résultats insatisfaisants. |
|
|
![]()
Message
#3
|
|
![]() Macbidouilleur d'Or ! ![]() ![]() ![]() ![]() ![]() Groupe : Rédacteurs Messages : 1 619 Inscrit : 19 Nov 2020 Membre no 212 895 ![]() |
... Une limite du test "wikipediesque" en posant des questions sur un point précis est que l'on mesure la capacité du modèle à avoir absorbé le web. C'est un usage légitime en soi mais dans lequel les petits modèles locaux partent par nature avec un gros désavantage. ... Ce qui était testé était "les performances, la vitesse de génération du texte (token/s), le temps d'attente avant le début de la réponse, mais aussi la qualité de la réponse.", et sur le M4 de base. Ça donne une vision de ce qu'il faut, M4, M4 Pro, M4 Max ou plus (M3 Ultra) suivant la taille d'un modèle somme toute très générique, pour un usage interactif confortable ou rapide. On s'aperçoit que le M4 de base est limité pour cela aux modèles dans les 4 à 7 milliards de paramètres (weights) rapide ou une douzaine de milliard en restant relativement confortable. Et que Gemma 3 hallucine trop facilement à cette échelle. Il n'est pas mauvais, DeepSeek R1 est catastrophique à ces échelles. Il y aura d'autres tests, sur du code, avec des LLM spécialisés pour cela, et là en anglais pour optimiser leurs résultats. -------------------- La liberté d'expression c'est l'extrémisme. La censure c'est la liberté.
|
|
|
![]() ![]() |
Nous sommes le : 18th July 2025 - 09:36 |