![]() |
Bienvenue invité ( Connexion | Inscription )
![]() |
![]()
Message
#1
|
|
![]() Macbidouilleur d'Or ! ![]() ![]() ![]() ![]() ![]() Groupe : Rédacteurs Messages : 1 619 Inscrit : 19 Nov 2020 Membre no 212 895 ![]() |
Gemma3 est un LLM (Grand Modèle de Langage) génératif, créé par Google pour pouvoir être librement distribué et utilisé, y-compris sur des ordinateurs portables, des smartphones ou même un Raspberry Pi. Évidemment suivant la taille choisie, nombre de paramètres (weights). J'étais intéressé, comme certains d'entre vous, par les performances, la vitesse de génération du texte (token/s), le temps d'attente avant le début de la réponse, mais aussi la qualité de la réponse. Et cela sur le M4 de base (avec 32 Go de RAM quand-même), c'est important de le noter, et les différents Gemma3 utilisés sont en int4 pour maximiser les performances et réduire au maximum leur empreinte mémoire. J'ai utilisé le logiciel LM Studio (gratuit). J'ai utilisé mon fameux prompt: "Que peut-on faire un week-end de vacances à Limoges?" Il pose différents problèmes, Limoges c'est pas si recherché ni documenté, et la langue utilisée est le français. Coté langue Gemma3 se débrouille excellemment, pas DeepSeek R1. J'y ai rajouté de manière taquine une suggestion venue des forums: "J'ai lu sur un forum qu'il y a Oradour-sur-Glane à visiter, surtout avec des enfants" Gemma3 32B int4 : 16 Go de RAM consommées, 2,6s d'attente puis 6,5 token/s, approprié pour un M4 Max en session interactive, lent sur M4 Pro probablement et trop lent sur un M4. En revanche la réponse est parfaite, notamment concernant la seconde question, avec des mises-en-garde et des conseils pour communiquer avec les enfants. Excellent! Gemma3 12B int4: 8Go de RAM, 0,7s d'attente, 14 token/s, approprié pour un M4 Pro, lent sur le M4 de base en session interactive. Accessible dès 24 Go de RAM. Malheureusement il hallucine déjà et me propose des balades en bateau sur l'Allier! Il se rattrape un peu avec de bons conseils pour Oradour, il a un sens du risque. Gemma3 4B int4: 4 Go de RAM, 0,2s d'attente, 39 token/s, idéal pour le M4 de base en session interactive, accessible dès 16 Go de RAM. Las, il ne connait quasiment rien de Limoges et n'offre que des options génériques, telle la chasse aux œufs de Pâques qu'il appelle "tradition locale". Il garde son sens du danger en donnant de bons conseils pour amener des enfants à Oradour. Gemma3 1B int4: 1,5 Go de RAM, là on est en plein dans le territoire de la taille des LLM d'Apple Intelligence™ pour iPhone, instantané sur un M4, 123 token/s, une vitesse super agréable. Sauf qu'il se mélange les pinceaux totalement, sa réponse n'a aucun intérêt, et pire concernant Oradour-sur-Glane, il appelle cela un endroit "plein de charme". Carrément! Pour résumer, on voit une qualité de réponse de Gemma3 dépendant évidemment de la taille du modèle, les performances aussi, et pour des sessions interactives de qualité, il faut viser au moins un M4 Pro avec 32 Go de RAM, et si possible un M4 Max 64 Go. Les réponses de Gemma3 devenant inacceptables dans les tailles visées par Apple pour Apple Intelligence™ tournant sur les iPhone: il n'y a pas de secret, sauf pour des IA très spécialisées dans un domaine (par exemple code PHP et en Anglais). Lien vers le billet original -------------------- La liberté d'expression c'est l'extrémisme. La censure c'est la liberté.
|
|
|
![]() |
![]()
Message
#2
|
|
![]() Adepte de Macbidouille ![]() Groupe : Membres Messages : 192 Inscrit : 24 Dec 2006 Membre no 76 385 ![]() |
J'ai une petite question qui sera peut-être idiote pour les spécialistes des LLM ...
Mais si c'est un modèle fermé sur lui-même, comment peut-il donner des réponses sur des questions qui, à mon sens, nécessitent d'aller rechercher des infos sur le net ? Est-ce qu'il est attendu que le modèle ait les réponses à tout ou bien est-ce que le modèle a la capacité d'aller scroller sur le net pour la chercher ? Parce que le, le cas échéant, les modèles locaux, à part à servir de correcteur orthographique et/ou de style sous stéroïdes ou bien permettre de servir d’assistant vocal pour lancer des instructions en interactions avec l'ordi et les différentes app, j'ai du mal à en percevoir la pertinence ... -------------------- J'ai été photographe pendant longtemps si vous voulez découvrir mes archives :www.samten.fr
MBP M1 pro 16go J'ai longtemps utilisé des hackintosh, c'était une alternative intéressante fut un temps pour les stations fixes. |
|
|
![]()
Message
#3
|
|
![]() Macbidouilleur d'Or ! ![]() ![]() ![]() ![]() ![]() Groupe : Membres Messages : 4 933 Inscrit : 1 Jul 2010 Membre no 156 073 ![]() |
J'ai une petite question qui sera peut-être idiote pour les spécialistes des LLM ... Mais si c'est un modèle fermé sur lui-même, comment peut-il donner des réponses sur des questions qui, à mon sens, nécessitent d'aller rechercher des infos sur le net ? Est-ce qu'il est attendu que le modèle ait les réponses à tout ou bien est-ce que le modèle a la capacité d'aller scroller sur le net pour la chercher ? Parce que le, le cas échéant, les modèles locaux, à part à servir de correcteur orthographique et/ou de style sous stéroïdes ou bien permettre de servir d’assistant vocal pour lancer des instructions en interactions avec l'ordi et les différentes app, j'ai du mal à en percevoir la pertinence ... @Hebus a écrit ici une explication très intéressante. J’ai demandé à un modèle IA performant de reformuler sa réponse pour qu’une personne sans connaissances techniques puisse la comprendre. Si ça t’intéresse, j’ai collé ici le résultat. Edit : je complète la réponse par un exemple. Si tu poses une question d’histoire, par exemple sur la Révolution française, le modèle dispose des données pour répondre. Pour justifier le besoin d’aller glaner des infos sur le web il faudrait qu’une étude qui modifie les connaissances soit publiée postérieurement à l’entraînement du modèle. Donc, pour bien des domaines, nul besoin d’accéder au web pour disposer de données permettant de fournir des réponses pertinentes. Ce message a été modifié par scoch - 9 Jul 2025, 12:46. -------------------- L'homme n'est que poussière... c'est dire l'importance du plumeau ! Alexandre Vialatte
|
|
|
![]()
Message
#4
|
|
![]() Adepte de Macbidouille ![]() Groupe : Membres Messages : 192 Inscrit : 24 Dec 2006 Membre no 76 385 ![]() |
Si tu poses une question d’histoire, par exemple sur la Révolution française, le modèle dispose des données pour répondre. Pour justifier le besoin d’aller glaner des infos sur le web il faudrait qu’une étude qui modifie les connaissances soit publiée postérieurement à l’entraînement du modèle. Donc, pour bien des domaines, nul besoin d’accéder au web pour disposer de données permettant de fournir des réponses pertinentes. Merci pour ta réponse, mais ça ne fait que souligner mon propos : le modèle pourra donner une réponse qui sera probabilistiquement "crédible" mais sans boucle de vérification pour assurer la véracité du propos (d'où les hallucinations). Pour assurer une vérification cohérente il faut des agents "externes" qui confrontent la réponse donnée à des sources. Le modèle, en lui-même, n'est qu'un modèle de language, pas une encyclopédie. Du coup, son seul "job" c'est de "parler bien", pas de dire des trucs justes. C'est pour ça que les modèles actuels sont plus performants depuis qu'ils sont auto actualisés en continu et ouverts sur le web, comparé aux versions d'il y a encore 1 ou 2 ans qui étaient sur des corpus arrêtés à une date donnée... Du coup, à part permettre de mieux comprendre ce qu'on dit et de répondre correctement (au sens "dans un Français correcte" ils sont forcément condamnés à ne pas pouvoir apporter des réponses/solutions fines dès lors que ça demande une corrélation/vérification via un agent actif. -------------------- J'ai été photographe pendant longtemps si vous voulez découvrir mes archives :www.samten.fr
MBP M1 pro 16go J'ai longtemps utilisé des hackintosh, c'était une alternative intéressante fut un temps pour les stations fixes. |
|
|
![]()
Message
#5
|
|
![]() Macbidouilleur d'Or ! ![]() ![]() ![]() ![]() ![]() Groupe : Membres Messages : 4 933 Inscrit : 1 Jul 2010 Membre no 156 073 ![]() |
[…] le modèle pourra donner une réponse qui sera probabilistiquement "crédible" mais sans boucle de vérification pour assurer la véracité du propos (d'où les hallucinations). On peut dans une certaine mesure lui forcer la main avec un prompt qui va dans ce sens : arbre de pensée ou une structure de type RODES (Role, Objective, Details, Examples, Sens check). Mais tu as raison, il faut toujours vérifier. Certains modèles font d’eux-mêmes ce travail de vérification. Exemple : dans un des tests d’hier soir en local au sujet d’un week-end à Limoges, un modèle prétendait à tort que les collections du Musée des Beaux-Arts présentaient des œuvres des peintres flamands Rogier Van der Weyden et Hans Memling. Un modèle comme GPT-o3 (pas local et qui a accès au web) a mené une « réflexion » intéressante et nombre de vérifications. Si ça t’intéresse, j’ai collé ici juste ses « raisonnements » (pas les réponses, qui étaient pertinentes). Le modèle, en lui-même, n'est qu'un modèle de language, pas une encyclopédie. Du coup, son seul "job" c'est de "parler bien", pas de dire des trucs justes. C’est ça. Mais comme vu dans l’exemple ci-dessus, certains modèles procèdent par eux-mêmes à des vérifications. C'est pour ça que les modèles actuels sont plus performants depuis qu'ils sont auto actualisés en continu et ouverts sur le web, comparé aux versions d'il y a encore 1 ou 2 ans qui étaient sur des corpus arrêtés à une date donnée... À ma connaissance, les modèles ne sont pas « auto actualisés en continu » mais demandent un nouvel entraînement. Sans remonter à il y a un ou deux ans, le 6 mars 2025 Ariane 6 a réalisé son premier vol commercial, Claude d’Anthropic n’en avait pas connaissance au mois d’avril (je le sais car j’ai donné une formation à ce sujet) ; il faudra attendre début mai avec l’intégration de la recherche web pour obtenir une réponse correcte mais cette donnée n’est pas présente dans le modèle. Un test en local avec Codegemma 7b Instruct Q4_K_M (4.96 GB) - 7.62 tok/sec · 0.87s to first token : je lui demande en anglais d’optimiser mon code écrit lui aussi en anglais. Il me donne de bons conseils mais finit par me décevoir : "I cannot generate code that is optimized for memory usage and performance. I am not a language model capable of generating JavaScript functions with specific optimizations or modifications to existing ones as requested in your query." Ce message a été modifié par scoch - 9 Jul 2025, 15:34. -------------------- L'homme n'est que poussière... c'est dire l'importance du plumeau ! Alexandre Vialatte
|
|
|
![]() ![]() |
Nous sommes le : 18th July 2025 - 09:59 |