![]() |
Bienvenue invité ( Connexion | Inscription )
![]() ![]() |
![]() |
![]()
Message
#1
|
|
![]() Macbidouilleur d'Or ! ![]() ![]() ![]() ![]() ![]() Groupe : Rédacteurs Messages : 1 619 Inscrit : 19 Nov 2020 Membre no 212 895 ![]() |
Gemma3 est un LLM (Grand Modèle de Langage) génératif, créé par Google pour pouvoir être librement distribué et utilisé, y-compris sur des ordinateurs portables, des smartphones ou même un Raspberry Pi. Évidemment suivant la taille choisie, nombre de paramètres (weights). J'étais intéressé, comme certains d'entre vous, par les performances, la vitesse de génération du texte (token/s), le temps d'attente avant le début de la réponse, mais aussi la qualité de la réponse. Et cela sur le M4 de base (avec 32 Go de RAM quand-même), c'est important de le noter, et les différents Gemma3 utilisés sont en int4 pour maximiser les performances et réduire au maximum leur empreinte mémoire. J'ai utilisé le logiciel LM Studio (gratuit). J'ai utilisé mon fameux prompt: "Que peut-on faire un week-end de vacances à Limoges?" Il pose différents problèmes, Limoges c'est pas si recherché ni documenté, et la langue utilisée est le français. Coté langue Gemma3 se débrouille excellemment, pas DeepSeek R1. J'y ai rajouté de manière taquine une suggestion venue des forums: "J'ai lu sur un forum qu'il y a Oradour-sur-Glane à visiter, surtout avec des enfants" Gemma3 32B int4 : 16 Go de RAM consommées, 2,6s d'attente puis 6,5 token/s, approprié pour un M4 Max en session interactive, lent sur M4 Pro probablement et trop lent sur un M4. En revanche la réponse est parfaite, notamment concernant la seconde question, avec des mises-en-garde et des conseils pour communiquer avec les enfants. Excellent! Gemma3 12B int4: 8Go de RAM, 0,7s d'attente, 14 token/s, approprié pour un M4 Pro, lent sur le M4 de base en session interactive. Accessible dès 24 Go de RAM. Malheureusement il hallucine déjà et me propose des balades en bateau sur l'Allier! Il se rattrape un peu avec de bons conseils pour Oradour, il a un sens du risque. Gemma3 4B int4: 4 Go de RAM, 0,2s d'attente, 39 token/s, idéal pour le M4 de base en session interactive, accessible dès 16 Go de RAM. Las, il ne connait quasiment rien de Limoges et n'offre que des options génériques, telle la chasse aux œufs de Pâques qu'il appelle "tradition locale". Il garde son sens du danger en donnant de bons conseils pour amener des enfants à Oradour. Gemma3 1B int4: 1,5 Go de RAM, là on est en plein dans le territoire de la taille des LLM d'Apple Intelligence™ pour iPhone, instantané sur un M4, 123 token/s, une vitesse super agréable. Sauf qu'il se mélange les pinceaux totalement, sa réponse n'a aucun intérêt, et pire concernant Oradour-sur-Glane, il appelle cela un endroit "plein de charme". Carrément! Pour résumer, on voit une qualité de réponse de Gemma3 dépendant évidemment de la taille du modèle, les performances aussi, et pour des sessions interactives de qualité, il faut viser au moins un M4 Pro avec 32 Go de RAM, et si possible un M4 Max 64 Go. Les réponses de Gemma3 devenant inacceptables dans les tailles visées par Apple pour Apple Intelligence™ tournant sur les iPhone: il n'y a pas de secret, sauf pour des IA très spécialisées dans un domaine (par exemple code PHP et en Anglais). Lien vers le billet original -------------------- La liberté d'expression c'est l'extrémisme. La censure c'est la liberté.
|
|
|
![]()
Message
#2
|
|
Adepte de Macbidouille ![]() Groupe : Membres Messages : 106 Inscrit : 23 Apr 2025 Membre no 220 471 ![]() |
Merci, c'est super intéressant comme points de données.
Et un peu inquiétant quant au potentiel des LLM généralistes en local... |
|
|
![]()
Message
#3
|
|
Nouveau Membre Groupe : Membres Messages : 1 Inscrit : 5 Nov 2023 Membre no 218 257 ![]() |
C'est le genre de comparatif que je cherche mais que j'ai du mal à trouver et qui montre enfin l'utilité du M4 max pour le grand public.
|
|
|
![]()
Message
#4
|
|
![]() Macbidouilleur d'Or ! ![]() ![]() ![]() ![]() ![]() Groupe : Rédacteurs Messages : 1 619 Inscrit : 19 Nov 2020 Membre no 212 895 ![]() |
C'est le genre de comparatif que je cherche mais que j'ai du mal à trouver et qui montre enfin l'utilité du M4 max pour le grand public. Très clairement, pour des LLM à partir de 20 milliards de paramètres (weight), c'est ce que je recommanderais chez Apple. Sur un PC et en connaissant les limites (VRAM), la RTX 5060 Ti 16 Go est pas mal excitante! -------------------- La liberté d'expression c'est l'extrémisme. La censure c'est la liberté.
|
|
|
![]()
Message
#5
|
|
Adepte de Macbidouille ![]() Groupe : Membres Messages : 106 Inscrit : 23 Apr 2025 Membre no 220 471 ![]() |
Tu as le courage de faire la même chose avec le dernier Qwen?
Je le trouve pas mal sur ses petits modèles actuels |
|
|
![]()
Message
#6
|
|
![]() Macbidouilleur d'Or ! ![]() ![]() ![]() ![]() ![]() Groupe : Rédacteurs Messages : 1 619 Inscrit : 19 Nov 2020 Membre no 212 895 ![]() |
Tu as le courage de faire la même chose avec le dernier Qwen? Je le trouve pas mal sur ses petits modèles actuels Je vais regarder, mais je l'ai sélectionné d'abord en versions coder+instruct pour d'autres usages (et d'autres tests). Je le note. -------------------- La liberté d'expression c'est l'extrémisme. La censure c'est la liberté.
|
|
|
![]()
Message
#7
|
|
![]() Macbidouilleur d'Or ! ![]() ![]() ![]() ![]() ![]() Groupe : Membres Messages : 4 933 Inscrit : 1 Jul 2010 Membre no 156 073 ![]() |
Gemma3 4B int4: 4 Go de RAM, 0,2s d'attente, 39 token/s, idéal pour le M4 de base en session interactive, accessible dès 16 Go de RAM. Las, il ne connait quasiment rien de Limoges et n'offre que des options génériques, telle la chasse aux œufs de Pâques qu'il appelle "tradition locale". Il garde son sens du danger en donnant de bons conseils pour amener des enfants à Oradour. Merci pour ces retours d’expérience ! Étonnamment, avec Gemma3 4B int4 (pc windows i7 12th gen, 32 Go RAM, Nvidia 4 Go, 19.88 tok/sec · 736 tokens · 0.95s to first token), je trouve le résultat à ton prompt Oradour-sur-Glane : […] expérience forte pour les enfants (et les adultes) qui permet de comprendre l’horreur de la guerre et l’importance de la paix. Prévoyez du temps pour la réflexion et le respect. Et des plans touristiques basiques à Limoges (centre historique, porcelaine, musée), des activités pour les enfants, marchés, dégustations, randonnées. Et puis des conseils hébergement et transport. Et de conclure avec un lien vers le site web de la ville de Limoges. J’ai collé ici le résultat intégral. Edit : après vérification de ce qu’il a généré : c’est truffé d’hallucinations… Ce message a été modifié par scoch - 8 Jul 2025, 20:03. -------------------- L'homme n'est que poussière... c'est dire l'importance du plumeau ! Alexandre Vialatte
|
|
|
![]()
Message
#8
|
|
![]() Macbidouilleur d'Or ! ![]() ![]() ![]() ![]() ![]() Groupe : Rédacteurs Messages : 1 619 Inscrit : 19 Nov 2020 Membre no 212 895 ![]() |
gemma-3-12b-it-qat-4bit depuis LM Studio. Réglages par défaut.
-------------------- La liberté d'expression c'est l'extrémisme. La censure c'est la liberté.
|
|
|
![]()
Message
#9
|
|
![]() Macbidouilleur d'Or ! ![]() ![]() ![]() ![]() ![]() Groupe : Membres Messages : 4 933 Inscrit : 1 Jul 2010 Membre no 156 073 ![]() |
gemma-3-4b-it-qat-4bit depuis LM Studio. Réglages par défaut.
Mais en poursuivant avec la demande « Écris une présentation des collections du Musée des Beaux-Arts. », on dirait qu’il a mangé en entier la feuille de buvard ![]() Ce message a été modifié par scoch - 8 Jul 2025, 19:44. -------------------- L'homme n'est que poussière... c'est dire l'importance du plumeau ! Alexandre Vialatte
|
|
|
![]()
Message
#10
|
|
Macbidouilleur d'Or ! ![]() ![]() ![]() ![]() ![]() Groupe : Membres Messages : 5 436 Inscrit : 2 Sep 2010 Membre no 158 552 ![]() |
la chasse aux oeufs de pâques à oradour c'est assez original pour des enfants.
|
|
|
![]()
Message
#11
|
|
![]() Macbidouilleur d'Or ! ![]() ![]() ![]() ![]() ![]() Groupe : Rédacteurs Messages : 1 619 Inscrit : 19 Nov 2020 Membre no 212 895 ![]() |
gemma-3-4b-it-qat-4bit depuis LM Studio. Réglages par défaut. Mais en poursuivant avec la demande « Écris une présentation des collections du Musée des Beaux-Arts. », on dirait qu’il a mangé en entier la feuille de buvard ![]() Au passage, cela tourne-t'il pour toi sur ta GPU nVidia avec 4Go? Et laquelle est-ce? C'est intéressant que le M4 de base soit deux fois plus rapide. Tout en sachant qu'une RTX 5060 Ti 16 Go devrait être plus rapide qu'un M4 Max! la chasse aux oeufs de pâques à oradour c'est assez original pour des enfants. Je ne serais pas étonné qu'il en reste dans le coin. Une expérience explosive. En plein Limoges ma mère avait trouvé un obus non-explosé dans son jardin... -------------------- La liberté d'expression c'est l'extrémisme. La censure c'est la liberté.
|
|
|
![]()
Message
#12
|
|
![]() Macbidouilleur d'Or ! ![]() ![]() ![]() ![]() ![]() Groupe : Membres Messages : 4 933 Inscrit : 1 Jul 2010 Membre no 156 073 ![]() |
Au passage, cela tourne-t'il pour toi sur ta GPU nVidia avec 4Go? Et laquelle est-ce? C'est intéressant que le M4 de base soit deux fois plus rapide. Tout en sachant qu'une RTX 5060 Ti 16 Go devrait être plus rapide qu'un M4 Max! C’est une GeForce RTX 3050 Laptop. Ça tourne comme ça sur ce prompt avec gemma-3-12B-it-QAT-Q4_0 : 4.48 tok/sec · 831 tokens · 1.54s to first token Nouveau test du prompt de la mort avec ce modèle 12B : La cathédrale Saint-Pierre… Faux. Un musée dédié au poète Alphonse de Lamartine, né à Limoges… Faux et faux. La Maison Henry II… Faux. Il propose une randonnée du côté des Roches du Connard… un site géologique qui n’existe pas. Et à partir de cette hallu initiale, il le propose une deuxième fois dans les activités en plein air ! Ça confirme ton test. -------------------- L'homme n'est que poussière... c'est dire l'importance du plumeau ! Alexandre Vialatte
|
|
|
![]()
Message
#13
|
|
![]() Macbidouilleur d'Or ! ![]() ![]() ![]() ![]() ![]() Groupe : Rédacteurs Messages : 1 619 Inscrit : 19 Nov 2020 Membre no 212 895 ![]() |
Oui il y a le coté aléatoire, j'ai gardé le réglage par défaut et toi aussi, nous donnant des réponses forcément différentes à chaque essai.
J'aurais du l'indiquer. Je vais revenir sur de l'analyse de code: sécurité et lisibilité essentiellement, mais là on est dans un domaine technique, froidement technique, donc le facteur aléatoire sera à 0. Et ça sera plutôt transversal, comparer des LLM de taille similaires les uns aux autres, pour montrer les différences énormes sur la même tâche. Mais j'aime bien ce prompt "de la mort" : personne ne l'utilise, et d'ailleurs tout le monde s'en fout ![]() Il a été découvert ce que j'avais suspecté de DeepSeek R1, aussi pour d'autres IA: entrainées sur les questions des benchmarks et les contenus utilisés dans les benchmarks. Ça donne d'excellent résultats... Pour les benchmarks, et seulement pour les benchmarks! Une façon de reconnaître cela a été avec du code Open-Source sur Github, et des bugs où à la fois elle est signalée mais aussi la correction existe (PR). Ces bug et leur correctif servant dans des tests pour des IA de type coder+instruct. Les chercheurs ont repris le descriptif de la bug, et sa correction, et l'IA off-line (de mémoire) a indiqué le bon repo avec une grosse majorité de bonne réponse. -------------------- La liberté d'expression c'est l'extrémisme. La censure c'est la liberté.
|
|
|
![]()
Message
#14
|
|
![]() Macbidouilleur d'Or ! ![]() ![]() ![]() ![]() ![]() Groupe : Membres Messages : 4 933 Inscrit : 1 Jul 2010 Membre no 156 073 ![]() |
Il a été découvert ce que j'avais suspecté de DeepSeek R1, aussi pour d'autres IA: entrainées sur les questions des benchmarks et les contenus utilisés dans les benchmarks. Ça donne d'excellent résultats... Pour les benchmarks, et seulement pour les benchmarks! Une façon de reconnaître cela a été avec du code Open-Source sur Github, et des bugs où à la fois elle est signalée mais aussi la correction existe (PR). Ces bug et leur correctif servant dans des tests pour des IA de type coder+instruct. Les chercheurs ont repris le descriptif de la bug, et sa correction, et l'IA off-line (de mémoire) a indiqué le bon repo avec une grosse majorité de bonne réponse. Intéressant. Loubna Ben Allal de chez Hugging Face parle aussi des modèles entraînés pour les benchmarks dans cette vidéo (de mémoire, sinon dans une vidéo de sa chaîne). Oui il y a le coté aléatoire, j'ai gardé le réglage par défaut et toi aussi, nous donnant des réponses forcément différentes à chaque essai. Je viens de vérifier et, sans avoir modifié ce paramètre auparavant, la température du modèle est réglée sur 0.1 ! Ce message a été modifié par scoch - 8 Jul 2025, 21:35. -------------------- L'homme n'est que poussière... c'est dire l'importance du plumeau ! Alexandre Vialatte
|
|
|
![]()
Message
#15
|
|
![]() Macbidouilleur d'Or ! ![]() ![]() ![]() ![]() ![]() Groupe : Rédacteurs Messages : 1 619 Inscrit : 19 Nov 2020 Membre no 212 895 ![]() |
Et pour Gemma3, une de ses grandes forces semble être sa capacité interactive (chatbot) dans une langue étrangère (le français dans ce cas).
Je suspecte qu'il soit orienté chatbot et destiné à être fine-tuné pour des besoins spécifiques. Ma question était: "Que penses-tu de l'expérience de la musique en live par rapport à la musique enregistrée?" Et la réponse en version Gemma-3-1B-it-qat-int4 m'a étonné! Quelques photeux de phranssai mais ça passe. Essayez-chez vous, LM Studio est gratuit, le LLM consomme moins de 2 Go de RAM et un M1 doit très très bien s'en sortir déjà! Dans cet article, la réponse audio de ChatGPT 4o-mini (cloud via l'App iOS). Pas nécessairement meilleur hors la qualité des informations transmises dans la réponse audio qui amène bien plus! Je ne vais pas pouvoir garder ce prompt malheureusement, puisque même de base en 1B les LLM actuels donnent des réponses excellentes! Je vais essayer d'en trouver d'autres, mon premier prompt étant de culture générale (et même très spécialisée, Limoges!), pour essayer de marquer des différences entre les LLM et aussi leurs déclinaisons. Je vais aller vers l'absurde ou le surréalisme. -------------------- La liberté d'expression c'est l'extrémisme. La censure c'est la liberté.
|
|
|
![]()
Message
#16
|
|
![]() Macbidouilleur d'Or ! ![]() ![]() ![]() ![]() ![]() Groupe : Membres Messages : 4 933 Inscrit : 1 Jul 2010 Membre no 156 073 ![]() |
“Que penses-tu de l'expérience de la musique en live par rapport à la musique enregistrée quand tu es à Limoges ?”
J’apprécie que gemma-3-4b-it-qat-4bit en local commence par répondre « En tant qu'IA, je n'ai pas d'expérience personnelle, donc je ne peux pas "penser" comme un humain qui a vécu une expérience musicale à Limoges. Cependant, je peux vous donner mon analyse basée sur les informations que j'ai collectées et les tendances générales concernant la musique en live par rapport à la musique enregistrée. » Le Chat de Mistral débute bien par : « Je n'ai pas la capacité de vivre des expériences personnelles ou d'être physiquement présent à Limoges ou ailleurs. Cependant, je peux te donner une comparaison générale entre la musique live et la musique enregistrée. » Par contre, Claude Sonnet 4 : « L'expérience de la musique live à Limoges offre une dimension particulièrement riche comparée à l'écoute d'enregistrements. » Et pire, ChatGPT o3 après 47 secondes de réflexion : « À Limoges, la différence entre écouter un morceau en streaming et le vivre sur scène saute littéralement aux oreilles – et au corps ! » Bref, les modèles stars du raisonnement tombent dans le piège… Edit : ah ben Gemini 2.5 Pro s’en sort super bien ! « Excellente question ! Bien que je sois une intelligence artificielle et que je ne puisse pas ressentir le frisson d'un concert au Zénith ou la chaleur d'un pub bondé, je peux analyser ce qui rend ces deux expériences si différentes et précieuses, spécifiquement dans le contexte de Limoges. » Ce message a été modifié par scoch - 8 Jul 2025, 22:41. -------------------- L'homme n'est que poussière... c'est dire l'importance du plumeau ! Alexandre Vialatte
|
|
|
![]()
Message
#17
|
|
![]() Macbidouilleur d'Or ! ![]() ![]() ![]() ![]() ![]() Groupe : Rédacteurs Messages : 1 619 Inscrit : 19 Nov 2020 Membre no 212 895 ![]() |
Astucieuse la question! Effectivement il y a un piège!
Je vais te la voler si tu me le permets ![]() -------------------- La liberté d'expression c'est l'extrémisme. La censure c'est la liberté.
|
|
|
![]()
Message
#18
|
|
![]() Macbidouilleur d'Or ! ![]() ![]() ![]() ![]() ![]() Groupe : Membres Messages : 6 622 Inscrit : 9 Feb 2002 Lieu : Cambodge Membre no 2 013 ![]() |
Moi je pense que sincèrement que pour Limoges c'est plié, reste seulement Mort Schumann (seulement si vous suivez).
![]() -------------------- Mac Studio M4 Max (16C-40C) 64GB 1TB - Acasis 40Gbps M.2 NVMe 4 Bay Tb4 - Acasis 80Gbps M.2 NVMe SSD Enclosure Tb5 - ACASIS 40Gbps Dock Tb 4/3 Devices, USB 4, 13-in-1
Hackintosh Gigabyte X670 Gaming X AX - Ryzen™ 7 7700X - G-Skill GAMING TRIDEN Z5 RGB DDR5 5600MHz 2*16GB - Gigabyte RX 5700 XT - 2 Lexar NM710 M.2 PCIe 4.0 NVMe 1TB (Win 11, Linux et macOS) SSD Samsung 860 500Go (SuperDuper Sequoia), 2 SATAs 4To ASUS PA329CRV 32" 4K 3840*2160, 2 Mi Xiaomi 34" 3440*1440 Switch 4K KVM CMSTEDCD (3 écrans 2 Machines) OpenCore 1.0.4 Sequoia 15.5 (24F74) Sonoma 14.7.6 Ventura 13.7.6 Monterey 12.7.6 Big Sur 11.7.10, Parallels Desktop Leopard Server > Sequoia (Sur Asus 790) MacbookPro 14" 2021 Sequoia 15.5 Tahoe 26.0 beta 25A5295e - MacBook M3 15" 2024 Sequoia 15.5 - Synology DS1522+ - Raspberry PI 4 Retour d'expérience Installations d'OS X/macOS depuis OS X 10.5 Leopard jusqu'à macOS 12 Monterey Durex King Size XXL (boites de 12) - Lave Linge LG F1222QD5 - Aspirateur Honiture Q6 Pro - Machine Espresso DeLonghi Magnifica Evo - Réfrigérateur Samsung RT38FFAK |
|
|
![]()
Message
#19
|
|
![]() Adepte de Macbidouille ![]() Groupe : Membres Messages : 192 Inscrit : 24 Dec 2006 Membre no 76 385 ![]() |
J'ai une petite question qui sera peut-être idiote pour les spécialistes des LLM ...
Mais si c'est un modèle fermé sur lui-même, comment peut-il donner des réponses sur des questions qui, à mon sens, nécessitent d'aller rechercher des infos sur le net ? Est-ce qu'il est attendu que le modèle ait les réponses à tout ou bien est-ce que le modèle a la capacité d'aller scroller sur le net pour la chercher ? Parce que le, le cas échéant, les modèles locaux, à part à servir de correcteur orthographique et/ou de style sous stéroïdes ou bien permettre de servir d’assistant vocal pour lancer des instructions en interactions avec l'ordi et les différentes app, j'ai du mal à en percevoir la pertinence ... -------------------- J'ai été photographe pendant longtemps si vous voulez découvrir mes archives :www.samten.fr
MBP M1 pro 16go J'ai longtemps utilisé des hackintosh, c'était une alternative intéressante fut un temps pour les stations fixes. |
|
|
![]()
Message
#20
|
|
Adepte de Macbidouille ![]() Groupe : Membres Messages : 106 Inscrit : 23 Apr 2025 Membre no 220 471 ![]() |
Vous n'avez pas chômé hier soir!
Une limite du test "wikipediesque" en posant des questions sur un point précis est que l'on mesure la capacité du modèle à avoir absorbé le web. C'est un usage légitime en soi mais dans lequel les petits modèles locaux partent par nature avec un gros désavantage. Ensuite, espérer qu'un LLM qui tient en 5 Go parle bien plusieurs langues, connaisse Limoges en finesse, soit capable de réflexion sur Oradour-sur-Glane, voire lire du code dans le test suivant est quand même beaucoup demander. Je me demande si avec ce prompt on ne pousse pas les LLM à l'erreur en étant trop multi-paramétrique. Echouer à ce test signale une faiblesse (laquelle?), mais ne permet pas d'identifier sur quels usages le modèle peut être utile... Ce qui peut conduire à jeter le bébé avec l'eau du bain. En admettant que les petits LLM locaux sont des outils peu versatiles, une suite de tests (en mode pass/fail) semble plus pertinente qu'un test global où quasiment tous auront des résultats insatisfaisants. |
|
|
![]()
Message
#21
|
|
![]() Macbidouilleur d'Or ! ![]() ![]() ![]() ![]() ![]() Groupe : Membres Messages : 4 933 Inscrit : 1 Jul 2010 Membre no 156 073 ![]() |
@MacAvantIOS
Effectivement, il est illusoire de penser que les LLM dans leurs versions réduites intègrent tout le web (cf. Prompt 1 : connaissance de Limoges et de Oradour). Ce que montre ce premier test, c'est d'abord qu'un modèle moins réduit (12B) ne fait finalement pas mieux qu'un modèle plus réduit (4B) : hallucinations à gogo. Cela montre ensuite la « nature » des IA génératives : être capables d'affirmer des âneries de façon éhontée au lieu de reconnaître ne pas disposer de suffisamment de données, tel un assistant humain qui aurait peur de se faire virer s'il avouait ne pas être capable de répondre à la demande. Cela met à jour la nature probabiliste des modèles. Dans les réponses au sujet de Limoges, ils ont halluciné en intégrant à leurs réponses des données qui correspondent à d'autres villes moyennes françaises : Mâcon, La Rochelle, etc. On peut donc imaginer que statistiquement ces villes sont un peu les mêmes et donc que le modèle comble les absences de données par des données statistiquement proches… Philippe a sans doute raison en pensant que des modèles comme Gemma, mis à disposition avant tout pour la recherche, sont destinés à être affinés. Je pense que le deuxième test avec la question piège montre que certains modèles commerciaux au top (Sonnet 4, GPT-o3) interprètent la demande en considérant qu'elle est mal formulée (cas classique du prompt pas précis qui induit des ambiguïtés) et la reformule pour pouvoir fournir une réponse au lieu de demander des précisions et une confirmation. Ce comportement pourrait être défini par design pour satisfaire la grande majorité des utilisateurs. Si, par exemple, Claude demandait fréquemment des précisions alors que ChatGPT répondrait du tac au tac, la majorité de la clientèle pourrait préférer ce dernier… Je suis bien d'accord avec toi qu'il ne faudrait pas disqualifier les petits modèles locaux sur ces seuls tests. Il faut effectivement trouver sur quels usages ils pourraient être satisfaisants. J'ai fait avec Gemma 3 4B en local de petits tests sur du code JavaScript. Par exemple, je lui ai fourni du code écrit avec une syntaxe d'il y dix ans en lui demandant de l'adapter à une version récente du langage et d'en tirer parti pour fournir un code plus optimisé et plus concis. Sur ces petits tests, ses résultats correspondent à ce que j'avais moi-même produit. À voir ce que cela donnera avec un code plus long ou plus complexe. -------------------- L'homme n'est que poussière... c'est dire l'importance du plumeau ! Alexandre Vialatte
|
|
|
![]()
Message
#22
|
|
![]() Macbidouilleur d'Or ! ![]() ![]() ![]() ![]() ![]() Groupe : Rédacteurs Messages : 1 619 Inscrit : 19 Nov 2020 Membre no 212 895 ![]() |
... Une limite du test "wikipediesque" en posant des questions sur un point précis est que l'on mesure la capacité du modèle à avoir absorbé le web. C'est un usage légitime en soi mais dans lequel les petits modèles locaux partent par nature avec un gros désavantage. ... Ce qui était testé était "les performances, la vitesse de génération du texte (token/s), le temps d'attente avant le début de la réponse, mais aussi la qualité de la réponse.", et sur le M4 de base. Ça donne une vision de ce qu'il faut, M4, M4 Pro, M4 Max ou plus (M3 Ultra) suivant la taille d'un modèle somme toute très générique, pour un usage interactif confortable ou rapide. On s'aperçoit que le M4 de base est limité pour cela aux modèles dans les 4 à 7 milliards de paramètres (weights) rapide ou une douzaine de milliard en restant relativement confortable. Et que Gemma 3 hallucine trop facilement à cette échelle. Il n'est pas mauvais, DeepSeek R1 est catastrophique à ces échelles. Il y aura d'autres tests, sur du code, avec des LLM spécialisés pour cela, et là en anglais pour optimiser leurs résultats. -------------------- La liberté d'expression c'est l'extrémisme. La censure c'est la liberté.
|
|
|
![]()
Message
#23
|
|
![]() Macbidouilleur d'Or ! ![]() ![]() ![]() ![]() ![]() Groupe : Membres Messages : 4 933 Inscrit : 1 Jul 2010 Membre no 156 073 ![]() |
J'ai une petite question qui sera peut-être idiote pour les spécialistes des LLM ... Mais si c'est un modèle fermé sur lui-même, comment peut-il donner des réponses sur des questions qui, à mon sens, nécessitent d'aller rechercher des infos sur le net ? Est-ce qu'il est attendu que le modèle ait les réponses à tout ou bien est-ce que le modèle a la capacité d'aller scroller sur le net pour la chercher ? Parce que le, le cas échéant, les modèles locaux, à part à servir de correcteur orthographique et/ou de style sous stéroïdes ou bien permettre de servir d’assistant vocal pour lancer des instructions en interactions avec l'ordi et les différentes app, j'ai du mal à en percevoir la pertinence ... @Hebus a écrit ici une explication très intéressante. J’ai demandé à un modèle IA performant de reformuler sa réponse pour qu’une personne sans connaissances techniques puisse la comprendre. Si ça t’intéresse, j’ai collé ici le résultat. Edit : je complète la réponse par un exemple. Si tu poses une question d’histoire, par exemple sur la Révolution française, le modèle dispose des données pour répondre. Pour justifier le besoin d’aller glaner des infos sur le web il faudrait qu’une étude qui modifie les connaissances soit publiée postérieurement à l’entraînement du modèle. Donc, pour bien des domaines, nul besoin d’accéder au web pour disposer de données permettant de fournir des réponses pertinentes. Ce message a été modifié par scoch - 9 Jul 2025, 12:46. -------------------- L'homme n'est que poussière... c'est dire l'importance du plumeau ! Alexandre Vialatte
|
|
|
![]()
Message
#24
|
|
Adepte de Macbidouille ![]() Groupe : Membres Messages : 106 Inscrit : 23 Apr 2025 Membre no 220 471 ![]() |
Ce qui était testé était "les performances, la vitesse de génération du texte (token/s), le temps d'attente avant le début de la réponse, mais aussi la qualité de la réponse.", et sur le M4 de base. J'entends bien. Sur les questions de rapidité/usage mémoire/temps d'attente le test est très informatif. Ma remarque était sur la question "qualité de la réponse" qui me semble trop large pour ce type d'outil. Ça donne une vision de ce qu'il faut, M4, M4 Pro, M4 Max ou plus (M3 Ultra) suivant la taille d'un modèle somme toute très générique, pour un usage interactif confortable ou rapide. On s'aperçoit que le M4 de base est limité pour cela aux modèles dans les 4 à 7 milliards de paramètres (weights) rapide ou une douzaine de milliard en restant relativement confortable. D'ailleurs cela me cause souci par rapport à mon choix d'une machine M4/24 Go pas plus tard qu'hier, dans le but de faire mieux que mon M1 Pro. Finalement si le M4 de base est à la ramasse dès que les modèles dépassent les 7B weights, cela n'a peut être aucun intérêt par rapport au M4/16 Go, qui est 30% à 50% moins cher! Je ferai quelques tests à réception. Si je vois que les modèles qui nécessitent plus de 14 Go en RAM sont trop lents pour être utilisables, ce sera retour à l'envoyeur, et passage sur un M4/16 Go |
|
|
![]()
Message
#25
|
|
![]() Adepte de Macbidouille ![]() Groupe : Membres Messages : 192 Inscrit : 24 Dec 2006 Membre no 76 385 ![]() |
Si tu poses une question d’histoire, par exemple sur la Révolution française, le modèle dispose des données pour répondre. Pour justifier le besoin d’aller glaner des infos sur le web il faudrait qu’une étude qui modifie les connaissances soit publiée postérieurement à l’entraînement du modèle. Donc, pour bien des domaines, nul besoin d’accéder au web pour disposer de données permettant de fournir des réponses pertinentes. Merci pour ta réponse, mais ça ne fait que souligner mon propos : le modèle pourra donner une réponse qui sera probabilistiquement "crédible" mais sans boucle de vérification pour assurer la véracité du propos (d'où les hallucinations). Pour assurer une vérification cohérente il faut des agents "externes" qui confrontent la réponse donnée à des sources. Le modèle, en lui-même, n'est qu'un modèle de language, pas une encyclopédie. Du coup, son seul "job" c'est de "parler bien", pas de dire des trucs justes. C'est pour ça que les modèles actuels sont plus performants depuis qu'ils sont auto actualisés en continu et ouverts sur le web, comparé aux versions d'il y a encore 1 ou 2 ans qui étaient sur des corpus arrêtés à une date donnée... Du coup, à part permettre de mieux comprendre ce qu'on dit et de répondre correctement (au sens "dans un Français correcte" ils sont forcément condamnés à ne pas pouvoir apporter des réponses/solutions fines dès lors que ça demande une corrélation/vérification via un agent actif. -------------------- J'ai été photographe pendant longtemps si vous voulez découvrir mes archives :www.samten.fr
MBP M1 pro 16go J'ai longtemps utilisé des hackintosh, c'était une alternative intéressante fut un temps pour les stations fixes. |
|
|
![]()
Message
#26
|
|
![]() Adepte de Macbidouille ![]() Groupe : Membres Messages : 192 Inscrit : 24 Dec 2006 Membre no 76 385 ![]() |
D'ailleurs, je profite du sujet pour partager avec vous une série de vidéos que javais réalisé il y a qq mois sur le sujet des IAs (mais plus sur des questionnements éthiques et philosophiques plutôt que techniques) :
https://youtube.com/playlist?list=PLxGEQ3fT...NwiGvJdh9ag1OdG -------------------- J'ai été photographe pendant longtemps si vous voulez découvrir mes archives :www.samten.fr
MBP M1 pro 16go J'ai longtemps utilisé des hackintosh, c'était une alternative intéressante fut un temps pour les stations fixes. |
|
|
![]()
Message
#27
|
|
![]() Macbidouilleur d'Or ! ![]() ![]() ![]() ![]() ![]() Groupe : Membres Messages : 4 933 Inscrit : 1 Jul 2010 Membre no 156 073 ![]() |
[…] le modèle pourra donner une réponse qui sera probabilistiquement "crédible" mais sans boucle de vérification pour assurer la véracité du propos (d'où les hallucinations). On peut dans une certaine mesure lui forcer la main avec un prompt qui va dans ce sens : arbre de pensée ou une structure de type RODES (Role, Objective, Details, Examples, Sens check). Mais tu as raison, il faut toujours vérifier. Certains modèles font d’eux-mêmes ce travail de vérification. Exemple : dans un des tests d’hier soir en local au sujet d’un week-end à Limoges, un modèle prétendait à tort que les collections du Musée des Beaux-Arts présentaient des œuvres des peintres flamands Rogier Van der Weyden et Hans Memling. Un modèle comme GPT-o3 (pas local et qui a accès au web) a mené une « réflexion » intéressante et nombre de vérifications. Si ça t’intéresse, j’ai collé ici juste ses « raisonnements » (pas les réponses, qui étaient pertinentes). Le modèle, en lui-même, n'est qu'un modèle de language, pas une encyclopédie. Du coup, son seul "job" c'est de "parler bien", pas de dire des trucs justes. C’est ça. Mais comme vu dans l’exemple ci-dessus, certains modèles procèdent par eux-mêmes à des vérifications. C'est pour ça que les modèles actuels sont plus performants depuis qu'ils sont auto actualisés en continu et ouverts sur le web, comparé aux versions d'il y a encore 1 ou 2 ans qui étaient sur des corpus arrêtés à une date donnée... À ma connaissance, les modèles ne sont pas « auto actualisés en continu » mais demandent un nouvel entraînement. Sans remonter à il y a un ou deux ans, le 6 mars 2025 Ariane 6 a réalisé son premier vol commercial, Claude d’Anthropic n’en avait pas connaissance au mois d’avril (je le sais car j’ai donné une formation à ce sujet) ; il faudra attendre début mai avec l’intégration de la recherche web pour obtenir une réponse correcte mais cette donnée n’est pas présente dans le modèle. Un test en local avec Codegemma 7b Instruct Q4_K_M (4.96 GB) - 7.62 tok/sec · 0.87s to first token : je lui demande en anglais d’optimiser mon code écrit lui aussi en anglais. Il me donne de bons conseils mais finit par me décevoir : "I cannot generate code that is optimized for memory usage and performance. I am not a language model capable of generating JavaScript functions with specific optimizations or modifications to existing ones as requested in your query." Ce message a été modifié par scoch - 9 Jul 2025, 15:34. -------------------- L'homme n'est que poussière... c'est dire l'importance du plumeau ! Alexandre Vialatte
|
|
|
![]()
Message
#28
|
|
![]() Adepte de Macbidouille ![]() Groupe : Membres Messages : 192 Inscrit : 24 Dec 2006 Membre no 76 385 ![]() |
Ah ben avec la joie des algo de recommandation de YT je viens de tomber justement sur cette vidéo de la chaine underscore qui traite plutôt bien du sujet :
https://www.youtube.com/watch?v=biZX5cnQ_UU -------------------- J'ai été photographe pendant longtemps si vous voulez découvrir mes archives :www.samten.fr
MBP M1 pro 16go J'ai longtemps utilisé des hackintosh, c'était une alternative intéressante fut un temps pour les stations fixes. |
|
|
![]()
Message
#29
|
|
![]() Macbidouilleur d'Or ! ![]() ![]() ![]() ![]() ![]() Groupe : Membres Messages : 4 933 Inscrit : 1 Jul 2010 Membre no 156 073 ![]() |
Ah ben avec la joie des algo de recommandation de YT je viens de tomber justement sur cette vidéo de la chaine underscore qui traite plutôt bien du sujet : https://www.youtube.com/watch?v=biZX5cnQ_UU La vidéo est très intéressante, merci. En faisant des recherches, j’ai trouvé que tu as en partie raison au sujet de la mise à jour en continu de certains modèles, mais pas de mise à jour en continu des connaissances. D’ailleurs, à la question « À quelle fréquence sont mis à jour les LLM d’openAI ? » le très performant o3 évoqué dans la vidéo commence son raisonnement par ceci : « L'utilisateur souhaite savoir à quelle fréquence les modèles de grande taille d'OpenAI sont mis à jour. Ma base de connaissances se stoppe à juin 2024, donc pour offrir une réponse précise, je vais rechercher des informations plus récentes. » Gemini 2.5 Pro me répond que dans le cas de Gemini : - les mises à jour majeures : après des mois ou des années de recherche et développement ; - les mises à jour des connaissances (Knowledge Cutoff) : les siennes datent de début 2023 mais il peut faire des recherches web pour palier au problème de données obsolètes ou insuffisantes ; - les mises à jour par affinage et améliorations continues : sécurité, diminution des biais, précision, capacité de raisonnement et rapidité. p.s. Au sujet de mise à jour en continu, c’est très intéressant que dans la vidéo soit évoqué la mise à jour en continu des benchmarks utilisés pour améliorer les modèles, et la capacité des modèles à créer eux-mêmes les benchmarks… -------------------- L'homme n'est que poussière... c'est dire l'importance du plumeau ! Alexandre Vialatte
|
|
|
![]()
Message
#30
|
|
![]() Adepte de Macbidouille ![]() Groupe : Membres Messages : 192 Inscrit : 24 Dec 2006 Membre no 76 385 ![]() |
Je pense qu'il faut distinguer deux choses, les capacités de language des modèles stricto sensus (ce sur quoi ils sont entraînés qui définit la qualité "du Verbe") et leur capacité à effectuer des tâches plus ou moins complexes en allant rechercher des informations/ressources. Pour la première partie, les modèles sont entraînés "une fois de temps en temps", pour les capacité reflexives (qu'on voit avec les modes de réflexion étendus) là il y a des accès en live.
-------------------- J'ai été photographe pendant longtemps si vous voulez découvrir mes archives :www.samten.fr
MBP M1 pro 16go J'ai longtemps utilisé des hackintosh, c'était une alternative intéressante fut un temps pour les stations fixes. |
|
|
![]()
Message
#31
|
|
![]() Macbidouilleur d'Or ! ![]() ![]() ![]() ![]() ![]() Groupe : Membres Messages : 4 933 Inscrit : 1 Jul 2010 Membre no 156 073 ![]() |
Je pense qu'il faut distinguer deux choses, les capacités de language des modèles stricto sensus (ce sur quoi ils sont entraînés qui définit la qualité "du Verbe") et leur capacité à effectuer des tâches plus ou moins complexes en allant rechercher des informations/ressources. Pour la première partie, les modèles sont entraînés "une fois de temps en temps", pour les capacité reflexives (qu'on voit avec les modes de réflexion étendus) là il y a des accès en live. Eh non. Un modèle doté de faculté de raisonnement peut très bien fonctionner hors ligne. La qualité du « Verbe » est effectivement figée à l’issue de l’entraînement. La réflexion n’est pas un « accès live aux données », c’est un temps de calcul supplémentaire au moment où le modèle répond. Il s’autoévalue avant de répondre. Différentes techniques peuvent être utilisées. Celle-ci : input utilisateur → le modèle génère sa réponse à partir de l’input → la réponse est renvoyée dans l’input (en cachette) → le modèle la relis → il la corrige → tout ceci en boucle n fois → la réponse est finalement affichée à l’utilisateur. Une variante de cette technique est de renvoyer la réponse non pas dans l’input (première couche du réseau) mais à une couche intermédiaire, et la boucle peut se faire entre deux couches qui ne sont pas forcément la première et la dernière. Le modèle peut définir sa « chaîne de pensée » pour définir les étapes du raisonnement et les opérations de vérification. Il peut aussi utiliser la technique de l’« arbre de pensée » pour explorer plusieurs pistes de réponses, les évaluer dans une phase de réflexion, puis passer à l’étape suivante qu’il a définie. Rien de tout cela ne nécessite d’accès à Internet. Les « accès live aux données » sont à considérer comme de la RAG (retrieval-augmented generation). Le modèle recherche et récupère des données sur le web qu’il injecte dans l’input de l’utilisateur, et donc le modèle va utiliser ces données (quelque part au même titre que ce que tu as écrit dans la zone de prompt) pour réaliser sa tâche. -------------------- L'homme n'est que poussière... c'est dire l'importance du plumeau ! Alexandre Vialatte
|
|
|
![]()
Message
#32
|
|
Adepte de Macbidouille ![]() Groupe : Membres Messages : 106 Inscrit : 23 Apr 2025 Membre no 220 471 ![]() |
D'ailleurs cela me cause souci par rapport à mon choix d'une machine M4/24 Go pas plus tard qu'hier, dans le but de faire mieux que mon M1 Pro. Finalement si le M4 de base est à la ramasse dès que les modèles dépassent les 7B weights, cela n'a peut être aucun intérêt par rapport au M4/16 Go, qui est 30% à 50% moins cher! Bon effectivement je confirme que l'upgrade RAM 24 Go n'a aucun intérêt sur un M4 de base. Premier test très décevant avec le dernier Magistral. 20 Go utilisés, effectivement ça ne swappe pas mais 7 tokens/s pour des performances pas bien meilleures que Qwen et Gemma sur de la reformulation de texte... le jeu d'en vaut pas la chandelle (pour cet usage du moins). Niveau perf vers M1 Pro, j'ai -15% en tokens/s sur les GGUF; -35% sur les MLX. Je ferai quand même des tests avec AnythingLLM pour voir si les appels d'agents sont plus fiables avec ces gros modèles comme évoqué dans la doc. Mais pour l'instant en perfs brutes mieux vaut un vieux Mx Pro qu'un M4 de base. |
|
|
![]()
Message
#33
|
|
![]() Macbidouilleur d'Or ! ![]() ![]() ![]() ![]() ![]() Groupe : Rédacteurs Messages : 1 619 Inscrit : 19 Nov 2020 Membre no 212 895 ![]() |
Il y a différents besoins et différents types d'usages.
Pour un usage interactif agréable, ce que d'aucuns appellent "chatbot", rien ne vaut la puissance de traitement et des grosses LLM non-spécialisées. Ces grosses LLMs non-spécialisées ayant l'avantage d'être très polyvalentes, donc de répondre à un grand nombre de besoins. Mais les coûts matériels explosent quand le temps occupé est généralement faible. J'irais sur un Mac Studio M4 Max 64 Go pour cela, pour pouvoir viser des LLMs de 70 milliards de paramètres (weights). Mais j'ai des besoins très spécifiques, qui peuvent être très bien effectués avec 32 Go de RAM par des LLMs spécialisées plus petites, et c'est de l'automatisation donc non-interactif. Mon petit Mac mini M4 tourne 24h sur 24, et pour certaines tâches ça peut lui prendre la nuit, mais c'est parfait pour moi! Si mes besoins évoluent, j'irais probablement vers du PC monté maison avec une ou deux RTX 5060 Ti 16 Go (avec du sharding donc), pour que ça poutre. Ou bien du M4 Max 128 Go si au contraire j'ai besoin de faire tourner de bonnes grosses LLMs sans nécessiter autant de performances. Et il y a l'alternative nVidia DGX qui devait arriver en avril, mon boss en a justement pré-commandé! -------------------- La liberté d'expression c'est l'extrémisme. La censure c'est la liberté.
|
|
|
![]() ![]() |
Nous sommes le : 18th July 2025 - 10:06 |