![]() |
Bienvenue invité ( Connexion | Inscription )
![]() |
![]()
Message
#1
|
|
![]() Macbidouilleur d'Or ! ![]() ![]() ![]() ![]() ![]() Groupe : Rédacteurs Messages : 1 833 Inscrit : 19 Nov 2020 Membre no 212 895 ![]() |
Auteur Marcin Wieclaw
Quand on regarde du côté PC, deux mondes s’affrontent : d’un côté les machines pré-assemblées, souvent "gaming", bardées de LED et proposées à des prix absurdes pour ce qu'elles offrent… Et de l’autre, le sur-mesure, qui peut réellement avoir du sens si l’on sait ce qu’on veut. Dans mon cas, avec des besoins bien spécifiques, une bonne puissance CPU, 32 Go de RAM minimum, et surtout une carte graphique capable de faire tourner des modèles de langage (LLM) en local, certaines configurations PC commencent à devenir intéressantes. CPU : AMD en embuscade Côté processeur, le Ryzen 9 7900X (12 cœurs) offre de très bonnes performances brutes, au-dessus d’un M4. Le 7950X (16 cœurs), pour 150 € de plus, est proche d’un M4 Max 14 cœurs ou M4 Pro en multi-thread, tout en restant très compétitif en prix/performance. Je n'attends rien d'Intel: on a déjà du bon chauffage à la maison! RAM : la claque C’est là que le PC enterre Apple. Pour le prix qu’Apple facture pour 8 Go supplémentaires (passer de 16 à 24 Go coûte 250 €…), on peut s’offrir 96 Go de DDR5 sur PC ! Autant dire que pour des bases SQLite en RAM ou des projets lourds, la messe est dite. GPU : le vrai nerf de la guerre Et là, nVidia vient de frapper fort avec la RTX 5060 Ti 16 Go. Pensée pour l’inférence IA, avec ses Tensor Cores Blackwell et le support du FP4 (float 4 bits), elle surpasse clairement un M4 Max et même un M3 Ultra dans ce domaine très spécifique. Côté jeu vidéo en revanche, elle atteint ses limites en 4K : la RTX 5070 prendra le relais pour les gamers. Mais pour de l'IA locale, c’est une bombe! Stockage : c’est cadeau 1 To en NVMe, c’est désormais moins de 100 €. Sans commentaire. Le hic Oui, tout ça a un coût : boîtier, alimentation costaude (800W, si un jour vous voulez doubler les GPU), refroidissement, etc. On frôle facilement les 1500 €, sans Windows, et sans macOS bien sûr. Et on perd aussi la portabilité. Un Mac mini, ça se trimballe dans un sac. Une tour PC… pas vraiment. Conclusion Le monde PC devient vraiment intéressant dès qu’on a besoin de beaucoup de RAM, d'une ou plusieurs GPU musclées ou d’un gros stockage. Ou d'un ordi très abordable. Et pour rappel : Apple vend la RAM 8 fois plus cher, le SSD 4 fois plus cher et côté GPU, c’est très limité pour très cher là aussi. Mon Mac mini M4 32 Go/256 Go devrait arriver aujourd'hui! J'ai hâte! Lien vers le billet original -------------------- La liberté d'expression c'est l'extrémisme. La censure c'est la liberté.
|
|
|
![]() |
![]()
Message
#2
|
|
![]() Macbidouilleur d'Or ! ![]() ![]() ![]() ![]() ![]() Groupe : Rédacteurs Messages : 1 833 Inscrit : 19 Nov 2020 Membre no 212 895 ![]() |
Elle est arrivée, son SSD externe de 1 To aussi (Patriot) qui m'a surpris quand j'y ai copié plus de 300 Go de données, en ne s'écroulant pas au bout d'un moment, d'ailleurs ça n'a pas duré un gros moment pour la copie.
J'ai évidemment chargé LM Studio et essayé 2-3 LLM, dont Gemma de Google proposé par défaut. Pour l'instant la plus grosse chargée fait 27 milliards de paramètres (weights), sans problème avec 5 Go libres (cache) et sans swap du système. Évidemment les performances varient, ainsi que la qualité des résultats, avec la taille de la LLM. Et évidemment on attend des caractéristiques différentes d'une session interactive (chatbot) que d'un usage automatisé, le second représentant plus mes besoins initiaux. Je vais vous en reparler la semaine prochaine: la qualité des réponses sur mon "fameux" bench "Que peut-on faire un week-end en vacances à Limoges" qui teste pas mal de choses ceci-dit, la latence puis vitesse de la réponse, la qualité des réponses sur une analyse de code exemplaire (et leur temps total), etc. -------------------- La liberté d'expression c'est l'extrémisme. La censure c'est la liberté.
|
|
|
![]()
Message
#3
|
|
![]() Macbidouilleur d'Or ! ![]() ![]() ![]() ![]() ![]() Groupe : Membres Messages : 4 982 Inscrit : 1 Jul 2010 Membre no 156 073 ![]() |
J'ai évidemment chargé LM Studio As-tu déjà essayé AnythingLLM ? Un peu la même chose mais avec des agents, et la possibilité d’en créer, pour faire de la RAG, interagir avec des DB SQL, sauver des fichiers, etc. -------------------- L'homme n'est que poussière... c'est dire l'importance du plumeau ! Alexandre Vialatte
|
|
|
![]()
Message
#4
|
|
Adepte de Macbidouille ![]() Groupe : Membres Messages : 106 Inscrit : 23 Apr 2025 Membre no 220 471 ![]() |
J'ai évidemment chargé LM Studio As-tu déjà essayé AnythingLLM ? Un peu la même chose mais avec des agents, et la possibilité d’en créer, pour faire de la RAG, interagir avec des DB SQL, sauver des fichiers, etc. Le problème d'AnythingLLM c'est qu'il ne supporte pas les modèles en MLX Mais... il sait s'interfacer avec LMStudio en serveur local La on a le meilleur des deux mondes : AnythingLLM pour son excellente gestion de contextes, et LM Studio pour le choix des modèles. Je trouve par contre AnythingLLM mauvais dans les appels d'agents. Ça passe une fois sur 10 chez moi, 90% du temps l'appel est halluciné. Finalement je suis revenu au bon vieux CrewAI/Python. Tu arrives à t'en servir de manière fiable? |
|
|
![]()
Message
#5
|
|
![]() Macbidouilleur d'Or ! ![]() ![]() ![]() ![]() ![]() Groupe : Membres Messages : 4 982 Inscrit : 1 Jul 2010 Membre no 156 073 ![]() |
Je trouve par contre AnythingLLM mauvais dans les appels d'agents. Ça passe une fois sur 10 chez moi, 90% du temps l'appel est halluciné. Finalement je suis revenu au bon vieux CrewAI/Python. Tu arrives à t'en servir de manière fiable? Non, pas d’utilisation stable. Je posais justement la question pour avoir des retours. J’essaie l’utilisation de modèles en local par curiosité, ça me plairait de pouvoir en profiter. Mais je dois me contenter pour l’instant d’un matériel peu adapté : un laptop windows (i7 12th gen 2.30 Ghz, RAM 32 Go, Nvidia 4 GB vram). Les retours sur l’utilisation sur Mac Silicon m’intéressent vivement. J’ai suivi les recommandations de la doc en utilisant des modèles quantifiés en 8 bit minimum (llama3.1:8b-instruct-q8_0 et gemma3:4b-it-q8_0). Mes déceptions : - pour la RAG, certains documents ne sont jamais consultés… dans un corpus de petits documents au format markdown ; - hallucinations spectaculaires (surtout avec llama) ; - les appels aux blocs dans les flows peuvent échouer. Je me demande donc si c’est à cause de la configuration matérielle que les résultats sont aussi décevants. Pour info, en moyenne 8 tokens /s avec Gemma, 5 tokens /s avec Llama. -------------------- L'homme n'est que poussière... c'est dire l'importance du plumeau ! Alexandre Vialatte
|
|
|
![]()
Message
#6
|
|
![]() Macbidouilleur d'Or ! ![]() ![]() ![]() ![]() ![]() Groupe : Rédacteurs Messages : 1 833 Inscrit : 19 Nov 2020 Membre no 212 895 ![]() |
Je trouve par contre AnythingLLM mauvais dans les appels d'agents. Ça passe une fois sur 10 chez moi, 90% du temps l'appel est halluciné. Finalement je suis revenu au bon vieux CrewAI/Python. Tu arrives à t'en servir de manière fiable? Non, pas d’utilisation stable. Je posais justement la question pour avoir des retours. J’essaie l’utilisation de modèles en local par curiosité, ça me plairait de pouvoir en profiter. Mais je dois me contenter pour l’instant d’un matériel peu adapté : un laptop windows (i7 12th gen 2.30 Ghz, RAM 32 Go, Nvidia 4 GB vram). Les retours sur l’utilisation sur Mac Silicon m’intéressent vivement. J’ai suivi les recommandations de la doc en utilisant des modèles quantifiés en 8 bit minimum (llama3.1:8b-instruct-q8_0 et gemma3:4b-it-q8_0). Mes déceptions : - pour la RAG, certains documents ne sont jamais consultés… dans un corpus de petits documents au format markdown ; - hallucinations spectaculaires (surtout avec llama) ; - les appels aux blocs dans les flows peuvent échouer. Je me demande donc si c’est à cause de la configuration matérielle que les résultats sont aussi décevants. Pour info, en moyenne 8 tokens /s avec Gemma, 5 tokens /s avec Llama. J'ai essayé Gemma3, dans différentes tailles, et les contre-performances que tu décris, il faut monter à 12 milliards (12B) de paramètres/weights pour aller aussi lentement sur le M4 de base. Tout à fait utilisable dans des sessions non-interactives, mais sur des sessions interactives c'est vraiment insupportable! On s'entend que la qualité augmente avec le logarithme de la taille du LLM, sur les petites tailles. Et évidemment un Gemma3 similaire au tien mais en int4 (le M4 supporte le int4), ça va plusieurs fois plus vite. Il est probable que tu n'ai pas la bonne GPU pour tes LLMs. Elle manque de VRAM et elle ne supporte probablement pas le int4 puisque tu utilises le int8. D'ailleurs dans mes essais, à quantité mémoire similaire sur la même famille de LLM, une version int4 avec plus de paramètres (weights) est un peu au-dessus du même en int8 avec moins de paramètres. À empreinte mémoire similaire donc et même famille de LLM. Le fp4 introduit par nVidia dans Blackwell semble très prometteur, et on peut convertir un modèle int8 en fp4 une fois pour toute. Dans mes essais j'aime bien Gemma 3, c'est pas mal du tout. Sauf qu'il ne sait pas à quel point on se fait chier le week-end à Limoges! J'adore Qwen 2.5 en version coder+instruct , qui fait ce qu'on lui demande de faire (c'est pas gagné, essayez Deepseek coder+instruct 3B!), mais la qualité des résultats est variable suivant la tâche demandée. Mais elle fonctionne bien dès les 3 milliards (3B), utilisable sur tout Mac ARM 16 Go. Dans mes différentes tâches, je valide différents LLM avec différentes tailles, ma contrainte principale étant non les performances pures, mais la qualité minimum avec de bonnes performances. La qualité minimum à atteindre est donc le facteur décisif. Les performances dans le respect de mes critères de qualité étant évidemment le second facteur. Et comme troisième facteur, car j'ai un projet que j'aimerais diffuser en open-source, ou ad-minima utiliser et donner accès à mon travail, c'est de pouvoir l'exploiter sur un Mac ARM avec 16 Go de RAM. On est donc dans du 3B à 7B maxi en int4, 3B en int8 de manière plus réaliste. Avec comme compromis d'offrir une option si nécessaire pour que ça tourne donc sur un Mac 16 Go Apple Silicon, même si la qualité est un peu inférieure. Imparfait > rien. Tant que ça ne transforme pas le Mac en addict à la LSD!!! ![]() -------------------- La liberté d'expression c'est l'extrémisme. La censure c'est la liberté.
|
|
|
![]() ![]() |
Nous sommes le : 1st September 2025 - 14:03 |