![]() |
Bienvenue invité ( Connexion | Inscription )
![]() |
![]()
Message
#1
|
|
![]() Macbidouilleur d'Or ! ![]() ![]() ![]() ![]() ![]() Groupe : Rédacteurs Messages : 1 573 Inscrit : 19 Nov 2020 Membre no 212 895 ![]() |
Auteur Marcin Wieclaw
Quand on regarde du côté PC, deux mondes s’affrontent : d’un côté les machines pré-assemblées, souvent "gaming", bardées de LED et proposées à des prix absurdes pour ce qu'elles offrent… Et de l’autre, le sur-mesure, qui peut réellement avoir du sens si l’on sait ce qu’on veut. Dans mon cas, avec des besoins bien spécifiques, une bonne puissance CPU, 32 Go de RAM minimum, et surtout une carte graphique capable de faire tourner des modèles de langage (LLM) en local, certaines configurations PC commencent à devenir intéressantes. CPU : AMD en embuscade Côté processeur, le Ryzen 9 7900X (12 cœurs) offre de très bonnes performances brutes, au-dessus d’un M4. Le 7950X (16 cœurs), pour 150 € de plus, est proche d’un M4 Max 14 cœurs ou M4 Pro en multi-thread, tout en restant très compétitif en prix/performance. Je n'attends rien d'Intel: on a déjà du bon chauffage à la maison! RAM : la claque C’est là que le PC enterre Apple. Pour le prix qu’Apple facture pour 8 Go supplémentaires (passer de 16 à 24 Go coûte 250 €…), on peut s’offrir 96 Go de DDR5 sur PC ! Autant dire que pour des bases SQLite en RAM ou des projets lourds, la messe est dite. GPU : le vrai nerf de la guerre Et là, nVidia vient de frapper fort avec la RTX 5060 Ti 16 Go. Pensée pour l’inférence IA, avec ses Tensor Cores Blackwell et le support du FP4 (float 4 bits), elle surpasse clairement un M4 Max et même un M3 Ultra dans ce domaine très spécifique. Côté jeu vidéo en revanche, elle atteint ses limites en 4K : la RTX 5070 prendra le relais pour les gamers. Mais pour de l'IA locale, c’est une bombe! Stockage : c’est cadeau 1 To en NVMe, c’est désormais moins de 100 €. Sans commentaire. Le hic Oui, tout ça a un coût : boîtier, alimentation costaude (800W, si un jour vous voulez doubler les GPU), refroidissement, etc. On frôle facilement les 1500 €, sans Windows, et sans macOS bien sûr. Et on perd aussi la portabilité. Un Mac mini, ça se trimballe dans un sac. Une tour PC… pas vraiment. Conclusion Le monde PC devient vraiment intéressant dès qu’on a besoin de beaucoup de RAM, d'une ou plusieurs GPU musclées ou d’un gros stockage. Ou d'un ordi très abordable. Et pour rappel : Apple vend la RAM 8 fois plus cher, le SSD 4 fois plus cher et côté GPU, c’est très limité pour très cher là aussi. Mon Mac mini M4 32 Go/256 Go devrait arriver aujourd'hui! J'ai hâte! Lien vers le billet original -------------------- La liberté d'expression c'est l'extrémisme. La censure c'est la liberté.
|
|
|
![]() |
![]()
Message
#2
|
|
Adepte de Macbidouille ![]() Groupe : Membres Messages : 96 Inscrit : 23 Apr 2025 Membre no 220 471 ![]() |
Je suis peu impressionné par llama 3.2 également.
As tu essayé avec les dernier Gemma et Qwen? Cela fait longtemps que je n'utilise plus Ollama mais LM Studio limité par défaut la taille des contextes à 4000 tokens Je serais étonné qu'Ollama active 128k ! À première vue cela pourrait être un effet de "truncate in the middle" en cas d'input trop gros. Mais dans ce cas il n'aurait pas dû retrouver les infos avec une simple relance. C'est curieux. N'hésite pas à m'envoyer ton document avec ton prompt si tu veux que je fasse le test sur mon setup pour comparer les réponses Ce message a été modifié par MacAvantIOS - 5 Jul 2025, 13:09. |
|
|
![]()
Message
#3
|
|
![]() Macbidouilleur d'Or ! ![]() ![]() ![]() ![]() ![]() Groupe : Membres Messages : 4 915 Inscrit : 1 Jul 2010 Membre no 156 073 ![]() |
Cela fait longtemps que je n'utilise plus Ollama mais LM Studio limité par défaut la taille des contextes à 4000 tokens Je serais étonné qu'Ollama active 128k ! Effectivement ! N'hésite pas à m'envoyer ton document avec ton prompt si tu veux que je fasse le test sur mon setup pour comparer les réponses Merci pour la proposition ! Là j’utilise des docs persos. Je pourrais générer un jeu de données fictives. Je te dirais ![]() J’ai installé LM Studio et Gemma 3 4B. Je n’ai pas encore regardé comment constituer l’équivalent d’un corpus lié à un workspace de AnythingLLM. Je me suis contenté de joindre des fichiers depuis le chat. Ça se passe beaucoup mieux avec LM Studio. Les résultats sont fiables pour l’instant, il croise bien les informations de plusieurs documents. Le tout en moyenne à 20 tokens/s et un premier token en 2 sec. Je trouve bien d’avoir un indicateur du remplissage du contexte. Et aussi, dans une moindre mesure, un indicateur de l’occupation de la RAM et du CPU. Pour l’instant 4.5 GB sur 32 Gb de RAM, et un pic max CPU à 35%. Je me doute que ça changera selon l’utilisation. Nouvel essai avec un plus gros modèle : Qwen3-14B-Q4_K_M. Ça fonctionne toujours bien mais quelques rares erreurs de traduction dans les sorties (exemple : “complète” dans un doc devient “complexe”). Évidemment, c’est plus lent qu’avec un petit modèle (3 tokens/s) mais l’usage CPU est semblable (<= 35%)… Ce message a été modifié par scoch - 5 Jul 2025, 14:43. -------------------- L'homme n'est que poussière... c'est dire l'importance du plumeau ! Alexandre Vialatte
|
|
|
![]() ![]() |
Nous sommes le : 7th July 2025 - 04:55 |