![]() |
Bienvenue invité ( Connexion | Inscription )
![]() |
![]()
Message
#1
|
|
![]() Macbidouilleur d'Or ! ![]() ![]() ![]() ![]() ![]() Groupe : Rédacteurs Messages : 1 563 Inscrit : 19 Nov 2020 Membre no 212 895 ![]() |
Auteur Marcin Wieclaw
Quand on regarde du côté PC, deux mondes s’affrontent : d’un côté les machines pré-assemblées, souvent "gaming", bardées de LED et proposées à des prix absurdes pour ce qu'elles offrent… Et de l’autre, le sur-mesure, qui peut réellement avoir du sens si l’on sait ce qu’on veut. Dans mon cas, avec des besoins bien spécifiques, une bonne puissance CPU, 32 Go de RAM minimum, et surtout une carte graphique capable de faire tourner des modèles de langage (LLM) en local, certaines configurations PC commencent à devenir intéressantes. CPU : AMD en embuscade Côté processeur, le Ryzen 9 7900X (12 cœurs) offre de très bonnes performances brutes, au-dessus d’un M4. Le 7950X (16 cœurs), pour 150 € de plus, est proche d’un M4 Max 14 cœurs ou M4 Pro en multi-thread, tout en restant très compétitif en prix/performance. Je n'attends rien d'Intel: on a déjà du bon chauffage à la maison! RAM : la claque C’est là que le PC enterre Apple. Pour le prix qu’Apple facture pour 8 Go supplémentaires (passer de 16 à 24 Go coûte 250 €…), on peut s’offrir 96 Go de DDR5 sur PC ! Autant dire que pour des bases SQLite en RAM ou des projets lourds, la messe est dite. GPU : le vrai nerf de la guerre Et là, nVidia vient de frapper fort avec la RTX 5060 Ti 16 Go. Pensée pour l’inférence IA, avec ses Tensor Cores Blackwell et le support du FP4 (float 4 bits), elle surpasse clairement un M4 Max et même un M3 Ultra dans ce domaine très spécifique. Côté jeu vidéo en revanche, elle atteint ses limites en 4K : la RTX 5070 prendra le relais pour les gamers. Mais pour de l'IA locale, c’est une bombe! Stockage : c’est cadeau 1 To en NVMe, c’est désormais moins de 100 €. Sans commentaire. Le hic Oui, tout ça a un coût : boîtier, alimentation costaude (800W, si un jour vous voulez doubler les GPU), refroidissement, etc. On frôle facilement les 1500 €, sans Windows, et sans macOS bien sûr. Et on perd aussi la portabilité. Un Mac mini, ça se trimballe dans un sac. Une tour PC… pas vraiment. Conclusion Le monde PC devient vraiment intéressant dès qu’on a besoin de beaucoup de RAM, d'une ou plusieurs GPU musclées ou d’un gros stockage. Ou d'un ordi très abordable. Et pour rappel : Apple vend la RAM 8 fois plus cher, le SSD 4 fois plus cher et côté GPU, c’est très limité pour très cher là aussi. Mon Mac mini M4 32 Go/256 Go devrait arriver aujourd'hui! J'ai hâte! Lien vers le billet original -------------------- La liberté d'expression c'est l'extrémisme. La censure c'est la liberté.
|
|
|
![]() |
![]()
Message
#2
|
|
Adepte de Macbidouille ![]() Groupe : Membres Messages : 92 Inscrit : 23 Apr 2025 Membre no 220 471 ![]() |
Ouh la, quelle patience. 5 tokens/s ca commence vraiment à faire lent.
J'utilise peu llama maintenant, je trouve qu'il hallucine bien trop même s'il va vite sur mon M1Pro. Gemma3 et Qwen sont pas mal. Phi4 est très bon pour mes usages mais d'une lenteur insupportable. Je partage toutes tes déceptions. La doc d'AnythingLLM est assez laconique avec son "ça marche pas comme vous voulez? faites tourner des modèles plus gros.". Certes, mais jusqu'où? Avec 16 Go de mémoire unifiée c'est encore trop aléatoire pour être utilisable pour moi au quotidien. Est-ce que ce serait mieux avec 32 Go? Peut être, mais j'ai un doute (et le ticket d'entrée est cher). Pas plus tard qu'hier j'ai refait des tests avec gemma3n. Excellents résultats avec des flows qui se comportent bien pendant 1h, que j'enrichis petit à petit... puis plus rien, plus aucun appel ne passe. Ce côté non-reproductible est extrêmement énervant, je trouve que l'on perd tout le plaisir du dev algorithmique où l'on peut passer à autre chose une fois que les choses ont bien été faites. |
|
|
![]()
Message
#3
|
|
![]() Macbidouilleur d'Or ! ![]() ![]() ![]() ![]() ![]() Groupe : Membres Messages : 4 912 Inscrit : 1 Jul 2010 Membre no 156 073 ![]() |
Ouh la, quelle patience. 5 tokens/s ca commence vraiment à faire lent. Étant donné que pour l’instant je fais cela par curiosité, de la prospective, j’accorde beaucoup plus d’importance à la qualité du contenu généré qu’à la vitesse. L’aspect qui me motive le plus c’est la RAG. Avec cette lenteur les sessions interactives sont exclues mais je serais déjà un peu satisfait si je pouvais exécuter des prompts qui vont bien et laisser faire lentement en tâche de fond. Ça donne quoi chez toi le travail sur un corpus ? Il arrive bien à croiser les informations réparties dans plusieurs documents ? Pas plus tard qu'hier j'ai refait des tests avec gemma3n. Excellents résultats avec des flows qui se comportent bien pendant 1h, que j'enrichis petit à petit... puis plus rien, plus aucun appel ne passe. Ce côté non-reproductible est extrêmement énervant, je trouve que l'on perd tout le plaisir du dev algorithmique où l'on peut passer à autre chose une fois que les choses ont bien été faites. C’est plein de mystères… Même un ChatGPT payant peut, avec un même prompt et un même modèle, se montrer parfois paresseux alors que généralement le résultat est très satisfaisant. Ça dépend de la météo ? De l’occupation des serveurs ? Je vais essayer gemma3n. Imparfait > rien. Tant que ça ne transforme pas le Mac en addict à la LSD!!! ![]() ![]() Très imparfait > rien… Pas forcément. Merci pour vos réponses. -------------------- L'homme n'est que poussière... c'est dire l'importance du plumeau ! Alexandre Vialatte
|
|
|
![]()
Message
#4
|
|
Adepte de Macbidouille ![]() Groupe : Membres Messages : 92 Inscrit : 23 Apr 2025 Membre no 220 471 ![]() |
Ouh la, quelle patience. 5 tokens/s ca commence vraiment à faire lent. Étant donné que pour l’instant je fais cela par curiosité, de la prospective, j’accorde beaucoup plus d’importance à la qualité du contenu généré qu’à la vitesse. L’aspect qui me motive le plus c’est la RAG. Avec cette lenteur les sessions interactives sont exclues mais je serais déjà un peu satisfait si je pouvais exécuter des prompts qui vont bien et laisser faire lentement en tâche de fond. Ça donne quoi chez toi le travail sur un corpus ? Il arrive bien à croiser les informations réparties dans plusieurs documents ? C'est assez médiocre sur AnythingLLM. Clairement, mieux vaut fournir le corpus en .txt déjà. Ensuite, en faisant des tests, je me suis rendu compte qu'il oubliait de regarder certains documents (de manière aléatoire bien sûr). J'ai donc ajouté une moulinette qui regroupe tout ce que je veux mettre dans le contexte dans un unique fichier .txt La dernière version de LM Studio prend en charge la RAG, je vais tester voir si cela marche mieux. Le problème principal à mon sens, est qu'on est toujours dans l'aléatoire. Difficile de faire un workflow quand les choses marchent X% du temps. C’est plein de mystères… Même un ChatGPT payant peut, avec un même prompt et un même modèle, se montrer parfois paresseux alors que généralement le résultat est très satisfaisant. Ça dépend de la météo ? De l’occupation des serveurs ? Je vais essayer gemma3n. On sait qu'il y a une part (ajoutée) d'aléatoire dans les réponses, mais clairement quand il manque des gros bouts au process c'est problématique. Je trouve ChatGPT et Gemini, même en gratuit, bien meilleurs que les IA locales malheureusement (ce n'était pas forcément le cas il y a un an). |
|
|
![]()
Message
#5
|
|
![]() Macbidouilleur d'Or ! ![]() ![]() ![]() ![]() ![]() Groupe : Rédacteurs Messages : 1 563 Inscrit : 19 Nov 2020 Membre no 212 895 ![]() |
Je trouve ChatGPT et Gemini, même en gratuit, bien meilleurs que les IA locales malheureusement (ce n'était pas forcément le cas il y a un an). "IA locales" ?!? Peux-tu les nommer? Combien de milliards de paramètres (weights) ??? Car tout le monde peux vérifier que DeepSeek R1 fourni les mêmes résultats en local qu'au travers du cloud, avec de subtiles différences culturelles comme quand on aborde le massacre de la place Tian an men... Subtiles... Évidemment il faut 768Go de RAM, mais ça tourne en local de la même façon que dans le cloud. On devrait toujours nommer l'IA avec sa version, sa spécialisation ou son orientation, et bien sûr sa taille. Qwen (IA) 2.5 (version) coder+instruct (spécialisation + orientation) 7B (taille). Ça change tout! Je pense que tu te méprends. Que tu confonds local et cloud pour LLM de petite taille et LLM de grande taille. LLM spécialisé, par exemple "instruct" ou "coder" ou "instruct+coder" et générique. Plus précisément j'ai vu d'immense progrès, tant en terme général du coté des 7B/14B/28B (approximatifs) et qui tournent bien sur des Mac avec assez de RAM, qu'en terme de 3B/7B/14B sur des "coder+instruct" mais aussi "instruct". Qui tournent parfaitement sur les Mac avec assez de RAM. Même un Mac mini M4 de base (dépendant de sa RAM). Certaines IA ne donnant aucun bon résultat une fois "réduites" (distillation ou élagage), comme DeepSeek R1. DeepSeek R1 est un mensonge. D'autres comme Gemma 3 ou Qwen 2.5 sont surprenantes dans des tailles 3B ou 7B, et explosives vers les 14B. Des progrès énormes visibles sur les Mac ARM avec 16Go de RAM ou plus. Il y a en revanche un énorme problème pour les LLM de grande taille : la limite de l'expression humaine de qualité auxquels ils ont accès. Tout ou presque a été grappillé depuis un an ou deux! Il y a un mur de connaissances. Les limites de ce qui est paru d'une façon ou d'une autre, en étant original. C'est un problème incroyable. Qui est mal représenté par les "benchmarks" d'IA. Et qui ne sera résolu que par un changement de paradigme, qu'on attend, espère ou craint. -------------------- La liberté d'expression c'est l'extrémisme. La censure c'est la liberté.
|
|
|
![]() ![]() |
Nous sommes le : 3rd July 2025 - 09:24 |