![]() |
Bienvenue invité ( Connexion | Inscription )
![]() ![]() |
![]() |
![]()
Message
#31
|
|
![]() Macbidouilleur d'Or ! ![]() ![]() ![]() ![]() ![]() Groupe : Membres Messages : 4 933 Inscrit : 1 Jul 2010 Membre no 156 073 ![]() |
Je pense qu'il faut distinguer deux choses, les capacités de language des modèles stricto sensus (ce sur quoi ils sont entraînés qui définit la qualité "du Verbe") et leur capacité à effectuer des tâches plus ou moins complexes en allant rechercher des informations/ressources. Pour la première partie, les modèles sont entraînés "une fois de temps en temps", pour les capacité reflexives (qu'on voit avec les modes de réflexion étendus) là il y a des accès en live. Eh non. Un modèle doté de faculté de raisonnement peut très bien fonctionner hors ligne. La qualité du « Verbe » est effectivement figée à l’issue de l’entraînement. La réflexion n’est pas un « accès live aux données », c’est un temps de calcul supplémentaire au moment où le modèle répond. Il s’autoévalue avant de répondre. Différentes techniques peuvent être utilisées. Celle-ci : input utilisateur → le modèle génère sa réponse à partir de l’input → la réponse est renvoyée dans l’input (en cachette) → le modèle la relis → il la corrige → tout ceci en boucle n fois → la réponse est finalement affichée à l’utilisateur. Une variante de cette technique est de renvoyer la réponse non pas dans l’input (première couche du réseau) mais à une couche intermédiaire, et la boucle peut se faire entre deux couches qui ne sont pas forcément la première et la dernière. Le modèle peut définir sa « chaîne de pensée » pour définir les étapes du raisonnement et les opérations de vérification. Il peut aussi utiliser la technique de l’« arbre de pensée » pour explorer plusieurs pistes de réponses, les évaluer dans une phase de réflexion, puis passer à l’étape suivante qu’il a définie. Rien de tout cela ne nécessite d’accès à Internet. Les « accès live aux données » sont à considérer comme de la RAG (retrieval-augmented generation). Le modèle recherche et récupère des données sur le web qu’il injecte dans l’input de l’utilisateur, et donc le modèle va utiliser ces données (quelque part au même titre que ce que tu as écrit dans la zone de prompt) pour réaliser sa tâche. -------------------- L'homme n'est que poussière... c'est dire l'importance du plumeau ! Alexandre Vialatte
|
|
|
![]()
Message
#32
|
|
Adepte de Macbidouille ![]() Groupe : Membres Messages : 106 Inscrit : 23 Apr 2025 Membre no 220 471 ![]() |
D'ailleurs cela me cause souci par rapport à mon choix d'une machine M4/24 Go pas plus tard qu'hier, dans le but de faire mieux que mon M1 Pro. Finalement si le M4 de base est à la ramasse dès que les modèles dépassent les 7B weights, cela n'a peut être aucun intérêt par rapport au M4/16 Go, qui est 30% à 50% moins cher! Bon effectivement je confirme que l'upgrade RAM 24 Go n'a aucun intérêt sur un M4 de base. Premier test très décevant avec le dernier Magistral. 20 Go utilisés, effectivement ça ne swappe pas mais 7 tokens/s pour des performances pas bien meilleures que Qwen et Gemma sur de la reformulation de texte... le jeu d'en vaut pas la chandelle (pour cet usage du moins). Niveau perf vers M1 Pro, j'ai -15% en tokens/s sur les GGUF; -35% sur les MLX. Je ferai quand même des tests avec AnythingLLM pour voir si les appels d'agents sont plus fiables avec ces gros modèles comme évoqué dans la doc. Mais pour l'instant en perfs brutes mieux vaut un vieux Mx Pro qu'un M4 de base. |
|
|
![]()
Message
#33
|
|
![]() Macbidouilleur d'Or ! ![]() ![]() ![]() ![]() ![]() Groupe : Rédacteurs Messages : 1 619 Inscrit : 19 Nov 2020 Membre no 212 895 ![]() |
Il y a différents besoins et différents types d'usages.
Pour un usage interactif agréable, ce que d'aucuns appellent "chatbot", rien ne vaut la puissance de traitement et des grosses LLM non-spécialisées. Ces grosses LLMs non-spécialisées ayant l'avantage d'être très polyvalentes, donc de répondre à un grand nombre de besoins. Mais les coûts matériels explosent quand le temps occupé est généralement faible. J'irais sur un Mac Studio M4 Max 64 Go pour cela, pour pouvoir viser des LLMs de 70 milliards de paramètres (weights). Mais j'ai des besoins très spécifiques, qui peuvent être très bien effectués avec 32 Go de RAM par des LLMs spécialisées plus petites, et c'est de l'automatisation donc non-interactif. Mon petit Mac mini M4 tourne 24h sur 24, et pour certaines tâches ça peut lui prendre la nuit, mais c'est parfait pour moi! Si mes besoins évoluent, j'irais probablement vers du PC monté maison avec une ou deux RTX 5060 Ti 16 Go (avec du sharding donc), pour que ça poutre. Ou bien du M4 Max 128 Go si au contraire j'ai besoin de faire tourner de bonnes grosses LLMs sans nécessiter autant de performances. Et il y a l'alternative nVidia DGX qui devait arriver en avril, mon boss en a justement pré-commandé! -------------------- La liberté d'expression c'est l'extrémisme. La censure c'est la liberté.
|
|
|
![]() ![]() |
Nous sommes le : 18th July 2025 - 14:26 |