LLaMa 3 : c'est quoi et pourquoi c'est si important ?

Maman je peux avoir un GPT ? On a déjà un GPT à la maison ! Le GPT à la maison :

Patatras ! Une nouvelle pierre dans le jardin d'OpenAI ! Et cette fois, c'est Meta, la maison mère de Facebook, qui s'y met !

Quoi, vous ne le saviez pas ? Oui, Meta aussi fait dans l'IA. Après le flop du Metaverse, il semble que les têtes pensantes de chez Meta aient trouvé un nouvel eldorado. Et s'ils ont plusieurs projets sur le feu, le plus abouti et celui qui fait parler de lui est sans nul doute LLaMa, leur propre grand modèle de langage (LLM), dont ils viennent tout juste de publier la mouture 3.0. Ce LLaMa 3 est en train de faire grand bruit en ce moment même, mais pourquoi ?

Pas pour son intelligence extraordinaire. LLaMa 3 sort en deux versions : 8B (8 milliards de paramètres) et 70B (70 milliards de paramètres), le second étant nettement plus futé que le premier. Pour l'essentiel, LLaMa 3, même dans son modèle le plus complet, semble être peu ou prou aussi "intelligent" que GPT-4, pourtant sorti un an auparavant, c'est-à-dire il y a une éternité dans le monde de l'IA. Quant au modèle 8B, il se situe quelque part entre du GPT 3.5 et du GPT4. Mais alors, par quel argument massue se démarque-t-il, pour que tout le monde s'y intéresse de si près alors même que GPT5 est en approche ?

Eh bien figurez-vous que Meta a choisi de rendre ses travaux dans le domaine de l'IA open-source. Non seulement le code de LLaMa 3 est libre d'accès, mais les "poids", c'est-à-dire le cœur de l'intelligence de son modèle, l'est aussi.

Attention, nous avons dit open-source et libre d'accès, mais pas "libre" au sens d'un "logiciel libre" : la licence imposée par Meta est trop restrictive pour cela. Néanmoins, tout un chacun peut accéder au code source, compiler, installer et utiliser LLaMa 3 chez lui, sur son propre ordinateur, ou bien sur le cloud, le déployer et le proposer à l'utilisation aux autres. Vous pouvez même en faire un usage commercial, gratuitement, avec pour seule condition que votre nombre d'utilisateurs mensuel ne dépasse pas les... 700 Millions. Autant dire qu'à moins d'être un très gros bonnet de l'IA, vous êtes à peu près libre de faire ce que vous voulez de LLaMa 3.

Et ça c'est un gros sujet, parce que cela veut dire que n'importe qui peut avoir son propre LLaMa 3 à la maison, sur sa machine, et qu'il peut même la "fine-tuner" à sa sauce pour ses propres besoins, ou pour les besoins d'autrui. Ce que certains utilisateurs ont d'ors et déjà commencé à faire.

Les possibilités sont alors illimitées... à condition tout de même d'avoir une certaine puissance de calcul à disposition, et surtout de mémoire. Sinon, des compromis sont nécessaires.

Il est en effet assez possible de faire tourner le modèle 8B (le moins futé) sur une RTX avec des performances correctes (quelques dizaines de tokens/seconde sur un GPU moderne, ce qui est au moins équivalent à ce que propose GPT4 sur son site). Mais sur le modèle 70B, problème... la quantité de VRAM requise nécessite un ou plusieurs GPU professionnels avec beaucoup de VRAM. Faute de quoi les performances s'écroulent et générer la moindre réponse prends plusieurs minutes, voire quelques dizaines de minutes.

Il est possible de contourner le problème en utilisant une version dite "quantisée" à 2 bits, c'est-à-dire moins précise, du modèle, mais alors la qualité des réponses se dégrade fortement. Si bien qu'entre un modèle 8B peu quantisé et un modèle 70B très quantisé, le vainqueur n'est pas forcément évident.

Quant au fine-tuning, il nécessite quant à lui une toute autre infrastructure. Ce n'est pas vraiment quelque chose que vous ferez sur votre petite carte graphique à la maison, et vous devrez probablement faire appel à une infrastructure cloud (et chère). En revanche, il y a fort à parier que de nombreux modèles fine-tunés avec telle ou telle qualité seront téléchargeables très vite.

Nous vous proposerons très bientôt un tuto pour apprendre à installer et utiliser LLaMa 3 en local sur votre machine. Mais d'ici là, retenez que très bientôt, vous n'aurez plus dépendre d'OpenAI ni de qui que ce soit pour faire tourner un LLM du niveau de GPT4. Maintenant que le modèle est dans la nature et que la communauté va s'en saisir, il va falloir mettre la barre beaucoup plus haute pour que les modèles fermés et payants puissent faire valoir un quelconque argument.

Écrit le :

lun 22/04/2024 - 05:37

Par :

everydai

Étiquettes

gratuit

LLM

texte

cloud

local