Déplier le sommaire Replier le sommaire
LLaVA 1.5: Une alternative open source à GPT-4 Vision
L’essor des modèles langage multimodaux (LMM) marque un tournant majeur dans le développement de l’intelligence artificielle générative. L’arrivée de LLaVA 1.5, une étoile montante de l’open source, renforce cette dynamique en rendant l’innovation plus accessible.
La mécanique des LMM
Les LMM sont basés sur une architecture multicouche qui combine un modèle pré-entraîné pour le traitement des éléments visuels, un modèle de langage pour comprendre et répondre aux instructions de l’utilisateur, et un connecteur multimodal pour relier la vision et le langage. Leur formation se déroule en deux étapes : un alignement initial entre la vision et le langage, suivi d’un ajustement pour répondre aux requêtes visuelles. Ce processus, bien qu’efficace, demande beaucoup de ressources et nécessite des bases de données riches et précises.
LLaVA 1.5 et ses atouts
LLaVA 1.5 se base sur le modèle CLIP pour l’encodage visuel et Vicuna pour le langage. Contrairement au modèle original LLaVA, qui utilisait les versions textuelles de ChatGPT et GPT-4, LLaVA 1.5 va plus loin en connectant le modèle de langage avec l’encodeur visuel via un perceptron multicouche (MLP). Cette mise à jour, qui inclut environ 600 000 exemples, permet à LLaVA 1.5 de surpasser d’autres LMM open source sur 11 des 12 critères multimodaux.
L’avenir des LMM open source
LLaVA 1.5 offre des résultats prometteurs, même avec un budget limité, grâce à sa démonstration en ligne accessible à tous. Cependant, il est important de souligner que l’utilisation des données générées par ChatGPT est restreinte à des fins non commerciales. Malgré cette limitation, LLaVA 1.5 ouvre la voie à un avenir prometteur pour les LMM open source. Sa rentabilité, son évolutivité dans la génération de données d’entraînement et son efficacité dans la gestion des instructions visuelles en font une prélude aux futures innovations.
LLaVA 1.5 n’est que le début d’une série d’avancées de la communauté open source. En anticipant des modèles plus performants et accessibles, nous pouvons envisager un avenir où l’intelligence artificielle générative sera accessible à tous, dévoilant ainsi le potentiel illimité de l’IA.