Stage - Exploitation des VLMs et MLLMs pour des tâches de Computer Vision R&D (H/F)

Publication Date:  Oct 26, 2024
Ref. No:  521549
Location: 

Echirolles, FR

Eviden est une entreprise du groupe Atos qui réalise un chiffre d'affaires annuel d'environ 5 milliards d'euros et qui est un leader mondial de la transformation numérique durable, fiable et basée sur les données. En tant qu'entreprise numérique de nouvelle génération avec des positions de leader mondial dans les domaines du numérique, du cloud, des données, de l'informatique avancée et de la sécurité, elle apporte une expertise approfondie pour toutes les industries dans plus de 47 pays. En réunissant des technologies haut de gamme uniques sur l'ensemble du continuum numérique et 55 000 talents de classe mondiale, Eviden élargit les possibilités des données et de la technologie, aujourd'hui et pour les générations à venir.

 

Le centre européen de R&D en IA d’Atos en Région Auvergne-Rhône-Alpes vise à promouvoir la recherche et le développement de solutions innovantes en IA ainsi que leur déploiement industriel. Ses objectifs de R&D, centrés sur le développement d’offres et de produits Atos BDS, s’appuient sur la mise en place de coopérations de long terme avec des laboratoires de recherche publics et privés, dont l’institut I3A de l’université Grenoble Alpes (MIAI).

 

Le stage proposé se déroulera au sein de l’équipe Innit du pôle Computer Vision Lab, dans le département R&D logiciel de la division BDS.

Le CVLab développe une plateforme permettant d’extraire des informations à partir de flux vidéo (détails ici : https://www.ipsotek.com/products/visuite/).

 

Dans le cadre de ses activités en intelligence artificielle, les équipes de R&D développent une large gamme de solutions de vision par ordinateur basées sur le Deep Learning. Avec l'émergence des modèles de langage visuel (VLMs) et des modèles de langage multimodal de grande taille (MLLMs), une nouvelle ère s'ouvre pour les applications de vision par ordinateur. Ce stage propose d'explorer l'intégration de ces modèles dans des systèmes plus complexes, en introduisant la notion d'agents capables de traiter et de coordonner les sorties de différents modèles. Ces agents agiront comme des orchestrateurs, combinant les informations visuelles et textuelles produites par les VLMs et MLLMs pour créer une compréhension plus contextuelle et approfondie des scènes.

 

L'objectif est non seulement d'améliorer les performances des systèmes de vision par ordinateur, mais aussi d'ouvrir de nouvelles perspectives pour des applications innovantes, où des agents intelligents peuvent prendre des décisions en fonction de multiples sources d'information. Mission Votre mission principale sera d'explorer et de mettre en œuvre des techniques de distillation des données.

 

Plus précisément, vous serez amené(e) à :

- Faire une bibliographie de l’état de l’art des VLM, MLLMs et agents multimodaux

- Mettre en œuvre les méthodes les plus pertinentes et les évaluer sur différentes applications de computer vision.

- Collaborer avec l’équipe CVLab pour intégrer et tester les nouvelles solutions développées.

 

Vous êtes en dernière année de formation Bac +5 (Ingénieur, Master, ...) avec une spécialisation en intelligence artificielle, vision par ordinateur, traitement du langage naturel ou un domaine connexe. Vous avez des compétences en programmation Python.

Vous êtes force de proposition, pro-actif et créatif, des qualités valorisées en R&D !

Vous avez des compétences en statistique, machine learning et deep learning.

Vous avez de l’expérience avec les outils datascience/ deep learning tel que PyTorch, Pandas etc.

 

Vous pouvez communiquer à l’oral en anglais.

Vous connaissez l’environnement linux et les outils de bases tels que GIT.

Des connaissances ou projets en vision assistée par ordinateur serait un plus.

Vous faites preuve de curiosité, d'autonomie, de créativité et de rigueur.

Vous souhaitez éventuellement poursuivre vos travaux en thèse

 

Localisation : Echirolles (38130) Durée : 6 mois

 

 

Let’s grow together.