Stage - Exploration des LLMs pour traduire le langage naturel en requêtes base de données (H/F)

Publication Date:  Oct 26, 2024
Ref. No:  521548
Location: 

Toulouse, FR

Eviden est une entreprise du groupe Atos qui réalise un chiffre d'affaires annuel d'environ 5 milliards d'euros et qui est un leader mondial de la transformation numérique durable, fiable et basée sur les données. En tant qu'entreprise numérique de nouvelle génération avec des positions de leader mondial dans les domaines du numérique, du cloud, des données, de l'informatique avancée et de la sécurité, elle apporte une expertise approfondie pour toutes les industries dans plus de 47 pays. En réunissant des technologies haut de gamme uniques sur l'ensemble du continuum numérique et 55 000 talents de classe mondiale, Eviden élargit les possibilités des données et de la technologie, aujourd'hui et pour les générations à venir.

 

Le centre européen de R&D en IA d’Atos en Région Auvergne-Rhône-Alpes vise à promouvoir la recherche et le développement de solutions innovantes en IA ainsi que leur déploiement industriel. Ses objectifs de R&D, centrés sur le développement d’offres et de produits Atos BDS, s’appuient sur la mise en place de coopérations de long terme avec des laboratoires de recherche publics et privés, dont l’institut I3A de l’université Grenoble Alpes (MIAI).

 

Le stage proposé se déroulera au sein de l’équipe Innit du pôle Computer Vision Lab, dans le département R&D logiciel de la division BDS.

Le CVLab développe une plateforme permettant d’extraire des informations à partir de flux vidéo (détails ici : https://www.ipsotek.com/products/visuite/). Problématique La création de jeux de données pour l'entraînement de modèles est une tâche complexe, notamment en raison des grandes quantités de données et des contraintes de gouvernance (régulations, traçabilité, reproductibilité...).

 

L’une des missions de l'équipe Innit est de traduire les besoins des data scientists en datasets via la création de requêtes spécifiques.

Ces requêtes, générées manuellement, deviennent de plus en plus complexes à mesure que la quantité de données et les demandes augmentent.

Pour répondre à ces défis, nous utilisons Elasticsearch comme base de données et moteur de recherche, ce qui nous permet de gérer et interroger efficacement ces données. Contrairement aux bases de données traditionnelles comme SQL, Elasticsearch repose sur un modèle basé sur des documents JSON indexés, offrant des capacités de recherche puissantes et rapides. Cependant, la formulation des requêtes dans Elasticsearch ne suit pas le format SQL classique, ce qui les rend plus complexes à concevoir, notamment pour les utilisateurs non experts.

 

L'objectif principal est d'explorer comment générer automatiquement ces requêtes, compte tenu de la syntaxe propre à Elasticsearch, à partir de demandes en langage naturel à l’aide de techniques de traitement du langage naturel (NLP) et de modèles de langage (LLM).

Vous développerez une API pour permettre cette automatisation et, si le temps le permet, un assistant basé sur l’IA générative pour aider à affiner les besoins des data scientists et à construire ces requêtes.

 

Tâches principales :

- Analyser et documenter les besoins des data scientists

- Étudier et expérimenter avec des modèles d’état de l’art en NLP et LLM, et évaluer leur efficacité.

- Concevoir et développer une API qui traduit le langage naturel en requêtes Elastic complexes.

- Créer un assistant IA pour affiner les besoins utilisateurs via une interface conversationnelle.

- Documenter la recherche et la partager au reste de l’équipe

 

Vous êtes en dernière année de formation Bac +5 (Ingénieur, Master, ...) avec une spécialisation en IA.

Vous avez des compétences en programmation Python.

Idéalement, vous avez des compétences en traitement des images, en machine learning et en NLP, ou à minima vous êtes passionné par ces sujets.

Vous avez des connaissances en conteneurisation (Docker) et en CI/CD

Vous avez des connaissances en NoSQL et connaissez au moins de nom Elasticsearch

 

Une maîtrise de l’anglais est indispensable car l’équipe est internationale

Des compétences en communication et vulgarisation sont appréciées.

Ce sont des compétences sur lesquelles vous serez amené à travailler et grandir grâce à votre stage (nous faisons régulièrement des démos au reste de l’équipe !).

 

Vous êtes force de proposition, pro-actif et créatif, des qualités valorisées en R&D !

Le stage sera dirigé mais de nouvelles pistes peuvent être explorées !

Capacité à se projeter dans le futur pour anticiper les besoins .