Data Scientist - Python (H/F) - SAMSIC EMPLOI

06560 Valbonne - 01/10/2021

  • Selon profil

  • Stage

  • Débutant


 

En bref : l'entreprise SAMSIC EMPLOI recrute un(e) Data Scientist - Python (H/F) en Stage à Valbonne (code postal 06560). Le candidat idéal ? Expérience de Débutant et des compétences en #Python # pytorch # TensorFlow # Keras # Machine Learning

Orange est l'un des principaux opérateurs de télécommunications dans le monde avec plus de 236 millions de clients et présent dans 29 pays. Par ailleurs, il est l'un des dix groupes au monde à avoir obtenu la certification « Top Employer Global 2017 ».
La direction Business d'Orange Innovation œuvre au développement de nouveaux services pour les clients Entreprise.

Au sein du Service Orange Innovation, vous rejoindrez une équipe pluridisciplinaire composée de 24 personnes (chercheurs, data scientistes, data Engineer, chef de projet…) et participerez à l'étude de la consommation énergétique de l'apprentissage Fédéré des modèles d'Intelligence Artificielle.

Ce stage s'articulera avec les activités d'une thèse sur l'apprentissage fédérée des modèles d'Intelligence Artificielle, et plus particulièrement sur la consommation énergétique de ce type de modèles.

Ce stage sera basé à Sophia-Antipolis et débutera au mois de Janvier 2021 - date sujette à flexibilité - pour une durée de 6 mois à temps plein (pas de stage alterné). SAMSIC, société socialement responsable, s'engage au quotidien pour l'emploi des personnes en situation de handicap.

L'Apprentissage Fédéré [1] est un paradigme dans laquelle de nombreux nœuds ( caussi appelés « workers » ou « devices ») collaborent pour résoudre un problème de Machine Learning, sous l'organisation d'un nœud de coordination.
Chaque nœud ne partage pas ses données locales, au lieu de cela, des mises à jour sont agrégées itérativement pour atteindre l'objectif.

Malgré l'avantage certain de l'apprentissage fédéré par rapport à l'apprentissage centralisé sur la confidentialité des données ; de nombreux challenges, propres aux différentes configurations, restent à être étudiés [2]. Ce nouveau domaine doit considérer l'apprentissage distribué sur des appareils ayants des capacités différentes (Hétérogénéité Système) en utilisant les données générées localement, résultant en des données non Indépendantes et Identiquement Distribuées (Hétérogénéité Statistique).

De plus, le partage itératif des poids du modèle engrange un coût de communication important (en termes d'énergie consommée par le réseau mais aussi de latence), et entraîne des menaces de sécurité (pour la confidentialité des données mais aussi pour la convergence du modèle). Finalement, beaucoup d'efforts restent à être menés pour adapter le paradigme actuel du Machine Learning centralisé à cette nouvelle configuration où les données ne sont pas accessibles.

Dans ce contexte, l'objectif de ce stage est d'étudier la consommation énergétique de l'apprentissage fédéré, que ce soit pour la communication des poids du modèle sur le réseau mais aussi pour le calcul local des mises à jour du modèle. Vous serez notamment en charge de :

· Comprendre l'apprentissage fédéré et les challenges propres à la consommation d'énergie.
· Lister, comprendre et tester les outils permettant de mesurer la consommation d'énergie d'un apprentissage (Power API, pyJoules, CodeCarbon, …).
· Lister, comprendre et tester les méthodes permettant d'évaluer la consommation d'énergie du réseau lors d'un apprentissage fédéré.
· Comparer la consommation d'énergie d'un apprentissage centralisé à un apprentissage fédéré.
· Déployer et évaluer le code sur des appareils avec des capacités limités (Raspberry Pi, smartphone).

Profil :

• Être en Master & Suivre des études d'ingénieur
• Fort intérêt pour les nouvelles technologies
• Esprit curieux, créatif et autonome
• Capacités à vite appréhender les nouveaux environnements techniques
• Connaissances indispensables en programmation (Python)
• Connaissances en programmation de PyTorch, Tensorflow, Keras sont appréciées
• Des notions en Machine Learning sont appréciées
• Bonnes connaissances dans la théorie du signal, les mathématiques et le développement informatique
• Anglais : niveau intermédiaire (lecture de docs, rédaction)

#Python # pytorch # TensorFlow # Keras # Machine Learning