SM

Réf : SM-05122019

Data Scientist

Tarif

550€ / J HT

Lieu

Ile-de-France

Expérience

2 ans

Disponibilité

Immédiate

Principaux talents

Data Science

Modélisation

Programmation

Compétences clés

Formations et Diplômes

2017–2018

Master en Data Science

École Centrale de Lyon

Projet d’option :

 Création d’une librairie Python traitant des données GPS et effectuant une segmentation de trajet et identification d’endroits d’intérêt.

Environnement : Python (librairies : pandas, numpy, scipy, scikit learn, matplotlib,..), Git hub

2014 – 2017

Diplôme national d’ingénieur en statistiques et analyse de l’information

École Supérieure de la statistique de Tunis et de l’analyse de l’information de Tunis

3ème prix des lauréats de la promotion

Obtention d’une bourse d’excellence de l’état tunisien

Projet 3ème année :

  • Création d’un package R contenant une application Shiny Dashboard traitant les données d’enquêtes et appliquant des méthodes de clustering, textmining et analyse de sentiments sur Tweeter
  • Environnement: R (librairies: shinyDashboard, ggplot2, plotly, googleVis, factoextra, FactoMineR, kmeans, tm, tweeter, plyr, survival, doBy, agricolae, devtools, grid, multcomp, pastecs)

Langues

Anglais
Courant

Centre d’intérêt

Lecture

Soft Skills

Esprit d’analyse

Transversalité

Agilité

SYNTHÈSE DE PARCOURS

SM a contribué à des projets en Data science traitant de différentes problématiques sur des environnements Big Data dans de multiples contextes métiers.

Il est notamment intervenu sur des projets tels que l’analyse et le traitement des transactions clients, l’analyse de préférences de consommateurs, la création de référentiels, la création de cartographies, le développement de scripts ou encore la mise en place de modèle de Machine Learning.

Son expertise technique et sa capacité d’adaptation lui permettent d’être rapidement opérationnel et de gérer plusieurs projets de data science.  

EXPERTISES

Développement

Python, Java, C/C++ ,XML ****, R, SQL *****

Environnement Big Data

Hadoop, SPARQL, Spark ***, Hive **, Impala *

Statistique :

R*****, EViews, Weka, Stata ****, SAS, Excel ***

Outils BI :

Tableau, Power BI, Oracle BI, Talend ***

Technologies web :

HTML****, CSS, PHP ***

LES DERNIÈRES MISSIONS

Intervenir au besoin sur plusieurs projets en tant que data scientist traitant différentes problématiques sur un environnement Big Data Hadoop et GCP. 

Missions :

Parmi les principaux projets, on site :

  • Système de recommandation de produits non alimentaires développé sur Big Query GCP se basant sur l’historique de transactions des clients sur les sites d’achat en ligne de Carrefour utilisant des mesures comme les notions de support, lift  et confiance.
  • Centralisation des données via la création de référentiel produits global : développement de scripts en PySpark exécutés en tant que jobs Big Data sur la plateforme Hadoop, du code SQL sur Big Query GCP et utilisation de google storage
  • Refactoring d’anciens scripts en les adaptant aux nouvelles sources de données.

Environnement technique : PySpark,SQL sur Big Query,Google Cloud Plateform GCP,Google storage Git, Bitbucket.

Mission chez : ArcelorMittal – Luxembourg – Equipe Data scientist

Refactoring d’un projet pricing automatique de produits à partir d’une version codée sous R à Python en l’adaptant aux nouvelles bases de données Azur et au besoin commercial actuel.

Environnement de travail en anglais et en mode agile

Missions :

Compréhension d’un code R complexe utilisé auparavant pour ce projet

Traduction de ce code de R à Python en utilisant les librairies adaptées ; ce code traitant des problématiques d’ingénierie de données, statistique, clustering et scoring

Adaptation du code aux besoins des commerciaux et aux nouvelles bases de données utilisées

Documentation du projet

Environnement technique : Python,R,SQL Azure,Git,Jira.

Élaboration de modèles de scoring de rétention clients pour produit d’assurance automobile via différents algorithmes de machine learning à savoir GLM, régressions pénalisées, Random Forest, XGBoost.

Missions :

  • Collecte de la base de données via des jointures
  • Étude descriptive
  • Réalisation de traitements préliminaires tels que l’étude de corrélation et l’imputation des valeurs manquantes nécessaires pour la mise en place de modèles de régression logistique et logistiques pénalisées
  • Mise en place des modèles de régression logistique et logistiques pénalisées (Ridge, Lasso et Elastic Net)
  • Mise en place de modèle de machine Learning à base d’arbres tels que Random forest et XGBoost
  • Évaluation des modèles obtenus

Environnement technique : R (librairies Machine Learning : caret, xgboost, randomforest,  …),SAS (proc SQL).

Laboratoire StatSC Oniris, Département statistique :

Analyse des préférences de consommateurs de produits alimentaires et l’élaboration de cartographies externes suivant des méthodes de clustering reposant sur les réseaux de neurones.

Missions :

  • Études préliminaires classique dans le domaine de sensométrie. Vérification de la cohérence des données.
  • Étude des descripteurs caractérisant les produits et indépendamment la préférence des consommateurs pour les produits en question.
  • Segmentation des consommateurs selon des méthodes de clastering.
  • Réalisation d’une cartographie externe représentant les courbes de préférence des consommateurs.
  • Utilisation des réseaux de neurones et en particulier des réseaux de Kohonen pour la réalisation de la cartographie de préférences des consommateurs.

Environnement technique : R ( librairies : CLV, kohonen, ggplot2, Dplyr, factoextra, FactoMineR, doBy grid, …), Excel.

Observatoire de la conjoncture économique

Traitement de séries temporelles saisonnières intervenant dans le calcul du PIB, modélisation et prévision.

Missions :

  • Étude descriptive et visualisation.
  • Réalisation de tests de détection de la saisonnalité des séries temporelles décomposition et correction des variations saisonnières.
  • Étude de la stationnarité.
  • Détection des points atypiques et l’effet calendrier.
  • Détection du processus adéquat.
  • Réalisation d’une prévision pour les années suivantes.

Environnement technique : Eviews, Jdemetra, R, Excel.

Banque Internationale Arabe de Tunisie, Département de gestion de risques opérationnels :

Élaboration d’un modèle interne de gestion de risques opérationnels suivant une approche de mesure avancée LDA

Missions :

  • Documentation et benchmarking sur les méthodes utilisées pour la gestion des risques opérationnels.
  • Étude descriptive.
  • Application des méthodes basique de gestion de risques.
  • Test d’hypothèses et application de l’approche de mesure avancée LDA.

Environnement technique : R, Excel.

Union Bancaire pour le Commerce et l’Industrie, (filiale BNP-Paribas Tunisie) Direction du réseau commercial.

Détection des entrées en relation en anomalies à partir du dossier clients sous Atlas Portal et réalisation de statistiques descriptives

Missions : 

  • Élaboration de statistiques descriptives sur les clients inscrits dans le dossier en question.
  • Détection des entrées en relation en anomalies à partir du dossier clients sous Atlas Portal.
  • Normalisation de formats de tuples dans la base de données clients.

Environnement technique : Plateforme Atlas Portal, Excel.

Institut National de la Statistique, Observatoire de la conjoncture économique.

Étude descriptive et tests d’hypothèses sur une série temporelle de l’indice de la production industrielle.

Missions :

  • Élaboration de statistiques descriptives.
  • Représentation graphique.
  • Tests d’hypothèses (test de normalité, test de Shapiro, …)

Environnement technique : R, Excel.

LES DERNIÈRES RECOMMANDATIONS

Soyez le premier à partager votre expérience !