Travailler dans la science des donnes, un job ingrat ? C’est du moins ce que pense l’analyste des donnes et blogueur, connu sous le pseudonyme de ryxcommar


La science des données combine les mathématiques et les statistiques, la programmation spécialisée, l’analyse avancée, l’intelligence artificielle (IA) et l’apprentissage automatique avec une expertise spécialisée pour découvrir des informations exploitables cachées dans les données d’une organisation. Il peut être utilisé pour la prise de décision et la planification stratégique. Parallèlement à cette description, certains critiques aiment dire que la science des données est inutile ou inutile. “La principale raison pour laquelle j’ai abandonné la science des données était que je sentais que le travail n’avait pas d’importance dans de nombreux sens différents du terme”, explique Rixamar, analyste.

Voici quelques raisons données par ryxcommar :

  • le travail est en aval des politiques d’ingénierie, de produit et de bureau, ce qui signifie que le travail n’était souvent aussi bon que le maillon le plus faible de la chaîne ;
  • personne ne sait ou ne se soucie de la différence entre une bonne et une mauvaise science des données. En d’autres termes, vous pouvez être complètement déplacé dans votre travail ou vous pouvez être incroyable dans ce domaine, et dans tous les cas, vous vous ressemblez à peu près;
  • le travail a souvent très peu de valeur ajoutée pour l’entreprise (compensant souvent l’incompétence de la chaîne managériale).

Un rapport de la société d’analyse prédictive Pecan AI publié le mois dernier sur la base d’enquêtes menées par Wakefield Research a révélé que quatre spécialistes du marketing sur cinq déclarent avoir du mal à prendre des décisions basées sur les données malgré toutes les données sur les consommateurs dont ils disposent. Une étude portant sur 250 personnes montre que 84 % d’entre elles déclarent que leur capacité à prédire le comportement des clients est une conjecture. La science des données ne répondrait pas aux besoins des marketeurs.

Tout le monde n’est pas d’accord avec ryxcommar. L’augmentation des sources de données, et par conséquent des données, a fait de la science des données l’un des domaines à la croissance la plus rapide dans toutes les industries. Le cycle de vie de la science des données comprend divers rôles, outils et processus qui permettent aux analystes d’obtenir des informations exploitables. En général, un projet de données scientifiques passe par les étapes suivantes :

Transfert de données: le cycle de vie commence par la collecte de données, qu’il s’agisse de données brutes structurées ou non structurées provenant de toutes les sources pertinentes, en utilisant une variété de méthodes. Ces méthodes peuvent inclure la saisie manuelle, le grattage Web et la diffusion en temps réel de données à partir de systèmes et d’appareils. Les sources de données peuvent inclure des données structurées telles que les données client ainsi que des données non structurées telles que les fichiers journaux, la vidéo, l’audio, les images, l’Internet des objets (IoT), les médias sociaux, etc.

Lire Aussi :  La première Conférence mondiale sur l’écologie numérique se tiendra le 13 décembre

Stockage et traitement des données : Étant donné que les données peuvent avoir différents formats et structures, les organisations doivent envisager différents systèmes de stockage en fonction du type de données collectées. Les équipes de gouvernance des données aident à établir des normes concernant le stockage et la structure des données, facilitant les flux de travail autour des modèles d’analyse, d’apprentissage automatique et d’apprentissage en profondeur.

Cette phase comprend le traitement, la déduplication, la transformation et l’intégration des données à l’aide de travaux ETL (Extract, Transform, Load) ou d’autres technologies d’intégration de données. Cette préparation des données est essentielle pour améliorer la qualité des données avant de les charger dans un entrepôt de données, un lac de données ou un autre référentiel.

L’analyse des données: Les analystes de données effectuent une analyse exploratoire des données pour examiner les biais, les modèles, les plages et les distributions de valeurs dans les données. Ce type de recherche d’exploration de données aide à générer des hypothèses pour les tests a/b. Il aide également les analystes à déterminer la pertinence des données à utiliser dans les efforts de modélisation pour l’analyse prédictive, l’apprentissage automatique et/ou l’apprentissage en profondeur. En fonction de la précision des modèles, les organisations peuvent s’appuyer sur ces informations pour prendre des décisions commerciales, ce qui leur permet d’être plus évolutives.

communiquer: enfin, les informations sont présentées sous forme de rapports et d’autres types de visualisation de données qui permettent aux analystes commerciaux et autres décideurs de comprendre plus facilement les informations – et leur impact sur l’entreprise. Un langage de programmation de science des données tel que R ou Python comprend des composants pour créer des visualisations ; les data scientists peuvent également utiliser des outils de visualisation spécialisés.

Science des données et analyse commerciale

Il peut être facile de confondre les termes « data scientist » et « business intelligence » (BI) car ils font tous deux référence aux données d’une organisation et à l’analyse de ces données, mais leur objectif diffère. Business Intelligence (BI) est un terme général désignant une technologie qui permet la préparation, l’exploration, la gestion et la visualisation de données.

Lire Aussi :  « L’envers des mots » : stagflation

Les outils et processus de Business Intelligence permettent aux utilisateurs finaux d’identifier des informations exploitables à partir de données brutes, facilitant ainsi la prise de décision basée sur les données dans les organisations de tous les secteurs.

Alors que les outils de science des données se chevauchent largement, l’intelligence d’affaires se concentre davantage sur les données historiques, et les informations fournies par les outils d’intelligence d’affaires sont de nature plus descriptive. Il utilise des données pour comprendre ce qui s’est passé avant de déterminer un plan d’action. La BI se concentre sur des données statiques (immuables) qui sont généralement structurées. Lorsqu’un data scientist utilise des données descriptives, il les utilise généralement pour définir des variables prédictives qui sont ensuite utilisées pour classer les données ou faire des prédictions.

La science des données et la BI ne s’excluent pas mutuellement – les entreprises averties utilisent les deux pour bien comprendre leurs données et en tirer de la valeur.

Science des données et scientifique des données

La science des données ou la science des données est considérée comme une discipline, tandis que les scientifiques des données sont des praticiens sur le terrain. Un Data Scientist collecte, traite, analyse et communique des données massives, également appelées big data, pour améliorer les performances de l’entreprise. Les scientifiques des données ne sont pas nécessairement directement responsables de tous les processus impliqués dans le cycle de vie de la science des données. Par exemple, les pipelines de données sont généralement gérés par des ingénieurs de données, mais un data scientist peut faire des recommandations sur les données utiles ou nécessaires.

Alors que les scientifiques des données peuvent créer des modèles d’apprentissage automatique, la mise à l’échelle de ces efforts à plus grande échelle nécessite de plus grandes compétences en développement logiciel pour optimiser le programme afin qu’il s’exécute plus rapidement. Par conséquent, il est courant que les scientifiques des données collaborent avec des ingénieurs en apprentissage automatique pour mettre à l’échelle des modèles d’apprentissage automatique.

Les responsabilités d’un scientifique des données peuvent généralement chevaucher celles d’un analyste de données, en particulier en ce qui concerne l’analyse exploratoire et la visualisation des données. Cependant, l’ensemble de compétences d’un scientifique des données est généralement plus large que celui d’un analyste de données typique. En comparaison, un data scientist utilise des langages de programmation courants tels que R et Python pour plus d’inférence statistique et de visualisation de données.

Lire Aussi :  Neutraliser les variantes plus fortes du COVID-19

Pour accomplir ces tâches, les scientifiques des données doivent avoir des compétences en informatique et en sciences pures qui vont au-delà de l’entreprise ou de l’analyste de données typique.

Cependant, ryxcommar pense que le data scientist moyen est nul en programmation et en ingénierie en général. Les quelques personnes qui sont même à distance bonnes en programmation sont souvent mauvaises en ingénierie, dans le sens où elles ont tendance à sur-concevoir les solutions, sont complaisantes et veulent passer du temps à construire leur propre plate-forme.

Pour Ryxcommar, le niveau extrêmement bas de science des données dans la programmation évoque deux sentiments :

  • Frustration face au manque d’autorité sur le code et les solutions d’infrastructure. Faire de la science des données sans contrôler l’infrastructure ne sert à rien. ;
  • il y a un besoin général dans l’industrie pour les personnes qui sont bonnes à la fois en science des données et en programmation pour utiliser les données d’entreprise.

De plus en plus d’entreprises reçoivent d’énormes ensembles de données qu’elles souhaitent exploiter pour obtenir des informations, mais elles ne disposent pas de l’infrastructure nécessaire pour faire quoi que ce soit avec ces données. Ils sont simplement collectés. Ils ne les collectent qu’en raison d’une réglementation qui les oblige à le faire.

Selon certains développeurs, la question de la science des données ne se pose pas dans les entreprises technologiques, surtout les plus petites. La maîtrise de SQL, R et Tableau peut aider à extraire des données de SQL, à créer des modèles prédictifs dans R et à charger des prédictions directement dans des tables SQL.

Source: ryxcommar

Et vous?

Qu’avez-vous pensé de la critique de l’exposition sur le blog ryxcommar ? Est-ce pertinent ?

Que pensez-vous de la data science et du métier de data scientist ? Utile ou pas selon vous ?

La science des données fonctionne-t-elle pour votre entreprise ? Quel est votre parcours ?

Pensez-vous que nous pouvons nous passer des data scientists dans les entreprises technologiques ? Ou en avons-nous davantage besoin ?

Voir également:

DataSpell : Lancement de la version 2022.2 de l’IDE JetBrains Data Science, présentation de la vue de fusion pour Jupyter Notebook, prise en charge WSL, etc.

Pourquoi la science des données ne répond-elle pas aux besoins des marketeurs ? 84 % disent que leur capacité à prédire le comportement des clients est une conjecture

La maturité des données génère des revenus : plus précisément, 3,2 fois plus de revenus, selon Heap

Source

Leave a Reply

Your email address will not be published.

Articles Liés

Back to top button