Pourquoi Python?

Il existe des tas de langages de programmation ou encore de suite logicielles pour explorer et travailler sur les données, mais peu réunissent autant d’attraits que ce langage, au point qu’il est devenu un incontournable des projets de Data Science.

Et ce fait tient, a mon sens, pour les raisons suivantes:

  • Python est Open Source. Gratuit, pas de licence.
  • Sa syntaxe est simple.
  • Il est portable sur de multiples architectures (Window, Linux, MacOS…)
  • Il repose sur une communauté de développeurs très large et extrêmement active.
  • De très nombreuses librairies sont disponibles en Open Source.
  • Il est déjà au cœur de multiples systèmes ou site web.

L’histoire de ce langage est particulièrement intéressante, jusqu’à son nom… Rien à voir avec les serpents, encore moins avec le « fourchelangue » de Harry Potter ! Mais j’y reviendrais.

Oui, mais…

Java est un langage beaucoup plus répandu, C++ est plus rapide en exécution, Matlab dispose d’un environnement intégré pour visualiser et programmer, R dispose des meilleures librairies pour les Statistiques, etc…

Certes. Mais, comme je le disais plus haut, aucune autre solution ne dispose de tous les avantages de Python cité plus haut tout en ayant des performances d’exécution (le temps qu’il faut à votre code pour faire ce qu’il a à faire) tout à fait acceptable pour la plupart des tâches à réaliser dans l’exploration et la transformation de données.

Python, soit ! Mais version 2 ou 3 ?

Oui, il y a, encore aujourd’hui, deux versions de Python en activité. Et ces deux versions ne sont pas tout à fait compatibles. Il existe encore des systèmes écrits en Python 2.7 et il est tout à fait possible que, si vous travaillez sur des bases de code un peu anciennes, vous deviez vous frotter à cette ancienne version. Il y a quelques années, la question aurait été plus délicate.

Lorsque j’ai commencé à développer en Python en 2014, nous nous sommes ouvertement posé cette question. Il y avait, à cette époque, des gens qui pensaient que la version 3 ne prendrait jamais. Bien, soyons clairs, plus personne ne développe sous 2.7, sauf s’il y est obligé car c’est le langage de sa base de code historique (migrer du code Python 2 vers Python 3 n’est pas l’activité la plus intéressante de l’univers). D’autant plus que la version 2 (2.7 sa dernière mouture) n’est plus supportée par l’organisation qui gère le langage, la Python software foundation.

Alors comment…

Comment commencer ? C’est très simple, il suffit d’installer une distribution de Python sur votre ordinateur (la version 3 bien sûr!), et de commencer à voir ce qu’il est possible de faire.