La première suite logicielle open source et gratuite de data science est française !

Verteego lance Verteego Data Suite, la toute première suite logicielle 100% open source et 100% gratuite,  couvrant toute la chaîne de valeur de la data science.

Rupert Schiessl, Directeur des Produits chez Verteego, raconte l'histoire de la Verteego Data Suite : "Il est très difficile aujourd'hui de recruter des data scientists, qui sont très demandés. Nous avons contourné cette difficulté en permettant à nos informaticiens de réaliser des projets de data science. Nous avons donc choisi des composants complémentaires allant de l'interconnexion d'applications à la librairie d'algorithmes de machine learning, en passant par le nettoyage des données, le scripting et la dataviz, pour permettre à nos propres ingénieurs R&D de profils informatiques de réaliser rapidement des prototypes ou des systèmes de production faisant appel au savoir-faire des data scientists. Cela n'en fait bien sûr pas des data scientists car ils sont informaticiens, et même développeurs pour être plus précis. En mettant cette suite à disposition du marché, nous ne faisons que partager un logiciel qui nous est très utile en interne et dont nous connaissons par conséquent parfaitement la valeur et les apports potentiels à la communauté de passionnés de data, comme nous."

Le choix de l'open source comme une évidence et une nécessité

Rupert Schiessl poursuit en expliquant comment l'open source s'est imposé comme une évidence : "Aujourd'hui, le marché bouge tellement vite que le risque est grand qu'entre le moment où les choix de conception sont réalisés et celui où le produit sort, ce dernier soit déjà obsolète. Chez Verteego, nous avons donc réfléchi à une architecture nous permettant de sélectionner au fil de l'eau les meilleurs composants open source. Dans ce contexte, nous assurons une veille technologique en continu, réalisons le travail d'unification d'une interface utilisateurs agréable malgré la diversité des composants de la Verteego Data Suite, et enfin mettons en oeuvre les moyens nécessaires à ce que les composants d'une part s'installent le plus simplement du monde, et d'autre part à ce que les données circulent d'un composant à l'autre."

La Verteego Data Suite (VDS) elle repose sur des leaders sur chacun de ses segments applicatifs :

  • Sur l'orchestration des flux de données, la VDS repose sur Apache NiFi, qui est une technologie en plein essor ;
  • Sur le nettoyage des données, la VDS repose sur OpenRefine, qui est une technologie mise en open source par Google ;
  • Sur les notebooks permettant aux statisticiens et aux développeurs de scripter en Python, en R, en Scala, en Bash ou en tout autre langage, la VDS repose sur Jupyter, une brique très répandue chez les data scientists ;
  • Sur l'analyse et la visualisation des données, la VDS repose sur Superset, qui est une technologie qui avait été conçue par les équipes d'Airbnb pour l'exploration et la visualisation de leurs masses de données ;
  • Enfin, sur la librairie d'algorithmes prédictifs, la VDS repose sur H2O.

Du Smart Data plutôt que du Big Data

La Verteego Data Suite n'est pas une distribution de Hadoop. Elle ne vient pas remplacer l'environnement Big Data client mais au contraire l'enrichir d'une brique d'exploitation des données. Rupert Schiessl précise : "La Verteego Data Suite vient se connecter à des systèmes de gestion des fichiers, quels qu'ils soient, ou à des systèmes de messagerie de type Kafka. La Verteego Data Suite a pour objectif de permettre à son utilisateur d'extraire de la valeur business aux données, tant au stade du prototypage que de la production à grande échelle car les composants retenus s'adaptent à tous types de problématiques de la vie des entreprises."

Verteego souhaite, en mettant à disposition la Verteego Data Suite, constituer en écosystème sa communauté de data scientists et de développeurs passionnés de data.

Le lien vers la page GitHub depuis laquelle la Verteego Data Suite peut être installée gratuitement est ici : http://verteego-dss-doc.readthedocs.io/en/latest/