Cloud Magazine vous présente ses meilleurs voeux

La fin d'Hadoop est-elle proche ?

En avril dernier, deux des trois distributions majeures d'Hadoop, Cloudera et Hortonworks (MapR n'étant pas cotée en bourse) ont vu le cours de leurs actions chuter (cf graphiques ci-dessous). Les deux baisses étant intervenues au même moment, j'en ai déduit que la technologie Hadoop pouvait être la cause de ce renversement de tendance (d'autres articles comme celui de Data Science Central ou Tdwi semblent d'ailleurs l'appuyer).


Cloudera’s stock / Yahoo Finance


Hortonworks’ stock / Yahoo Finance

Intégrer Hadoop dans l'activité de l'entreprise prend du temps et peut s'avérer extrêmement complexe (cet article sur la difficulté qu'a eu Uber à maîtriser le Big Data en est l'exemple). Les entreprises qui ont massivement investi dans des lacs de données basés sur Hadoop rencontrent aujourd'hui beaucoup de mal à en tirer profit, ou à se transformer en entreprises “data centric” (comme le diraient de nombreux consultants).

La raison principale de cet échec est que HDFS (Hadoop distributed file system) n'est qu'une brique d'un plus large et complexe écosystème en constante évolution, intégrant des dizaines de technologies de stockage, d’ordonnancement, de traitement en temps réel, de requêtes, de Deep Learning ou encore d'analyse. Ces technologies de pointe, souvent d’origine open source, changent très fréquemment.

Lacs de données VS Hadoop ?

Mais est-ce que cela signifie que l'ère des lacs de données touche à sa fin ? Bien sûr que non. Rassembler autant de sources de données hétérogènes en un seul endroit et y apporter des analyses distribuées performantes est désormais un critère clé pour une entreprise, et peu de gens peuvent le nier.

En revanche, l’importance du rôle de la technologie Hadoop, HDFS, devrait diminuer : d'un côté par sa banalisation, de l'autre par son remplacement par des technologies plus simples d'utilisation comme le Amazon S3.

Et c'est pourquoi les cathédrales (ou silos) construites autour d'une distribution Hadoop ont des fondations bancales et ne justifient plus, aujourd’hui, leur valorisation boursière.

Quelles démarche adopter ?

L'objectif est de progresser dans la chaîne de valeur. Il faut donc moins se focaliser sur le stockage, le calcul et l'infrastructure pour se concentrer davantage sur la création et la mise en production d’applications intelligentes basées sur l'intelligence artificielle qui peuvent réellement amener de la valeur à l'entreprise.

Une nouvelle génération de startups a bien compris les enjeux et souhaitent relever ce nouveau défi qui est de maîtriser un écosystème ouvert et complexe et de rapprocher la SI (industrialiser des projets Big Data / IA tout en intégrant les contraintes de conformité et  de sécurité) et les métiers (libre-service et collaboration).

Trois concepts clés seront les piliers de cette révolution :

- Adopter son écosystème. Dans ce domaine, tout change très vite. Bientôt, l'innovation ne laissera plus la place aux systèmes fermés. Le marché demande des solutions ouvertes, intégrant le meilleur des technologies, maintenues à jour et intégrant des pipelines de données automatisés qui permettent la mise en production de projets. Une plateforme de ce type devrait aussi être extensible (en utilisant un cluster d’orchestration Docker comme Kubernetes ou Mesos par exemple) tout en étant intégrable facilement aux outils IT d'ordonnancement, de monitoring et de DevOps existants. Rendre facile le fait d'assembler différentes technologies Big Data et IA est désormais devenu vital. Les ressources peuvent ainsi être optimisées pour développer à la fois des cas d’usage métier, mais aussi les compétences qui serviront à un meilleur retour sur investissement.

- Construire une communauté Data. La technologie est un facilitateur. Mais ce sont bien les hommes et les femmes qui peuvent accomplir un changement organisationnel. Les différents utilisateurs (analystes, data-engineers, Data owner, DevOps, data-scientists, IT-ops…) ont besoin d'un accès à un portail partagé et documenté dans lequel ils trouveront des outils en libre-service et où ils pourront travailler en collaboration sur des projets. Ces projets amèneront des applications intelligentes grâce à cette communauté qui assure cercle vertueux de feedbacks.

- Avoir une souplesse de déploiement et une gouvernance globale. Nous vivons dans un monde complexe rempli de systèmes d’informations historiques et d'une combinaison d'infrastructures cloud et "on premise". Le liant qui permet de standardiser les différents types de déploiement d'infrastructure est la conteneurisation, et en particulier une technologie qui est en train d’émerger : Kubernetes. Les solutions tendent à devenir hybrides avec différentes entités de l'entreprise utilisant différents moyens pour stocker et traiter les données. Une orchestration des projets à un niveau mondial est non seulement indispensable pour des raisons de conformité, mais aussi pour favoriser le partage entre les différentes entités et leurs équipes fonctionnelles.

Youen Chéné, CTO de Saagie