De vastes données brouillent intentionnellement la frontière entre le stockage et la base de données
Selon la façon dont vous la regardez, une base de données est une sorte de système de stockage sophistiqué ou le stockage est une sorte de réduction d'une base de données. Dans le monde réel, où les bases de données et le stockage sont séparés, il existe bien sûr un continuum de coopération entre les deux. Il ne fait aucun doute que les bases de données relationnelles ont conduit à la création de systèmes de stockage tout autant – et les ont conduites dans des directions très différentes – que les charges de travail de service de fichiers puis de service d’objets.
Et si vous n’aviez pas à faire de tels choix ? Et si votre stockage était une base de données réelle, authentique et honnête ? Et si Vast Data, le nouveau fabricant de clusters de stockage 100% Flash qui parlent mieux le système de fichiers en réseau et avec une échelle bien plus grande que les magasins NoSQL ou d'objets plus complexes (et moins utiles), y réfléchissait dès le moment où il a été fondé, que la création d'un nouveau type de stockage pour piloter un nouveau type de base de données intégrée a toujours été prévue ? Et si l’IA était toujours au rendez-vous et que la simulation et la modélisation HPC pouvaient accompagner le voyage ?
Eh bien, la Vast Data Platform, comme on appelle désormais cet hybride stockage-base de données, a toujours été le plan. Et ce plan a toujours été plus que le stockage universel conçu début 2016 par les cofondateurs, Renen Hallak, président-directeur général de l'entreprise, Shachar Fienblit, vice-président de la recherche et du développement, et Jeff Denworth, vice-président des produits et directeur marketing, et lancée en février 2019. Il s'agit d'une prochaine plate-forme à part entière, ce qui signifie qu'elle devra également faire des choses intelligentes en matière de calcul. Alors peut-être qu’à la fin, elle s’appellera simplement la Vaste Plateforme ? Mais n’allons pas trop loin.
Et puis, pourquoi pas ? Les co-fondateurs de Vast Data l’ont fait il y a longtemps.
« En 2015, dans mon pitch deck, il y avait une diapositive sur le stockage dans tout ce deck, qui contenait peut-être quinze diapositives », explique Hallak à The Next Platform. « L’un d’eux contenait du stockage, les autres avaient d’autres pièces qui devaient être construites pour que cette révolution de l’IA se produise réellement comme elle le devrait. Il y a huit ans, l'IA représentait des chats identifiés comme des chats dans les vidéos YouTube. Ce n’était pas proche de ce qu’il est aujourd’hui. Mais il était très clair que si quelque chose d’important devait se produire dans le secteur informatique au cours des vingt prochaines années, ce serait l’IA et nous voulions en faire partie. Nous voulions le diriger. Nous voulions permettre à d’autres de participer à cette révolution qui semblait confinée à quelques très grandes organisations. Et nous n’avons pas aimé ça. Nous voulons démocratiser cette technologie.
Et cela signifie bien plus que la simple création d’un système de fichiers NFS et d’un système de stockage d’objets de nouvelle génération, massivement évolutifs, basés sur Flash. Cela signifie penser à des niveaux toujours plus élevés dans la pile et rassembler les concepts de stockage de données et de base de données avec les grands ensembles de données du monde naturel qui sous-tendent de plus en plus les applications d'IA.
Les données ne se limitent plus à des quantités limitées de texte et de chiffres répartis en lignes ou en colonnes dans une base de données, mais à des données haute résolution – vidéo, son, génomique, etc. – qui briseraient une base de données relationnelle normale. Les charges de travail d'IA ont besoin d'énormes quantités de données pour créer des modèles, de beaucoup de performances pour piloter l'entraînement des modèles et parfois d'une énorme quantité de calcul pour exécuter des inférences sur de nouvelles données lorsqu'elles entrent dans le modèle. Tout cela exerce une pression énorme sur le système de stockage pour qu'il fournisse des informations – ce que le stockage universel de Vast Data, une implémentation désagrégée et partagée de NFS dotée d'un magasin quasi-objet très fin en dessous, peut gérer.
"Les données ont beaucoup plus de gravité que le calcul", ajoute Hallack. « C'est plus grand et c'est plus difficile de se déplacer. Et donc, pour jouer dans cet espace de l’IA, nous ne pouvons pas nous limiter uniquement aux données. Nous devons savoir quelque chose et avoir une opinion sur la façon dont les données sont organisées. Il s’agit de rompre avec les compromis, et ce n’est pas seulement une question de stockage. Si vous supprimez ce stockage de mots et insérez la base de données de mots, le même type de défis s'applique. Coût, performances, évolutivité, résilience, facilité d’utilisation : ce ne sont pas des termes de stockage. Ce sont des termes informatiques très génériques.