Erwan DRÉZEN, fondateur de la société, nous parle des origines et des ambitions de CUBR
Comment définir CUBR ?
“Avant tout, l’objet principal de CUBR, c’est la donnée et la façon de l’interroger.
Aujourd’hui, la donnée est devenue une ressource essentielle pour le fonctionnement de nos sociétés et les personnes qui parviennent à maîtriser cette ressource mieux et plus rapidement que d’autres possèdent un réel avantage.
C’est toute l’ambition de CUBR : développer des algorithmes novateurs pour interroger la donnée de façon efficace afin de la rendre facilement et rapidement utilisable pour son détenteur.”
Quelles sont ses origines ?
“Les origines de CUBR doivent beaucoup au monde de la santé ainsi qu’à ma propre expérience dans ce domaine sur près d’une décennie.
Premièrement, la génomique a été une grande source d’inspiration, notamment par la nécessité de traiter efficacement les déluges de données produits par les séquenceurs ADN. En effet, ces données très particulières nécessitent des algorithmes à la pointe de la recherche pour les traiter de façon rapide. Il est clair que cela n’aurait pas de sens de produire de l’information plus vite qu’on ne peut l’exploiter.
Deuxièmement, l’épidémiologie a été une source d’inspiration tout aussi importante, peut être davantage par le rôle central qu’occupe le temps dans les données de santé. Dans un parcours de soins, il peut être crucial de savoir si tel évènement est survenu avant tel autre, par exemple la prise d’un médicament peu de temps avant un passage aux urgences. L’aspect “big data” est bien sûr important mais surtout, savoir bien interroger le temps dans des données de santé est un point fondamental pour la réussite d’une étude épidémiologique.
Au final, les algorithmes développés par CUBR pour interroger la donnée, et plus particulièrement la donnée temporelle, sont la résultante de ces deux sources d’inspiration.”
Quelles sont les forces de CUBR ?
“Une des forces principales est la performance.
Les algorithmes développés par CUBR reposent sur une structure de données ultra-optimisée pour la notion de temps ainsi que sur une exploitation poussée des micro-processeurs modernes. A titre d’exemple, certains algorithmes de CUBR atteignent aujourd’hui un débit de traitement proche du milliard d’évènements par seconde sur un simple PC de bureau.
L’objectif de cette puissance est d’atteindre une forme d’interactivité avec l’utilisateur car ce dernier ne devrait pas attendre dix minutes pour obtenir un traitement sur ses données mais plutôt moins d’une seconde. Cela ouvre par exemple la porte à des outils de visualisation permettant une réelle exploration interactive des données, sans un délai d’attente rédhibitoire à chaque nouvelle requête.
CUBR propose un outil de visualisation qui s’appuie sur ses propres algorithmes mais rien n’interdit à l’utilisateur d’exploiter la puissance des algorithmes de CUBR via une API simple d’utilisation, que ce soit en R, python ou un autre langage. Il peut ainsi intégrer cette puissance à ses propres outils.
Autre exemple d’application : l’outil cubr-link permet d’apparier deux bases de données via une méthode très intéressante mais théoriquement très gourmande en temps de calcul. Grâce aux algorithmes de CUBR, cette méthode devient réalisable en pratique comme le prouvent des résultats récents obtenus avec cubr-link.
Enfin, la seconde force est de rester proche de votre métier.CUBR possède la capacité d’intégrer votre connaissance métier sous la forme d’ontologies. A titre d’exemple, je citerai ici le Système National des Données de Santé qui contient des informations de délivrances de médicaments, de biologies, de diagnostics, etc… Vous pouvez utiliser de façon simple les nomenclatures de santé présentes dans le SNDS via CUBR, c’est à dire des éléments qui vont vous aider à interroger vos données dans une terminologie que vous maîtrisez . Cette remarque s’applique aussi au PMSI et aux entrepôts de données de santé qui s’appuient sur tout un panel de nomenclatures.”
Que signifie CUBR ?
“Le nom CUBR est un clin d’oeil à la structure de données sur laquelle reposent les algorithmes développés par notre équipe de R&D. Conceptuellement, cette structure de données s’apparente à un cube, d’où ce nom qui se prononce ‘kioubeur’. “
Que faut-il retenir ?
“Ce qu’il faut retenir, c’est que CUBR se présente comme un complément à votre propre système d’information. L’idée n’est pas de bouleverser vos habitudes de travail mais d’apporter un moyen complémentaire pour interroger rapidement vos données sous un angle leur apportant un nouvel éclairage.
CUBR se positionne donc en amont de votre chaîne de traitement. Libre à vous de le brancher à votre algorithme d’IA pour alimenter ce dernier en données, à votre outil de visualisation ou tout simplement de s’appuyer dessus pour votre data management. Sa puissance et sa rapidité vous permettront d’atteindre vos objectifs voire de les dépasser.
Et s’il ne fallait retenir qu’une seule chose, cela pourrait se résumer par le credo de CUBR : ‘Domptez le temps dans vos données’. “