Cleora : Un Modèle d'Apprentissage d'Embeddings d'Entités
Cleora est un modèle généraliste destiné à l'apprentissage efficace, évolutif et stable d'embeddings d'entités inductifs pour des données relationnelles hétérogènes. Il est développé par l'équipe de Synerise.com.
Aperçu : Cleora est conçu pour gérer des données complexes et hétérogènes. Il s'attaque aux défis de l'apprentissage d'embeddings d'entités en offrant une solution performante et scalable.
Fonctionnalités clés :
- Performance optimisée : environ 10 fois plus rapide pour les temps d'embedding et une utilisation mémoire significativement réduite.
- Recherche avancée : amélioration de la qualité des embeddings.
- Nouvelles fonctionnalités : création de graphes à partir d'itérateurs Python, intégration transparente avec NumPy, support des attributs d'éléments via des embeddings personnalisés, ajustement de la projection/normalisation vectorielle après chaque étape de propagation.
Utilisation de base :
- Installation :
pip install pycleora
. - Exemple d'utilisation : génération de données d'exemple, création d'une matrice de transition Markov pour l'hypergraphe, initialisation des vecteurs d'embedding, propagation Markov aléatoire et normalisation.
FAQ : Réponses aux questions fréquentes sur l'embedding, la construction de l'entrée, l'incorporation d'informations externes, etc.
Principes de conception : Cleora est construit en tant qu'outil polyvalent, adapté à de nombreux types et formats de données. Il ingère une table relationnelle représentant un hypergraphe hétérogène et non dirigé, et effectue diverses opérations pour créer des embeddings.
Caractéristiques techniques des embeddings de Cleora :
- Efficacité : deux ordres de grandeur plus rapide que Node2Vec ou DeepWalk.
- Inductivité : les embeddings d'une entité sont définis par les interactions avec d'autres entités.
- Mise à jour : la mise à jour d'un embedding pour une entité est une opération rapide.
- Stabilité : les vecteurs de départ pour les entités sont déterminés, garantissant des résultats similaires sur des ensembles de données similaires.
- Compositionnalité inter-ensembles de données : les embeddings de la même entité sur plusieurs ensembles de données peuvent être combinés.
- Indépendance dimensionnelle : chaque dimension est indépendante des autres, permettant une combinaison efficace des embeddings multi-vues.
Caractéristiques d'utilisabilité des embeddings de Cleora :
- Tables relationnelles hétérogènes peuvent être intégrées sans prétraitement artificiel des données.
- Données d'interaction mixtes + textuelles peuvent être intégrées facilement.
- Le problème de départ à froid pour de nouvelles entités n'existe pas.
- Les mises à jour en temps réel des embeddings ne nécessitent pas de solutions séparées.
- Les embeddings multi-vues fonctionnent directement.
- Les embeddings temporels et incrémentaux sont stables sans besoin de réalignement ou d'autres méthodes.
- Les ensembles de données extrêmement volumineux sont pris en charge et peuvent être intégrés rapidement.