Base de données BIG DATA
Ce n'est pas la taille ou le nombre de lignes d'une base qui fait d'elle une base de données de BIG DATA.
Le BIG DATA est le fait de stocker des informations sur la base d'un modèle [Clef; Valeur] mais sans structure de base de données forte. On peut donc insérer n'importe quel type de données dans une base de type BIG DATA sans avoir su au moment de la constitution de la base quelles données allaient y être stockées. Le temps d'écriture est donc nettement abaissée, l'écriture se faisant sur le modèle d'une ligne simple sans test de contrainte d'intégrité ni traitement d'index. On appelle globalement ça le NO SQL (puisque le Query n'est plus STRUCTURÉ).
Vous me direz : c'est bien beau d'écrire tout en désordre sans rigueur dans une base, mais logiquement ça devrait prendre beaucoup plus de temps à lire, et d'ailleurs comment lire des données désorganisées ? C'est là que les évolutions technologiques entrent en jeu. De part la capacité à distribuer les calculs, à la gestion NON temps réelle et la parallélisation des blocs de calculs au lieu de la sérialisation (verticalisation du traitement), on arrive à exécuter des calculs de niveau quasi illimité en un temps quasi nul. (si on a 1 000 000 000 000 de calcul à faire, on va envoyer 1000 000 calculs à 1 000 000 de noeuds, ce qui sera fait en quelques centièmes de secondes le temps de l'aller retour et calcul fait. Alors qu'un seul noeud aurait mis un peu moins de 1 000 000 fois plus longtemps à le faire, et bloqué toute la chaine de calculs suivant par noeud. Le framework Hadoop est par exemple un framework de création d'applications distribuées.
Donc en résumé en BIG DATA :
- on écrit très vite et sans aucune contrainte en NoSQL
- on ne s'encombre d'aucune forme d'intégrité
- on lit et on calcule très vite avec hadopp par exemple, en distribuant ultra-massivement les calculs à des millions de noeuds, donc tout calcul est fait extrêmement rapidement et sans bloquer la chaine de calcul.