Retour au cours

Structure des donnees

Progression du cours0%

Types de Données

Données Structurées

Définition :
Données organisées pour supporter des applications transactionnelles et analytiques.

Caractéristiques :

  • Stockage typique : Bases de données relationnelles
  • Permet des requêtes complexes et analyses efficaces
  • Schéma rigide et prédéfini

Exemple :

| order_id | last_name | first_name | order_total |
|----------|-----------|------------|-------------|
| 123216   | Wolf      | Nikki      | 62.26       |
| 599764   | Salazar   | Carlos     | 45.79       |

Données Semi-Structurées

Caractéristiques

  • Organisation partielle avec flexibilité
  • Pas de schéma rigide imposé
  • Évolution possible sans modification de structure globale
  • Stockage typique dans des bases non relationnelles

Formats Courants

  • JSON (JavaScript Object Notation)
  • XML (eXtensible Markup Language)
  • Email (en-têtes structurés + corps libre)

Exemple JSON

[
  {
    "first_name": "Nikki",
    "last_name": "Wolf",
    "order_id": "123216",
    "default_size": [6, 8],
    "order_total": "62.26"
  },
  {
    "first_name": "Carlos",
    "last_name": "Salazar",
    "order_id": "599764",
    "default_size": [8, 10, 12],
    "order_placement": "Online",
    "order_total": "45.79"
  }
]

Données non structurées

Définition

Les données non structurées :

  • Ne possèdent pas d'organisation discernable
  • N'ont pas de schéma prédéfini
  • Contiennent souvent des informations non pertinentes
  • Requièrent un prétraitement pour analyse

Caractéristiques clées

  • Stockage typique :
    • Bases de données clé-valeur non relationnelles
    • Systèmes de fichiers
    • Magasins d'objets
    • Lacs de données

Exemples courants

  • Messages texte (SMS, chats)
  • Documents bureautiques (Word, PDF)
  • Contenus multimédias :
    • Vidéos
    • Photos
    • Images numériques
  • E-mails
  • Publications sur les réseaux sociaux

Défis

  • Difficulté d'extraction d'informations utiles
  • Nécessité de techniques spécialisées pour :
    • Le traitement du langage naturel (NLP)
    • La reconnaissance d'images
    • L'analyse vidéo
  • Volume important de "bruit" informationnel