Back to Search

Déduplication efficace des données dans Hadoop

AUTHOR Prajapati, Priteshkumar; Shah, Parth
PUBLISHER Editions Notre Savoir (09/18/2025)
PRODUCT TYPE Paperback (Paperback)

Description
Hadoop est largement utilisé pour le stockage massif de données distribuées. Même s'il est hautement tolérant aux pannes, évolutif et fonctionne sur du matériel standard, il ne fournit pas de solution de stockage de données efficace et optimisée. Lorsque l'utilisateur télécharge des fichiers avec le même contenu dans Hadoop, celui-ci stocke tous les fichiers dans HDFS (Hadoop Distributed File System), même si le contenu est identique, ce qui entraîne une duplication du contenu et donc un gaspillage d'espace de stockage. La déduplication des données est un processus qui permet de réduire la capacité de stockage requise, car seules les instances uniques de données sont stockées. Le processus de déduplication des données est largement utilisé dans les serveurs de fichiers, les systèmes de gestion de bases de données, le stockage de sauvegarde et de nombreuses autres solutions de stockage. Une stratégie de déduplication appropriée permet d'utiliser de manière optimale l'espace de stockage disponible sur des périphériques de stockage limités. Hadoop ne fournit pas de solution de déduplication des données. Dans le cadre de ce travail, le module de déduplication a été intégré dans le cadre Hadoop afin d'optimiser le stockage des données.
Show More
Product Format
Product Details
ISBN-13: 9786202087308
ISBN-10: 6202087307
Binding: Paperback or Softback (Trade Paperback (Us))
Content Language: French
More Product Details
Page Count: 76
Carton Quantity: 92
Product Dimensions: 6.00 x 0.18 x 9.00 inches
Weight: 0.25 pound(s)
Country of Origin: US
Subject Information
BISAC Categories
Computers | General
Descriptions, Reviews, Etc.
publisher marketing
Hadoop est largement utilisé pour le stockage massif de données distribuées. Même s'il est hautement tolérant aux pannes, évolutif et fonctionne sur du matériel standard, il ne fournit pas de solution de stockage de données efficace et optimisée. Lorsque l'utilisateur télécharge des fichiers avec le même contenu dans Hadoop, celui-ci stocke tous les fichiers dans HDFS (Hadoop Distributed File System), même si le contenu est identique, ce qui entraîne une duplication du contenu et donc un gaspillage d'espace de stockage. La déduplication des données est un processus qui permet de réduire la capacité de stockage requise, car seules les instances uniques de données sont stockées. Le processus de déduplication des données est largement utilisé dans les serveurs de fichiers, les systèmes de gestion de bases de données, le stockage de sauvegarde et de nombreuses autres solutions de stockage. Une stratégie de déduplication appropriée permet d'utiliser de manière optimale l'espace de stockage disponible sur des périphériques de stockage limités. Hadoop ne fournit pas de solution de déduplication des données. Dans le cadre de ce travail, le module de déduplication a été intégré dans le cadre Hadoop afin d'optimiser le stockage des données.
Show More
List Price $47.00
Your Price  $46.53
Paperback