Get fresh updates from Hortonworks by email

Once a month, receive latest insights, trends, analytics information and knowledge of Big Data.

cta

Démarrer

cloud

Prêt à débuter ?

Télécharger Sandbox

Que pouvons-nous faire pour vous ?

fermerBouton Fermer
cta

Ingestion de données du big data rapide, simple et sécurisée

Une ingestion de données en quelques minutes au lieu de plusieurs mois

cloud Découvrez comment faire de l’ingestion de données un processus rapide, facile et sécurisé

Téléchargez le livre blanc

Qu’est-ce que l’ingestion de données ?

Big data ingestion is about moving data - especially unstructured data - from where it is originated, into a system where it can be stored and analyzed such as Hadoop.

Data ingestion may be continuous or asynchronous, real-time or batched or both (lambda architecture) depending upon the characteristics of the source and the destination. In many scenarios, the source and the destination may not have the same data timing, format or protocol and will require some type of transformation or conversion to be usable by the destination system.

As the number of IoT devices grows, both volume and variance of data sources are expanding rapidly, sources which now need to be accommodated, and often in real time. Yet extracting the data such that it can be used by the destination system is a significant challenge in terms of time and resources. Making data ingestion as efficient as possible helps focus resources on big data streaming and analysis, rather than the mundane efforts of data preparation and transformation.

HDF simplifie l’ingestion des big data

Avant

Un processus compliqué, désordonné et qui demande des semaines, voire des mois pour déplacer les données appropriées dans Hadoop.

Après

Un processus rationalisé, efficace et simple.

Problèmes courants de l’ingestion de données

Complexe, lente et onéreuse

*

Purpose-built and over-engineered tools make big data ingestion complex, time consuming, and expensive

*

Writing customized scripts, and combining multiple products together to acquire and ingestion data associated with current big data ingest solutions takes too long and prevents on-time decision making required of today’s business environment

*

• Command line interfaces for existing streaming data processing tools create dependencies on developers and fetters access to data and decision making

Sécurité et confiance dans les données

*

Le besoin de partager des ensembles distincts de données n’est pas compatible avec les capacités de sécurité dans le transport de données qui limitent l’accès au niveau du groupe ou du rôle.

*

La conformité aux réglementations sur la sécurité des données s'avère complexe et coûteuse.

*

La vérification de l’accès aux données et leur utilisation est difficile et prend du temps. Elle suppose souvent un processus manuel de rassemblement de différents systèmes et rapports pour vérifier d’où les données proviennent, comment elles sont utilisées, qui les a utilisées et à quelle fréquence.

Problèmes de l’ingestion de données pour l’IoT

*

• Difficult to balancing limited resources of power, computing and bandwidth with the volume of data signals being generated from big data streaming sources

*

Une connectivité qui n’est pas fiable crée des interruptions dans la communication et entraîne des pertes de données.

*

L’absence de sécurité sur la majorité des capteurs déployés dans le monde met les entreprises en danger et compromet la sécurité.

Optimiser l’ingestion de données avec Hortonworks DataFlow

Rapide, simple et sécurisé

*

Le moyen le plus rapide de résoudre de nombreux problèmes actuels d'ingestion des Big Data

*

Contrôle des flux de données interactif en temps réel, en un clic

*

Accélération de la collecte et du mouvement des données pour un meilleur retour sur investissement du big data

*

Visibilité des opérations, commentaires et contrôle en temps réel

*

Flexibilité et réactivité métier

*

Real-time decision making from big data streaming sources

*

Bénéficiez d'une efficacité opérationnelle hors pair en éliminant la dépendance et les retards inhérents à l'écriture de lignes de code et de scripts personnalisés

*

Programmation des flux prête à l'emploi pour les infrastructures Big Data

*

Recueil de données sécurisé, fiable et mis en priorité sur des bandes passantes géographiquement dispersées et variables.

*

Provenance des données assurée de bout en bout, qui crée une chaîne de contrôle pour la conformité des données et leur « évaluation », l'optimisation des flux de données et le dépannage

Système en temps réel unique, souple, évolutif et bidirectionnel

*

Intégration de la collecte de données indépendamment des sources, que celles-ci soient dynamiques, hétérogènes ou distribuées

*

Adaptive to fluctuating conditions of remote, distributed data sources over geographically disperse communication links in varying bandwidth and latency environments

*

Hiérarchisation automatique et en temps réel des données en périphérie permettant d'envoyer, d'importer et de stocker des données localement

*

Mouvement bidirectionnel des données, des commandes et des données contextuelles

*

Conception optimisée pour les sources de données à petite échelle qui composent l'Internet des Objets, ainsi que pour les clusters à grande échelle des datacentres professionnels d'aujourd'hui

*

Une chaîne de contrôle visuelle des données (provenance) fournit en temps réel l'historique des données d'événement afin d'assurer la vérification et la validation des données issues de l'Internet des Objets

 
Les flux de données en temps réel accélèrent le ROI du big data
Sécurisez les flux de données provenant de l’IoT
Traçabilité des données visuelle et en temps réel
Accès et contrôle des données sécurisés
Priorisation dynamique des données en transit

Exemples d’utilisation de l’ingestion de données avec Hortonworks DataFlow

EXEMPLE D’UTILISATION N°1

Transfert de données dans Hadopp

Accélérez le processus de transfert de données dans Hadoop, de quelques mois à quelques minutes grâce à une interface glisser-déposer en temps réel. Consultez une étude de cas concrète et découvrez comment transférer des données dans HDFS en 30 secondes.

 

Prescient Vidéo | Blog
Voir la démonstration en direct de 30 secondes

EXEMPLE D'UTILISATION 2
media img

Collecte de fichiers log / Optimisation Splunk

Il peut s'avérer difficile d'acquérir des données de fichiers log, car celles-ci sont généralement recueillies dans des volumes limités et difficiles à mettre en œuvre à grande échelle. HDF permet de collecter, de canaliser et d'accéder efficacement à des volumes de données provenant de fichiers log de plus en plus volumineux. Cette plateforme facilite l'intégration de systèmes d'analyse des fichiers log, notamment Splunk, SumoLogic, Graylog et LogStash, pour une assimilation simple, sécurisée et complète des données stockées dans ce type de fichier.

 

Livre blanc sur l'optimisation de l'analyse des fichiers log TÉLÉCHARGER MAINTENANT

EXEMPLE D'UTILISATION 3
media img

Ingestion de données IoT

Realizing the promise of real-time decision making enabled by real-time IoT big data streaming is a challenge due to the distributed and disparate nature of IoT data. HDF simplifies data collection and helps push intelligence to at the very edge of highly distributed networks.

 

A. Des données concrètes en périphérie pour l’IoT EN SAVOIR PLUS
B. La distribution et l’IoT EN SAVOIR PLUS
C. L’IoT d’Open Energi EN SAVOIR PLUS

EXEMPLE D’UTILISATION 4
media img

Distribution de données dans les moteurs de traitement de trains de données

Big data ingestion leads to processing that delivers business intelligence. HDF enables streaming data processing for your organization to support real-time enterprise use cases with two of the most popular open-source solutions Apache Storm and Spark Streaming.

Blog, diapositives et webinaire NiFi Kafka et Storm EN SAVOIR PLUS
Comcast NiFi dans Spark (Keynote de la conférence Hadoop Summit) VIDÉO