Lors du traitement de données brutes dans le but de les rendre exploitables par les utilisateurs finaux, ces informations sont soumises à un processus de traitement constitué de six étapes, dont celle de la vérification. Cette tâche étant chronophage, il est plus judicieux de la confier à un prestataire externe, en considérant en plus du coût, le respect des délais et la protection des données.
Elle permet d'analyser les données saisies afin de détecter les informations erronées, manquantes ou incohérentes, et ce dans le but de s'assurer de leur fiabilité et exactitude ainsi que leur correspondance avec la source d'origine. Leur quantité et leur qualité devront répondre aux exigences des bénéficiaires, qu'il s'agisse d'entreprises ou d'organismes. Cette étape est cruciale pour la réussite d'un projet. Une pauvre qualité de données peut nuire au résultat attendu, notamment lorsqu'il s'agit de prendre une décision importante.
Cette étape doit commencer dès la collecte des données brutes et se poursuivre avec l'analyse et même parfois lors de la saisie des données.
Il existe généralement deux types d'erreurs :
- Erreurs de transcription : il s'agit de fautes pouvant être causées par une mauvaise compréhension ou à des erreurs de frappe dues à un manque de concentration des opérateurs de saisie.
- Erreurs de transposition : il peut arriver que l'opérateur inverse de manière accidentelle l'ordre des lettres et/ou des chiffres.
– La double saisie : elle consiste à saisir les données deux fois, permettant de comparer par la suite la correspondance des deux entrées. Il est évident que pour réussir avec cette méthode, il faut faire appel à deux opérateurs différents, car la même personne pourrait entrer deux fois la même information erronée.
– La relecture : les données saisies doivent être relues par un opérateur autre que celui qui a procédé à la saisie des données. Le relecteur devra veiller à la conformité des informations entrées avec celles de la source d’origine.
Ces deux méthodes sont fiables, toutefois la vérification d’un très grand volume de données peut être fastidieuse et coûteuse. Car la relecture tout comme la double saisie peuvent nécessiter un temps énorme et un effectif important. Dans le cas d’un big data, les bénéficiaires peuvent se contenter de vérifier que les informations saisies soient logiques et cohérentes.