Les inconvénients de l'OCR
Le service postal américain utilise la technologie de reconnaissance optique de caractères (OCR) pour lire les adresses sur les pièces de courrier. Cependant, pour que le courrier soit lisible par un trieur de courrier OCR, les adresses et les polices doivent être formatées d'une certaine manière. Le logiciel OCR est utile pour convertir des images numérisées de documents dactylographiés ou manuscrits en texte électronique consultable, mais il présente des inconvénients qui limitent ses applications.
Documents limités
L'OCR fonctionne mieux avec des documents dactylographiés de bonne qualité. Les documents manuscrits ne peuvent pas être facilement lus par un logiciel OCR. De même, les polices typées qui ressemblent à l'écriture manuscrite - ainsi que les polices non latines - créent de nombreuses erreurs lors du processus d'OCR. Si le document a un faible contraste, est froissé ou sale, ou si le texte et l'arrière-plan sont similaires dans l'obscurité, l'OCR peut ne pas fonctionner correctement. L'OCR a des difficultés avec les documents contenant à la fois des images et du texte. Les feuilles de calcul produiront également plus d'erreurs.
Précision
Aucun logiciel OCR n'est précis à 100 %. Le nombre d'erreurs dépend de la qualité et du type de document, y compris la police utilisée. Les erreurs qui se produisent lors de l'OCR incluent la mauvaise lecture des lettres, le saut de lettres illisibles ou le mélange de texte provenant de colonnes adjacentes ou de légendes d'images. Si une grande précision est requise, comme pour la conversion de livres numériques au format électronique, un nettoyage du texte électronique sera alors nécessaire.
Solutions de contournement
L'OCR a du mal à différencier les caractères, tels que le chiffre zéro et un "O" majuscule. Pour contourner ce problème, une police OCR spéciale peut être utilisée, telle que l'écriture de zéro. Cependant, cela ne fonctionne que pour les documents créés avec l'OCR à l'esprit, tels que les questionnaires. Lors de la création de questionnaires qui seront écrits à la main, les chercheurs utilisent également des cases pour chaque lettre.
Travail supplémentaire
Même si l'image numérisée du document original est de haute qualité, des étapes supplémentaires doivent être effectuées pour nettoyer le texte OCR. Il est très laborieux de corriger les erreurs créées par l'OCR. Une personne doit comparer manuellement le document original et le texte électronique. Les gens font également des erreurs lors de la saisie de texte à partir d'un document, mais il est parfois plus rapide d'ignorer l'étape OCR.