


La RAD, ou reconnaissance automatique de documents, vise
à identifier automatiquement le type de document à partir de son
image numérisée. Elle permet un premier tri des documents fournis
au scanner. Elle évite ainsi d'avoir à effectuer ce tri en amont
de la numérisation.
La reconnaissance automatique de documents s'appuie sur les éléments
graphiques du document :
La LAD, ou lecture automatique de documents, s'applique
aux documents structurés, par exemple des formulaires. Les caractères
individuels, souvent en capitales d'imprimerie, sont reconnus. Les
éléments détectés peuvent être précisés grâce aux types de données
attendus. Ainsi, un numéro de téléphone contient plus probablement un
zéro qu'un O majuscule, et vice-versa pour un nom de famille.
La sémantique du formulaire est utilisée pour valider les données.
On peut, par exemple, vérifier que le total détecté de plusieurs
éléments numériques correspond bien à la somme des éléments individuels
détectés.
OCR signifie « Optical character recognition » ou reconnaissance
optique de caractères. L'OCR est la technologie la plus utilisée
pour obtenir un fichier de type texte à partir d'un document papier
numérisé.
Les caractères du document sont d'abord isolés. Ils sont ensuite
comparés à des formes de caractères connus. Les caractères les plus
probables sont retenus.
Enfin, l'OCR utilise des outils statistiques et linguistiques
pour reconstituer un texte statistiquement probable.
Certains systèmes d'OCR permettent de reconstituer une partie
de la mise en forme (gras, italique) et de la mise en page (tableaux)
d'un document.
ICR signifie « Intelligent character recognition » ou reconnaissance
intelligente de caractères. Par rapport à l'OCR, l'ICR dispose d'un
mécanisme d'apprentissage. Ce mécanisme lui permet d'ajouter des
formes de caractères à la base de caractères connus.
Les techniques de reconnaissance d'écriture manuscrite reposent
sur l'ICR.