El Reconocimiento
Óptico de Caracteres (ROC) (En inglés OCR), es un proceso dirigido a la digitalización
de textos. Esos textos se identifican automáticamente a partir de una imagen, símbolos
o caracteres que pertenecen a un alfabeto.
Después de haber identificado esos caracteres de forma óptica,
se digitalizan en forma de información escrita, tipográfica o manuscrita para
que el usuario puede interactuar con ellos.
En este contexto, podemos automatizar la introducción de
caracteres evitando el uso del teclado, implicando un importante ahorro en
recursos humanos y un aumento de la productividad, al mismo tiempo que se
mantiene, o hasta se mejora, la calidad de muchos servicios.
Ya que las imágenes reales no son perfectas, el
Reconocimiento Óptico de Caracteres se puede encontrar con varios problemas:
- El dispositivo que obtiene la imagen puede introducir niveles de grises al fondo que no pertenecen a la imagen original.
- La resolución de estos dispositivos puede introducir ruido en la imagen, afectando a los píxeles que han de ser procesados.
- La distancia que separa a unos caracteres de otros, al no ser siempre la misma, puede producir errores de reconocimiento.
- La conexión de dos o más caracteres por píxeles comunes también puede producir errores.
Desde que aparecieron los algoritmos de Reconocimiento Óptico
de Caracteres han sido muchos los servicios que han introducido estos procesos
para aumentar su rendimiento y otros que se basan completamente en estas tecnologías:
- · Reconocimiento de texto manuscrito:
o
Este tipo de reconocimiento continúa siendo un
desafio. Aunque el texto se compone básicamente de caracteres individuales, la mayoría
de algoritmos ROC no consiguen buenos resultados, ya que la segmentación de
texto continuo es un procedimiento complejo. Por otro lado, se puede llegar a
comprender una frase cuando la hemos terminado de leer, esto implica unas
operaciones a niveles morfológicos, léxicos y sintácticos.
- · Reconocimiento de matriculas:
o
Una de las aplicaciones son los radares. Estos
deben de ser capaces de localizar una matricula de un vehículo con condiciones
de iluminación, perspectiva y entorno variables.
- · Indexación en base de datos:
o
Con el aumento de información publicada, cada
vez son más los métodos que se utilizan para organizar todo este material
almacenado en base de datos. Uno de estos contenidos son las imágenes.
Actualmente han aparecido buscadores que proporcionan la posibilidad de buscar imágenes
mediante texto que aparecen en ellas.
- · Reconocimiento de datos estructurados con ROC Zonal:
o
Se usa para digitalizar de forma masiva grandes
cantidades de documentos estructurados o semiestructurados (facturas, nominas,
albaranes, pólizas, justificantes bancarios…) Catalogando automáticamente los
documentos con los metadatos obtenidos y archivándolos en formato digital de
forma indexada para facilitar su posterior búsqueda.
Fuente: Wikipedia
No hay comentarios:
Publicar un comentario