tag:blogger.com,1999:blog-52967043991906862662024-02-07T04:20:40.529-08:00Kirill KazarineKirill Kazarinehttp://www.blogger.com/profile/06010259190820609875noreply@blogger.comBlogger1125tag:blogger.com,1999:blog-5296704399190686266.post-9546916021229385962014-12-05T07:11:00.002-08:002014-12-05T07:22:36.899-08:00Los Reconocimiento Ópticos de Caracteres (OCR / ROC)<div class="separator" style="clear: both; text-align: center;">
<a href="https://blogger.googleusercontent.com/img/b/R29vZ2xl/AVvXsEi3qT_ZRXxZDzeleYDFSOdWM0rHaX1QgWDxlGMhvT2DlYpDHt37t-imbkLKvv6k_1Y4v-jDAO5LbFa7Z5na71oqa_txTKbqm1NHezZ4QzDApWbeEwoQAOXwA3ru5qF_qtWoV1rewt7dhhg/s1600/timthumb.jpg" imageanchor="1" style="margin-left: 1em; margin-right: 1em;"><img border="0" src="https://blogger.googleusercontent.com/img/b/R29vZ2xl/AVvXsEi3qT_ZRXxZDzeleYDFSOdWM0rHaX1QgWDxlGMhvT2DlYpDHt37t-imbkLKvv6k_1Y4v-jDAO5LbFa7Z5na71oqa_txTKbqm1NHezZ4QzDApWbeEwoQAOXwA3ru5qF_qtWoV1rewt7dhhg/s1600/timthumb.jpg" /></a></div>
<div class="MsoNormal">
<span style="font-family: Georgia, Times New Roman, serif;">El <b>Reconocimiento
Óptico de Caracteres (ROC) (En inglés OCR),</b> es un proceso dirigido a la digitalización
de textos. Esos textos se identifican automáticamente a partir de una imagen, símbolos
o caracteres que pertenecen a un alfabeto. <o:p></o:p></span></div>
<div class="MsoNormal">
<span style="font-family: Georgia, Times New Roman, serif;">Después de haber identificado esos caracteres de forma óptica,
se digitalizan en forma de información escrita, tipográfica o manuscrita para
que el usuario puede interactuar con ellos.<o:p></o:p></span></div>
<div class="MsoNormal">
<span style="font-family: Georgia, Times New Roman, serif;">En este contexto, podemos automatizar la introducción de
caracteres evitando el uso del teclado, implicando un importante ahorro en
recursos humanos y un aumento de la productividad, al mismo tiempo que se
mantiene, o hasta se mejora, la calidad de muchos servicios.<o:p></o:p></span></div>
<div class="MsoNormal">
<span style="font-family: Georgia, Times New Roman, serif;"><br /></span></div>
<div class="MsoNormal">
<span style="font-family: Georgia, Times New Roman, serif;">Ya que las imágenes reales no son perfectas, el
Reconocimiento Óptico de Caracteres se puede encontrar con varios problemas:<o:p></o:p></span></div>
<div class="MsoListParagraphCxSpFirst" style="mso-list: l2 level1 lfo1; text-indent: -18.0pt;">
</div>
<ul>
<li><span style="font-family: Georgia, 'Times New Roman', serif; text-indent: -18pt;">El dispositivo que obtiene la imagen puede
introducir niveles de grises al fondo que no pertenecen a la imagen original.</span></li>
<li><span style="font-family: Georgia, 'Times New Roman', serif; font-size: 7pt; font-stretch: normal; text-indent: -18pt;"> </span><span style="font-family: Georgia, 'Times New Roman', serif; text-indent: -18pt;">La resolución de estos dispositivos puede
introducir ruido en la imagen, afectando a los píxeles que han de ser
procesados.</span></li>
<li><span style="font-family: Georgia, 'Times New Roman', serif; font-size: 7pt; font-stretch: normal; text-indent: -18pt;"> </span><span style="font-family: Georgia, 'Times New Roman', serif; text-indent: -18pt;">La distancia que separa a unos caracteres de
otros, al no ser siempre la misma, puede producir errores de reconocimiento.</span></li>
<li><span style="font-family: Georgia, 'Times New Roman', serif; text-indent: -18pt;">La conexión de dos o más caracteres por píxeles
comunes también puede producir errores.</span></li>
</ul>
<!--[if !supportLists]--><br />
<div class="MsoNormal">
<span style="font-family: Georgia, Times New Roman, serif;"><br /></span></div>
<div class="MsoNormal">
<span style="font-family: Georgia, Times New Roman, serif;">Desde que aparecieron los algoritmos de Reconocimiento Óptico
de Caracteres han sido muchos los servicios que han introducido estos procesos
para aumentar su rendimiento y otros que se basan completamente en estas tecnologías:<o:p></o:p></span></div>
<div class="MsoListParagraphCxSpFirst" style="mso-list: l1 level1 lfo2; text-indent: -18.0pt;">
</div>
<ul>
<li><span style="font-family: Georgia, 'Times New Roman', serif; text-indent: -18pt;">·</span><span style="font-family: Georgia, 'Times New Roman', serif; font-size: 7pt; font-stretch: normal; text-indent: -18pt;"> <b>
</b></span><span style="font-family: Georgia, 'Times New Roman', serif; text-indent: -18pt;"><b>Reconocimiento de texto manuscrito</b>:</span></li>
</ul>
<!--[if !supportLists]--><br />
<div class="MsoListParagraphCxSpMiddle" style="margin-left: 72.0pt; mso-add-space: auto; mso-list: l1 level2 lfo2; text-indent: -18.0pt;">
<span style="font-family: Georgia, Times New Roman, serif;">o<span style="font-size: 7pt; font-stretch: normal;">
</span><!--[endif]-->Este tipo de reconocimiento continúa siendo un
desafio. Aunque el texto se compone básicamente de caracteres individuales, la mayoría
de algoritmos ROC no consiguen buenos resultados, ya que la segmentación de
texto continuo es un procedimiento complejo. Por otro lado, se puede llegar a
comprender una frase cuando la hemos terminado de leer, esto implica unas
operaciones a niveles morfológicos, léxicos y sintácticos.<o:p></o:p></span></div>
<div class="MsoListParagraphCxSpMiddle" style="mso-list: l1 level1 lfo2; text-indent: -18.0pt;">
</div>
<ul>
<li><span style="font-family: Georgia, 'Times New Roman', serif; text-indent: -18pt;">·</span><span style="font-family: Georgia, 'Times New Roman', serif; font-size: 7pt; font-stretch: normal; text-indent: -18pt;">
</span><span style="font-family: Georgia, 'Times New Roman', serif; text-indent: -18pt;"><b>Reconocimiento de matriculas</b>:</span></li>
</ul>
<!--[if !supportLists]--><br />
<div class="MsoListParagraphCxSpMiddle" style="margin-left: 72.0pt; mso-add-space: auto; mso-list: l1 level2 lfo2; text-indent: -18.0pt;">
<!--[if !supportLists]--><span style="font-family: Georgia, Times New Roman, serif;">o<span style="font-size: 7pt; font-stretch: normal;">
</span><!--[endif]-->Una de las aplicaciones son los radares. Estos
deben de ser capaces de localizar una matricula de un vehículo con condiciones
de iluminación, perspectiva y entorno variables.<o:p></o:p></span></div>
<div class="MsoListParagraphCxSpMiddle" style="mso-list: l0 level1 lfo3; text-indent: -18.0pt;">
</div>
<ul>
<li><span style="font-family: Georgia, 'Times New Roman', serif; text-indent: -18pt;">·</span><span style="font-family: Georgia, 'Times New Roman', serif; font-size: 7pt; font-stretch: normal; text-indent: -18pt;"> <b>
</b></span><span style="font-family: Georgia, 'Times New Roman', serif; text-indent: -18pt;"><b>Indexación en base de datos:</b></span></li>
</ul>
<!--[if !supportLists]--><br />
<div class="MsoListParagraphCxSpMiddle" style="margin-left: 72.0pt; mso-add-space: auto; mso-list: l0 level2 lfo3; text-indent: -18.0pt;">
<!--[if !supportLists]--><span style="font-family: Georgia, Times New Roman, serif;">o<span style="font-size: 7pt; font-stretch: normal;">
</span><!--[endif]-->Con el aumento de información publicada, cada
vez son más los métodos que se utilizan para organizar todo este material
almacenado en base de datos. Uno de estos contenidos son las imágenes.
Actualmente han aparecido buscadores que proporcionan la posibilidad de buscar imágenes
mediante texto que aparecen en ellas.<o:p></o:p></span></div>
<div class="MsoListParagraphCxSpMiddle" style="mso-list: l0 level1 lfo3; text-indent: -18.0pt;">
</div>
<ul>
<li><span style="font-family: Georgia, 'Times New Roman', serif; text-indent: -18pt;">·</span><span style="font-family: Georgia, 'Times New Roman', serif; font-size: 7pt; font-stretch: normal; text-indent: -18pt;"> <b>
</b></span><span style="font-family: Georgia, 'Times New Roman', serif; text-indent: -18pt;"><b>Reconocimiento de datos estructurados con ROC
Zonal:</b></span></li>
</ul>
<!--[if !supportLists]--><br />
<br />
<div class="MsoListParagraphCxSpLast" style="margin-left: 72.0pt; mso-add-space: auto; mso-list: l0 level2 lfo3; text-indent: -18.0pt;">
<!--[if !supportLists]--><span style="font-family: Georgia, Times New Roman, serif;">o<span style="font-size: 7pt; font-stretch: normal;">
</span><!--[endif]-->Se usa para digitalizar de forma masiva grandes
cantidades de documentos estructurados o semiestructurados (facturas, nominas,
albaranes, pólizas, justificantes bancarios…) Catalogando automáticamente los
documentos con los metadatos obtenidos y archivándolos en formato digital de
forma indexada para facilitar su posterior búsqueda.</span><o:p></o:p></div>
<div class="separator" style="clear: both; text-align: center;">
<a href="https://blogger.googleusercontent.com/img/b/R29vZ2xl/AVvXsEhinlNVHYMiKq-X8eivQuOYl2kcB-P07AH0L5-CzNpZnGBLzrX5omUaSsCJwTJUcNfEfhBc-KjSGvvpBdyLQnAVN0baaFwWZJlYncLAARazfVeJHL0XzNcKeGh6gxWE59pPZEQM_qizXtk/s1600/57839.jpg" imageanchor="1" style="margin-left: 1em; margin-right: 1em;"><img border="0" src="https://blogger.googleusercontent.com/img/b/R29vZ2xl/AVvXsEhinlNVHYMiKq-X8eivQuOYl2kcB-P07AH0L5-CzNpZnGBLzrX5omUaSsCJwTJUcNfEfhBc-KjSGvvpBdyLQnAVN0baaFwWZJlYncLAARazfVeJHL0XzNcKeGh6gxWE59pPZEQM_qizXtk/s1600/57839.jpg" height="306" width="400" /></a></div>
<div class="separator" style="clear: both; text-align: center;">
<br /></div>
<div class="separator" style="clear: both; text-align: right;">
Fuente: <a href="http://es.wikipedia.org/wiki/Reconocimiento_%C3%B3ptico_de_caracteres" rel="nofollow" target="_blank">Wikipedia</a></div>
<div class="MsoListParagraphCxSpLast" style="margin-left: 72.0pt; mso-add-space: auto; mso-list: l0 level2 lfo3; text-indent: -18.0pt;">
<span style="font-family: Georgia, Times New Roman, serif;"><br /></span></div>
Kirill Kazarinehttp://www.blogger.com/profile/06010259190820609875noreply@blogger.com0