Cómo funciona la imagen con texto (también conocido como Reconocimiento óptico de caracteres)

Sacar texto de imágenes nunca ha sido tan fácil como lo es hoy gracias a la tecnología de reconocimiento óptico de caracteres (OCR). Pero, ¿qué es OCR? ¿Y cómo funciona el OCR?

Sacar texto de imágenes nunca ha sido tan fácil como lo es hoy gracias a la tecnología de reconocimiento óptico de caracteres (OCR).  Pero, ¿qué es OCR?  ¿Y cómo funciona el OCR?
Anuncio

Sacar texto de imágenes nunca ha sido tan fácil como lo es hoy gracias a la tecnología de reconocimiento óptico de caracteres (OCR).

OCR nos permite hacer todo tipo de cosas útiles, como buscar imágenes usando consultas de texto, reproducir documentos sin escribirlos a mano, e incluso convertir texto manuscrito a texto digital Cómo convertir una imagen con escritura a texto usando OCR Cómo convertir una imagen una imagen con escritura a texto mediante OCR Para convertir una imagen de texto escrito a mano en texto digital que puede editar y buscar, necesita una herramienta de reconocimiento óptico de caracteres (OCR). Pruebe con una de estas herramientas de OCR para digitalizar la escritura a mano. Lee mas .

Pero, ¿qué es el reconocimiento óptico de caracteres? ¿Cómo funciona realmente? Puede parecer magia negra para usted, pero al final de este artículo, tendrá una comprensión sólida de cómo las computadoras pueden reconocer letras y palabras.

Cómo funciona el reconocimiento óptico de caracteres

Para comprender cómo se extrae el texto de una imagen, primero tenemos que entender qué son las imágenes y cómo se almacenan en las computadoras.

Un píxel es un único punto de un color particular. Una imagen es esencialmente una colección de píxeles. Cuantos más píxeles haya en una imagen, mayor será su resolución. Una computadora no sabe que una imagen de un poste indicador es realmente un poste indicador: solo sabe que el primer píxel es de este color, el siguiente píxel es de ese color y muestra todos sus píxeles para que pueda ver.

Esto significa que el texto y el texto no son diferentes a una computadora, y es por eso que el reconocimiento óptico de caracteres es tan difícil. Con eso en mente, así es como funciona.

Paso 1: preprocesamiento de la imagen

Antes de que se pueda extraer el texto, se debe masajear la imagen de ciertas maneras para que la extracción sea más fácil y más probable que tenga éxito. Esto se denomina procesamiento previo, y las diferentes soluciones de software utilizan diferentes combinaciones de técnicas.

Las técnicas de preprocesamiento más comunes incluyen:

Binarización
Cada píxel de la imagen se convierte en negro o blanco. El objetivo es aclarar qué píxeles pertenecen al texto y qué píxeles pertenecen al fondo, lo que acelera el proceso real de OCR.

Binarización para reconocimiento óptico de caracteres

Deskew
Dado que los documentos raramente se escanean con una alineación perfecta, los caracteres pueden terminar sesgados o incluso al revés. El objetivo aquí es identificar líneas de texto horizontales y luego girar la imagen para que esas líneas sean realmente horizontales.

Eliminar
Si la imagen se ha binario o no, puede haber ruido que pueda interferir con la identificación de los caracteres. Despeckle se deshace de ese ruido e intenta suavizar la imagen.

Eliminación de línea
Identifica todas las líneas y marcas que probablemente no sean caracteres, luego las elimina para que el proceso real de OCR no se confunda. Es especialmente importante al escanear documentos con tablas y cuadros.

Zonificación
Separa la imagen en distintos trozos de texto, como la identificación de columnas en documentos de varias columnas.

Zonificación para reconocimiento óptico de caracteres
Crédito de la imagen: WayneRay / Wikimedia

Paso 2: procesar la imagen

Lo primero es lo primero, el proceso de OCR intenta establecer la línea de base para cada línea de texto en la imagen (o si se dividió en zonas en el procesamiento previo, funcionará en cada zona de a una por vez). Cada línea identificada de caracteres se maneja uno por uno.

Para cada línea de caracteres, el software OCR identifica el espaciado entre caracteres buscando líneas verticales de píxeles que no son de texto (lo que debería ser obvio con la binarización adecuada). Cada fragmento de píxeles entre estas líneas que no son de texto está marcado como un "token" que representa un carácter. Por lo tanto, este paso se llama tokenización .

Procesamiento de imágenes para reconocimiento óptico de caracteres

Una vez que todos los caracteres potenciales en la imagen son tokenizados, el software de OCR puede usar dos técnicas diferentes para identificar qué personajes son en realidad esos tokens:

Reconocimiento de patrones
Cada token se compara de píxel a píxel con un conjunto completo de glifos conocidos, incluidos números, signos de puntuación y otros símbolos especiales, y se selecciona la coincidencia más cercana. Esta técnica también se conoce como coincidencia de matriz.

Hay varios inconvenientes aquí. En primer lugar, los tokens y glifos deben ser de un tamaño similar o de lo contrario ninguno de ellos coincidirá. En segundo lugar, los tokens deben tener una fuente similar a los glifos, lo que excluye la escritura a mano. Pero si se conoce la fuente del token, el reconocimiento de patrones puede ser rápido y preciso.

Extracción de características
Cada token se compara con diferentes reglas que describen qué tipo de carácter podría ser. Por ejemplo, dos líneas verticales de igual altura conectadas por una sola línea horizontal es probable que sea una H. mayúscula.

Esta técnica es útil porque no está limitada a ciertas fuentes o tamaños. También puede ser más matizado al reconocer las diferencias sutiles entre una I mayúscula, una L minúscula y el número 1. ¿La desventaja? Programar las reglas es mucho más complejo que simplemente comparar los píxeles en un token con los píxeles en un glifo.

Paso 3: procesamiento posterior de la imagen

Una vez que se completa la coincidencia de token, el software de OCR podría llamarlo por un día y presentarle los resultados. Pero, por lo general, se necesita hacer un poco más de fudge para asegurarse de no poner los ojos en blanco ante los galimatías.

Restricción léxica
Todas las palabras se comparan con un léxico de palabras aprobadas, y las que no coinciden se reemplazan con la palabra apropiada más cercana. Un diccionario es un ejemplo de un léxico. Esto puede ayudar a corregir palabras con caracteres erróneos, como "espina" en lugar de "th0rn".

Optimizaciones específicas de la aplicación
Cuando se usa el OCR en configuraciones de nicho, como documentos médicos o legales, se puede usar un tipo especial de OCR especialmente diseñado para esa configuración. En estos casos, el software de OCR puede buscar ecuaciones matemáticas, términos específicos de la industria, etc.

Lenguaje natural
Esta técnica avanzada corrige oraciones utilizando un modelo de lenguaje que describe la probabilidad de que ciertas palabras sean seguidas por otras palabras. Es similar a la tecnología que predice qué palabra desea escribir a continuación en un teclado móvil.

Cuando se hace bien, esto puede dar como resultado un texto que es notablemente legible.

Herramientas de reconocimiento óptico de caracteres recomendadas

Ahora que sabe cómo funciona el OCR, debería ser fácil ver que no todas las herramientas de OCR se igualan. La precisión de los resultados dependerá en gran medida de cuán bien el software implementa las diversas técnicas de OCR discutidas en este artículo.

Recomendamos encarecidamente OneNote para esto, que es solo una de las razones por las que es mejor que Evernote para tomar notas Evernote vs. OneNote: ¿Qué aplicación para tomar notas es adecuada para usted? Evernote vs. OneNote: ¿Qué aplicación para tomar apuntes es adecuada para usted? Evernote y OneNote son increíbles aplicaciones para tomar notas. Es difícil elegir entre los dos. Comparamos todo, desde la interfaz hasta la organización de notas para ayudarlo a elegir. Que funciona mejor para usted? Lee mas . Si está dispuesto a pagar por una solución premium, considere OmniPage. Vea nuestra comparación de OneNote vs. OmniPage para OCR Software OCR gratuito versus gratuito: Microsoft OneNote y Nuance OmniPage Software de OCR comparado versus pago: Microsoft OneNote y Nuance OmniPage Compared OCR software de escáner le permite convertir texto en imágenes o archivos PDF en texto editable documentos. ¿Es una herramienta de OCR gratuita como OneNote lo suficientemente buena? ¡Vamos a averiguar! Lee mas . Para documentos móviles, querrá consultar estas aplicaciones de OCR para dispositivos Android 6 Las mejores aplicaciones de OCR de Android para extraer texto de imágenes 6 Las mejores aplicaciones de OCR de Android para extraer texto de imágenes ¿Necesita digitalizar cualquier texto impreso para poder mantener un copia suave de ella? Si es así, todo lo que necesita es una herramienta de reconocimiento óptico de caracteres (OCR). Lee mas .

¿Cómo usas OCR? ¿Alguna de las herramientas de OCR favoritas que no mencionamos? Háganos saber en los comentarios a continuación!

In this article