Un nuevo sistema transcribe automáticamente textos manuscritos antiguos
- El sistema reconoce automáticamente imágenes de documentos antiguos
- El proyecto se aplica a cualquier lengua
- En la actualidad, el proceso de transcripción se hace manualmente
La Universidad Politécnica de Valencia (UPV) lidera un proyecto europeo que desarrolla un sistema para el reconocimiento automático de imágenes de documentos antiguos manuscritos, para poder transcribirlos de la forma más rápida posible.
El proyecto Trascriptorium, que arrancó a principios de este año, forma parte del Séptimo Programa Marco de la Unión Europea y, además de la UPV, también participan en él dos socios británicos, uno austríaco, uno griego y uno holandés.
El coordinador del proyecto, Joan Andreu Sánchez, ha explicado que el proyecto busca un prototipo para probar "cómo se podrían utilizar en un entorno real técnicas automáticas e interactivas que ya se están desarrollando" para poder transcribir documentos manuscritos antiguos, con técnicas que aprenden automáticamente y que, por tanto, se aplican a cualquier lengua y aceleran el trabajo.
"El proceso de transcripción actualmente se hace manualmente y la idea es incorporar técnicas automáticas de reconocimiento del habla en este tipo de entorno transcripción", ha apuntado, y ha indicado que estas técnicas "no están lo suficientemente exploradas y difundidas en el reconocimiento de la escritura".
Sánchez ha incidido en que las técnicas que utilizan "no tienen que ver" con las técnicas de reconocimiento óptico de caracteres (OCR).
"Para las técnicas de OCR se utilizan técnicas de segmentación, es decir, se aislan los caracteres y luego se reconocen; pero la escritura manuscrita es ligada y no hay técnicas que lo separen automáticamente, por lo que el proceso de reconocimiento no se puede abordar carácter a carácter sino como un todo de caracteres, palabras y líneas", ha explicado.
Transcriptorium se desarrolla en castellano, holandés, alemán e inglés, aunque, el investigador ha señalado que el grupo de trabajo de la UPV también ha explorado documentos "en árabe y otras lenguas".
El proyecto trabaja con textos desde el siglo XV hasta principios del XX
De esta forma, para un volumen de unas mil páginas, unas 50 se transcriben a mano y una vez hecho esto, "se entrenan modelos para proporcionar resultados razonables para el resto de páginas, lo que acelera el trabajo".
Estas técnicas se pueden aplicar "a cualquier tipo de documento" de biblioteca, archivos o colecciones privadas y en concreto, el proyecto trabaja con textos desde el siglo XV hasta principios del XX, entre ellos, registros matrimoniales (en castellano) o sentencias judiciales (en alemán).
Trabajan también en la colección del filósofo Jeremy Benthan, unos 30.000 documentos que el College London está transcribiendo manualmente, con el propósito es proporcionar herramientas para facilitar esos procesos de transcripción.
El grupo lo forman expertos en transcripción automática (UPV), en procesamiento de documentos antiguos, en crowd-sourfing (colaboración altruista en procesos de transcripción) y en proporcionar recursos lingüísticos.
Además, Sánchez ha explicado que existe una biblioteca para "difundir este tipo de tecnología en las bibliotecas que tienden a hacer disponibles en la red este tipo de documentos" y ha incidido en que el software que desarrolla el proyecto será "libre".