tesseract
tesseract copied to clipboard
How to prevent extra line breaks in text output?
Tesseract Version: 5 OS: LInux ubuntu 20
command: tesseract imagename --dpi 300 -l spa --psm 6 --oem 1 tried with different psm values, value 6 offers the best results
original text, atached image a) Línea de trabajo INNOVA:\n \n 1.º Construcción de relatos sobre Experiencias Turismo España.\n 2.º Desarrollo o mejora del recurso turístico base para la creación de Experiencias\n Turismo España.\n 3.º Apoyo a la transformación digital de las Experiencias Turismo España.\n
Current Behavior: a) Línea de trabajo INNOVA:\n \n 1.º Construcción de relatos sobre Experiencias Turismo España.\n \n 2.º Desarrollo o mejora del recurso turístico base para la creación de Experiencias\n Turismo España.\n \n 3.º Apoyo a la transformación digital de las Experiencias Turismo España.\n \n
Expected Behavior: a) Línea de trabajo INNOVA:\n \n 1.º Construcción de relatos sobre Experiencias Turismo España.\n 2.º Desarrollo o mejora del recurso turístico base para la creación de Experiencias\n Turismo España.\n 3.º Apoyo a la transformación digital de las Experiencias Turismo España.\n
Please provide an input image. Words are useless.
Please provide an input image. Words are useless.
just added
https://github.com/tesseract-ocr/tesseract/issues/2155#issuecomment-622163609
I think the text output looks neat. Empty lines are used to separate paragraphs, and each enumeration is obviously handled like a paragraph.
If you want output without the empty lines, you can produce hOCR instead of text and then convert the hOCR file to text:
tesseract https://user-images.githubusercontent.com/5422722/177011361-0e0ecb62-90d5-4106-bc9e-88c33fea8246.jpg /tmp/text -l tessdata_fast/script/Latin hocr
ocr-transform hocr text /tmp/text.hocr
gives
BOLETÍN OFICIAL DEL ESTADO TE
Martes 11 de enero de 2022 Sec. IIl. Pág. 2539
criterios de evaluación de las solicitudes que son objetivos, públicos y conocidos
previamente, y garantiza una amplia participación a sus potenciales destinatarios en su
elaboración.
En la elaboración de la presente orden ha emitido informe el Servicio Jurídico y la
Intervención Delegada en el Departamento, de acuerdo con lo dispuesto por el
artículo 17.1 de la Ley 38/2003, de 17 de noviembre, y el artículo 61.2 del Real
Decreto-ley 36/2020, de 30 de diciembre.
En su virtud, dispongo:
CAPÍTULO I
Disposiciones generales
Artículo 1. Objeto y finalidad.
1. La presente orden tiene por objeto aprobar las bases reguladoras de ayudas,
destinadas a impulsar proyectos de redes de actores que desarrollen experiencias
turísticas sostenibles, digitales, integradoras y competitivas en España, de conformidad
con lo previsto en el apartado segundo de este artículo, así como aprobar la
convocatoria de ayudas para el año 2021.
2. Se entenderá a los efectos de esta orden que una Experiencia Turismo España
impulsa proyectos de redes de actores que desarrollen experiencias turísticas
sostenibles, digitales, integradoras y competitivas en España, si se desarrolla en todo el
territorio nacional o, al menos, en tres comunidades autónomas, y se enmarca en alguna
delas siguientes líneas de trabajo incluyendo algunas de las siguientes acciones:
a) Línea de trabajo INNOVA:
1.° Propuestas de creación de redes de actores en todo el territorio nacional o, al
menos, en tres comunidades autónomas para impulsar el trabajo colaborativo en torno a
una Experiencia Turismo España.
2.° Construcción de relatos sobre Experiencias Turismo España.
3.° Desarrollo o mejora del recurso turístico base para la creación de Experiencias
Turismo España.
4° Rediseño de las Experiencias Turismo España hacia modelos verdes y
sostenibles.
5.° Apoyo a la transformación digital de las Experiencias Turismo España.
6.° Formación para la sostenibilidad y digitalización de Experiencias Turismo
España.
b) Línea de trabajo INTEGRA:
1.° Estudios y propuestas de planes de adaptación de las Experiencia Turismo
España a la lógica de economía circular y otras estrategias de incorporación del tejido
productivo local.
2.° Planes de adaptación de productos y servicios a lógica de economía circula y de
proximidad.
3.° Implantación de buenas prácticas o mejoras que impliquen mayores impactos
positivos de Experiencias Turismo España en comunidades locales.
4.° Propuestas para la incorporación de la diversidad de perfiles de turistas a
distintas Experiencias Turismo España (Colectivo LGBTIQ+, mayores, diversidad de
familias, distintas religiones, discapacidad entre otros...).
5.° Formación y difusión en y para la adaptación a la diversidad social de las
Experiencias Turismo España.
Verificable en https://www.boe.es
cve: BOE-A-2022-417
I think the text output looks neat. Empty lines are used to separate paragraphs, and each enumeration is obviously handled like a paragraph.
I need the real new lines, the issue is with the "fake" new lines added by tesserac
Using -c paragraph_text_based=false
does not help in this case.
To be able to use @stweil suggestion, you need to install ocr-fileformat.