tesseract icon indicating copy to clipboard operation
tesseract copied to clipboard

How to prevent extra line breaks in text output?

Open info2000 opened this issue 2 years ago • 8 comments

Tesseract Version: 5 OS: LInux ubuntu 20

command: tesseract imagename --dpi 300 -l spa --psm 6 --oem 1 tried with different psm values, value 6 offers the best results

original text, atached image a) Línea de trabajo INNOVA:\n \n 1.º Construcción de relatos sobre Experiencias Turismo España.\n 2.º Desarrollo o mejora del recurso turístico base para la creación de Experiencias\n Turismo España.\n 3.º Apoyo a la transformación digital de las Experiencias Turismo España.\n

Current Behavior: a) Línea de trabajo INNOVA:\n \n 1.º Construcción de relatos sobre Experiencias Turismo España.\n \n 2.º Desarrollo o mejora del recurso turístico base para la creación de Experiencias\n Turismo España.\n \n 3.º Apoyo a la transformación digital de las Experiencias Turismo España.\n \n

Expected Behavior: a) Línea de trabajo INNOVA:\n \n 1.º Construcción de relatos sobre Experiencias Turismo España.\n 2.º Desarrollo o mejora del recurso turístico base para la creación de Experiencias\n Turismo España.\n 3.º Apoyo a la transformación digital de las Experiencias Turismo España.\n

72018942-8d00-4413-97b9-99cf1c3cf3d6-08

info2000 avatar Jul 02 '22 17:07 info2000

Please provide an input image. Words are useless.

zdenop avatar Jul 02 '22 17:07 zdenop

Please provide an input image. Words are useless.

just added

info2000 avatar Jul 02 '22 17:07 info2000

https://github.com/tesseract-ocr/tesseract/issues/2155#issuecomment-622163609

amitdo avatar Jul 02 '22 18:07 amitdo

I think the text output looks neat. Empty lines are used to separate paragraphs, and each enumeration is obviously handled like a paragraph.

stweil avatar Jul 02 '22 18:07 stweil

If you want output without the empty lines, you can produce hOCR instead of text and then convert the hOCR file to text:

tesseract https://user-images.githubusercontent.com/5422722/177011361-0e0ecb62-90d5-4106-bc9e-88c33fea8246.jpg /tmp/text -l tessdata_fast/script/Latin hocr
ocr-transform hocr text /tmp/text.hocr

gives

BOLETÍN OFICIAL DEL ESTADO TE 
Martes 11 de enero de 2022 Sec. IIl. Pág. 2539 
 
criterios de evaluación de las solicitudes que son objetivos, públicos y conocidos 
previamente, y garantiza una amplia participación a sus potenciales destinatarios en su 
elaboración. 
En la elaboración de la presente orden ha emitido informe el Servicio Jurídico y la 
Intervención Delegada en el Departamento, de acuerdo con lo dispuesto por el 
artículo 17.1 de la Ley 38/2003, de 17 de noviembre, y el artículo 61.2 del Real 
Decreto-ley 36/2020, de 30 de diciembre. 
En su virtud, dispongo: 
CAPÍTULO I 
Disposiciones generales 
Artículo 1. Objeto y finalidad. 
1. La presente orden tiene por objeto aprobar las bases reguladoras de ayudas, 
destinadas a impulsar proyectos de redes de actores que desarrollen experiencias 
turísticas sostenibles, digitales, integradoras y competitivas en España, de conformidad 
con lo previsto en el apartado segundo de este artículo, así como aprobar la 
convocatoria de ayudas para el año 2021. 
2. Se entenderá a los efectos de esta orden que una Experiencia Turismo España 
impulsa proyectos de redes de actores que desarrollen experiencias turísticas 
sostenibles, digitales, integradoras y competitivas en España, si se desarrolla en todo el 
territorio nacional o, al menos, en tres comunidades autónomas, y se enmarca en alguna 
delas siguientes líneas de trabajo incluyendo algunas de las siguientes acciones: 
a) Línea de trabajo INNOVA: 
1.° Propuestas de creación de redes de actores en todo el territorio nacional o, al 
menos, en tres comunidades autónomas para impulsar el trabajo colaborativo en torno a 
una Experiencia Turismo España. 
2.° Construcción de relatos sobre Experiencias Turismo España. 
3.° Desarrollo o mejora del recurso turístico base para la creación de Experiencias 
Turismo España. 
4° Rediseño de las Experiencias Turismo España hacia modelos verdes y 
sostenibles. 
5.° Apoyo a la transformación digital de las Experiencias Turismo España. 
6.° Formación para la sostenibilidad y digitalización de Experiencias Turismo 
España. 
b) Línea de trabajo INTEGRA: 
1.° Estudios y propuestas de planes de adaptación de las Experiencia Turismo 
España a la lógica de economía circular y otras estrategias de incorporación del tejido 
productivo local. 
2.° Planes de adaptación de productos y servicios a lógica de economía circula y de 
proximidad. 
3.° Implantación de buenas prácticas o mejoras que impliquen mayores impactos 
positivos de Experiencias Turismo España en comunidades locales. 
4.° Propuestas para la incorporación de la diversidad de perfiles de turistas a 
distintas Experiencias Turismo España (Colectivo LGBTIQ+, mayores, diversidad de 
familias, distintas religiones, discapacidad entre otros...). 
5.° Formación y difusión en y para la adaptación a la diversidad social de las 
Experiencias Turismo España. 
Verificable en https://www.boe.es 
cve: BOE-A-2022-417 

stweil avatar Jul 02 '22 18:07 stweil

I think the text output looks neat. Empty lines are used to separate paragraphs, and each enumeration is obviously handled like a paragraph.

I need the real new lines, the issue is with the "fake" new lines added by tesserac

info2000 avatar Jul 02 '22 18:07 info2000

Using -c paragraph_text_based=false does not help in this case.

amitdo avatar Jul 03 '22 17:07 amitdo

To be able to use @stweil suggestion, you need to install ocr-fileformat.

amitdo avatar Jul 03 '22 17:07 amitdo