dedoc icon indicating copy to clipboard operation
dedoc copied to clipboard

Однопоточность дедок-конетейнера при парсинге множества документов

Open FatherOctber opened this issue 1 year ago • 2 comments

Здравствуйте! Мы решили скрестить дедок с нашим etl-сервисов по обработке сырых данных. И вот с чем мы столкнулись:

Контейнерный дедок однопоточный. FastApi ендпоинт /upload работает со статическим DedocManager, внутри которого есть общая блокировка-ресурс. При накидывании нескольких запросов с большими файлами, первый файл встанет в обработку, остальные в очередь. И даже есть произойдет http-таймаут на вызываемой стороне, файл продолжит обработку. Реальный кейс - есть такая книжка Боб Бонд Справочник Яхтсмена.pdf, она с auto-tabby парсится 3 часа...

Можно ли как то управлять отменой парсинга, или взять взаимной блокировкой ресурса?

Версия v2.2.6

FatherOctber avatar Aug 27 '24 13:08 FatherOctber

Здравствуйте! К сожалению, эта проблема пока никак не решается, обработку можно остановить только остановкой контейнера... Нам нужно поисследовать решения этой проблемы, поведение и правда неудовлетворительное

NastyBoget avatar Aug 27 '24 14:08 NastyBoget

Добавили остановку парсинга документа при отключении клиента в версии dedoc==2.3.2

NastyBoget avatar Dec 25 '24 10:12 NastyBoget