ydb icon indicating copy to clipboard operation
ydb copied to clipboard

Scans hang on CL on 25-analytics

Open zverevgeny opened this issue 7 months ago • 1 comments

Где проявляется

База: https://monitoring.ydb.yandex-team.ru/tenant?tenantPage=query&queryTab=newQuery&diagnosticsTab=nodes&database=%2Fvla%2Fyc.logs.cloud%2Fetn9p8577052puat48co&backend=https%3A%2F%2Foidc-proxy.ydb.cloud.yandex-team.ru%2Fydbproxy-vla.ydb.cloud.yandex.net%3A8765&clusterName=cloud_prod_kikimr_vla&schema=%2Fvla%2Fyc.logs.cloud%2Fetn9p8577052puat48co

Проблема начала проявляться при обновлении версии ydb с ydb-stable-24-4-2-analytics-6 на ydb-stable-25-1-1-analytics-6

Что известно

В течение 30+ минут обработки скана CS регулярно получает NKqp::TEvKqpCompute::TEvScanPing, но не получает NKqp::TEvKqpCompute::TEvScanDataAck или NKqp::TEvKqp::TEvAbortExecution.

Логи

Логи зависающего запроса: https://paste.yandex-team.ru/c0e3b4eb-76e0-4cd6-b957-f2432ca46d9e

Запросы

Все долгие запросы на кластер имеют вид:

SELECT ____ FROM ( SELECT ____ FROM ____ WHERE ____ ) WHERE ____ ORDER BY ____ LIMIT ____ 

Пример запроса: https://paste.yandex-team.ru/7017e1f7-8c17-4640-8ee8-fc01322eeed6

Возможно, релевантно:

3 ноды на CL PROD VLA упали с segfault при попытке push_back к деаллоцированному std::vector

addr2line -e /Berkanavt/kikimr/bin/kikimr 0000000021844214
/home/yentsovsemyon/arcadia/contrib/libs/cxxsupp/libcxx/include/vector:1571

zverevgeny avatar Jun 17 '25 08:06 zverevgeny

It seems that it not user-side impact. Internal CS scans do not finish since TScanFetcher is alive and pings regularly

We see TScanFetcher leakage on sensors (TScanActor do not leak)

Hor911 avatar Jun 19 '25 12:06 Hor911