Scans hang on CL on 25-analytics
Где проявляется
База: https://monitoring.ydb.yandex-team.ru/tenant?tenantPage=query&queryTab=newQuery&diagnosticsTab=nodes&database=%2Fvla%2Fyc.logs.cloud%2Fetn9p8577052puat48co&backend=https%3A%2F%2Foidc-proxy.ydb.cloud.yandex-team.ru%2Fydbproxy-vla.ydb.cloud.yandex.net%3A8765&clusterName=cloud_prod_kikimr_vla&schema=%2Fvla%2Fyc.logs.cloud%2Fetn9p8577052puat48co
Проблема начала проявляться при обновлении версии ydb с ydb-stable-24-4-2-analytics-6 на ydb-stable-25-1-1-analytics-6
Что известно
В течение 30+ минут обработки скана CS регулярно получает NKqp::TEvKqpCompute::TEvScanPing, но не получает NKqp::TEvKqpCompute::TEvScanDataAck или NKqp::TEvKqp::TEvAbortExecution.
Логи
Логи зависающего запроса: https://paste.yandex-team.ru/c0e3b4eb-76e0-4cd6-b957-f2432ca46d9e
Запросы
Все долгие запросы на кластер имеют вид:
SELECT ____ FROM ( SELECT ____ FROM ____ WHERE ____ ) WHERE ____ ORDER BY ____ LIMIT ____
Пример запроса: https://paste.yandex-team.ru/7017e1f7-8c17-4640-8ee8-fc01322eeed6
Возможно, релевантно:
3 ноды на CL PROD VLA упали с segfault при попытке push_back к деаллоцированному std::vector
addr2line -e /Berkanavt/kikimr/bin/kikimr 0000000021844214
/home/yentsovsemyon/arcadia/contrib/libs/cxxsupp/libcxx/include/vector:1571
It seems that it not user-side impact. Internal CS scans do not finish since TScanFetcher is alive and pings regularly
We see TScanFetcher leakage on sensors (TScanActor do not leak)