HF Space
Решил сделать отдельное issue для обсуждения leaderboard (из #9).
Я посмотрел как делает MTEB и они собирают evaluation metrics, которые хранятся в readme.md у каждой модели отдельно (например Alibaba-NLP/gte-Qwen2-7B-instruct), поэтому не думаю что получится подтягивать информацию о метриках. Пока можно просто какую-то мета-информамцию только получать о моделях.
Документация по evaluation metrics. Как запускать MTEB. Как метрики создаются в MTEB. Можно сделать по аналогии (генерировать yaml для каждой метрики), чтобы можно было сразу на карточку модели добавить.
@avidale Если тебе это интересно, то могу попробовать добавить такую генерацию метрик
Мне это не супер интересно, потому что в целом я скорее подумываю вообще закопать бенчмарк Encodechka как самостоятельную сущность, встроив его напрямую в MTEB.
Да, там на mteb есть конфиг для теста русского языка, но его использования кем-то я не нашел
Сейчас как раз активно начинают развивать русский язык там из Салюта https://github.com/embeddings-benchmark/mteb/pull/815 https://github.com/embeddings-benchmark/mteb/pull/962
В принципе, ruMTEB выехал (https://habr.com/ru/companies/sberdevices/articles/831150/), и Энкодечку можно с читсой совестью закапывать :)
Скоро еще лидиерборд сделаю для русского, чтобы пользоваться можно было
https://github.com/embeddings-benchmark/leaderboard/pull/21
Теперь добавили https://huggingface.co/spaces/mteb/leaderboard