encodechka HF Space

Решил сделать отдельное issue для обсуждения leaderboard (из #9).

Я посмотрел как делает MTEB и они собирают evaluation metrics, которые хранятся в readme.md у каждой модели отдельно (например Alibaba-NLP/gte-Qwen2-7B-instruct), поэтому не думаю что получится подтягивать информацию о метриках. Пока можно просто какую-то мета-информамцию только получать о моделях.

Документация по evaluation metrics. Как запускать MTEB. Как метрики создаются в MTEB. Можно сделать по аналогии (генерировать yaml для каждой метрики), чтобы можно было сразу на карточку модели добавить.

Jun 17 '24 15:06 Samoed

@avidale Если тебе это интересно, то могу попробовать добавить такую генерацию метрик

Jun 19 '24 17:06 Samoed

Мне это не супер интересно, потому что в целом я скорее подумываю вообще закопать бенчмарк Encodechka как самостоятельную сущность, встроив его напрямую в MTEB.

Jun 20 '24 09:06 avidale

Да, там на mteb есть конфиг для теста русского языка, но его использования кем-то я не нашел

Jun 20 '24 10:06 Samoed

Сейчас как раз активно начинают развивать русский язык там из Салюта https://github.com/embeddings-benchmark/mteb/pull/815 https://github.com/embeddings-benchmark/mteb/pull/962

Jun 20 '24 11:06 Samoed

В принципе, ruMTEB выехал (https://habr.com/ru/companies/sberdevices/articles/831150/), и Энкодечку можно с читсой совестью закапывать :)

Jul 25 '24 09:07 avidale

Скоро еще лидиерборд сделаю для русского, чтобы пользоваться можно было

Jul 25 '24 09:07 Samoed

https://github.com/embeddings-benchmark/leaderboard/pull/21

Jul 28 '24 22:07 Samoed

Теперь добавили https://huggingface.co/spaces/mteb/leaderboard

Aug 07 '24 07:08 Samoed