llm-evaluation-toolkit topics

langtest

545

Stars

50

Forks

545

Watchers

Deliver safe & effective language models

Pacific-AI-Corp

benchmarks

ethics-in-ai

large-language-models

llm-test

athina-evals

210

Stars

12

Forks

Watchers

Python SDK for running evaluations on LLM generated responses

athina-ai

evaluation

evaluation-framework

evaluation-metrics

llm-eval

just-eval

74

Stars

6

Forks

Watchers

A simple GPT-based evaluation tool for multi-aspect, interpretable assessment of LLMs.

Re-Align

evaluation

gpt4

llm

llm-eval

parea-sdk-py

74

Stars

6

Forks

Watchers

Python SDK for experimenting, testing, evaluating & monitoring LLM-powered applications - Parea AI (YC S23)

parea-ai

generative-ai

good-first-issue

llm

llm-eval

KIEval

38

Stars

2

Forks

38

Watchers

[ACL'24] A Knowledge-grounded Interactive Evaluation Framework for Large Language Models

zhuohaoyu

acl2024

explainable-ai

llm

llm-evaluation