evaluation-metrics topics

Python SDK for AI agent monitoring, LLM cost tracking, benchmarking, and more. Integrates with most LLMs and agent frameworks including CrewAI, Agno, OpenAI Agents SDK, Langchain, Autogen, AG2, and Ca...

AgentOps-AI

agent

agentops

ai

evals

TaPR

16

Stars

6

Forks

Watchers

Time-series Aware Precision and Recall for Evaluating Anomaly Detection Methods

saurf4ng

anomaly-de

evaluation-metrics

precision-recall

time-series

CERberus

23

Stars

0

Forks

Watchers

CERberus -- guardian against character errors :dog::dog::dog:

WHaverals

evaluation-metrics

handwritten-text-recognition

htr

ocr

chatgpt_as_nlg_evaluator

41

Stars

1

Forks

Watchers

Technical Report: Is ChatGPT a Good NLG Evaluator? A Preliminary Study

krystalan

chatgpt

data-to-text-generation

evaluation-metrics

natural-language-generation

ErrorAnalysis_Prompt

84

Stars

3

Forks

Watchers

:gift:[ChatGPT4MTevaluation] ErrorAnalysis Prompt for MT Evaluation in ChatGPT

Coldmist-Lu

chatgpt

evaluation-metrics

machine-translation

natural-language-processing

continuous-eval

436

Stars

28

Forks

Watchers

Data-Driven Evaluation for LLM-Powered Applications

relari-ai

evaluation-framework

evaluation-metrics

information-retrieval

llm-evaluation

summarization-eval

99

Stars

7

Forks

Watchers

📝 Reference-Free automatic summarization evaluation with potential hallucination detection

Muhtasham

evaluation-metrics

summarization

summary-workbench

31

Stars

6

Forks

Watchers

Framework for unified summarisation and evaluation of English documents using state-of-the-art models and measures.

webis-de

evaluation-metrics

summarization

text-generation

visualization