prompt-evaluation

Star

Here are 30 public repositories matching this topic...

ianarawjo / evalstats

Sponsor

Star

Statistical analysis methods for comparing prompt and model performance in LLM evaluations.

benchmarking statistical-analysis ai-statistics ai-evaluation prompt-engineering prompt-evaluation ai-evaluation-tools

Updated Apr 17, 2026
Python

loloMD / awesome_chainforge

Star

Another day, another Awesome List repo. A comprehensive list of Chainforge-related content

awesome ai evaluation awesome-list model-evaluation gpt-4 large-language-models llm prompt-engineering llms chatgpt llmops prompt-injection prompt-evaluation tools-for-prompt-engineering auditing-models testing-prompts

Updated Oct 24, 2025

shinpr / rashomon

Sponsor

Star

Measure prompt and skill improvements with blind A/B comparison.

skills evaluation developer-tools ai-tools llm prompt-engineering prompt-optimization prompt-evaluation agent-skills claude-code claude-code-plugin

Updated Apr 4, 2026
Python

thunderous77 / GLaPE

Star

Official implementation for "GLaPE: Gold Label-agnostic Prompt Evaluation and Optimization for Large Language Models" (stay tuned & more will be updated)

large-language-models prompt-optimization prompt-evaluation

Updated Feb 6, 2024
Python

prompt-foundry / python-sdk

Star

The prompt engineering, prompt management, and prompt evaluation tool for Python

python python3 open-ai llm prompt-engineering prompt-management llm-eval llm-evaluation prompt-evaluation

Updated Apr 23, 2026
Python

prompt-foundry / typescript-sdk

Star

The prompt engineering, prompt management, and prompt evaluation tool for TypeScript, JavaScript, and NodeJS.

typescript gpt open-ai gpt-3 gpt-4 llm prompt-engineering llmops prompt-testing prompt-manager prompt-management llm-eval llm-test llm-ops llm-evaluation prompt-evaluation

Updated Apr 23, 2026
TypeScript

GuilhermeRuy97 / prompt-evaluation-langsmith

Star

A project to take a suboptimal prompt from Langsmith, enhance it, submit it again, and then reevaluate the results. #LangSmith #PromptEngineer

python prompt-engineering langsmith prompt-evaluation

Updated Feb 19, 2026
Python

tryingET / pi-evalset-lab

Star

pi extension for fixed-task-set eval runs and prompt/system comparisons with reproducible reports

background-processes llm-evaluation prompt-evaluation evalset pi-extension pi-package safety-governance fixed-task-set ux-observability context-codebase-mapping web-docs-retrieval review-quality-loops planning-orchestration subagents-parallelization model-prompt-management interactive-clis-editors skills-rules-packs paste-code-extraction

Updated Apr 13, 2026
TypeScript

DrixoT / Prompt-Optimization

Star

A Simple Prompt Optimization Using 3 different algorithms for testing.

prompt-engineering prompt-optimization prompt-evaluation

Updated Nov 4, 2025
Jupyter Notebook

syed-waleed-ahmed / LLM-as-Judge

Star

A Streamlit web app that uses a Groq-powered LLM (Llama 3) to act as an impartial judge for evaluating and comparing two model outputs. Supports custom criteria, presets like creativity and brand tone, and returns structured scores, explanations, and a winner. Built end-to-end with Python, Groq API, and Streamlit.

python code-evaluation a-b-testing text-evaluation groq streamlit model-benchmarking ai-automation ai-evaluation llm prompt-evaluation llama3 llm-judge output-evaluation scoring-framework

Updated Nov 24, 2025
Python

prompt-foundry / ruby-sdk

Star

The prompt engineering, prompt management, and prompt evaluation tool for Ruby.

ruby ruby-gem openai ruby-on-rails prompt-engineering prompt-manager prompt-management llm-eval llm-evaluation prompt-evaluation

Updated Jun 16, 2024

deans-code / eval

Star

Building a framework to run prompt evaluation tasks.

grader lm-studio prompt-evaluation prompt-eval gpt-oss-120b

Updated Jan 7, 2026
C#

davidvictor / superwhisperer-lab

Star

Benchmark and continuously improve your Superwhisper custom modes against your own voice recording history.

python macos voice-dictation prompt-evaluation superwhisper

Updated Apr 23, 2026
Python

MohsinCreed / LangfuseOllama

Star

Free, local Langfuse OSS setup with Ollama for LLM evaluation, scoring, and datasets.

docker open-source self-hosted free no-cost local-llm ollama langfuse llm-evaluation prompt-evaluation offline-ai llm-as-judge llm-observability ai-evals

Updated Apr 13, 2026
TypeScript

danielrosehill / LLM-Evaluation-Prompts

Star

A few prompts that I am storing in a repo for the purpose of running controlled experiments comparing and benchmarking different LLMs for defined use-cases

prompt-engineering prompt-evaluation prompt-eval prompt-benchmarking