Bewertungsrahmen zur Testung von LLM-Wissenseingaben. Bietet statistische Strenge.

Was es tut

oh-my-knowledge ist ein Bewertungsrahmen, der entwickelt wurde, um LLM-Wissenseingaben systematisch zu bewerten und zu verbessern. Es ermöglicht Ihnen, Ihr Modell zu reparieren, während Sie die bewerteten Artefakte variieren—Prompts, RAG-Korpora, Fähigkeiten und Agenten-Workflows. Der Rahmen bietet eingebaute statistische Strenge, um zuverlässige und reproduzierbare Bewertungsergebnisse sicherzustellen.

Hauptmerkmale

Bootstrap-Konfidenzintervalle für statistische Signifikanztests
Krippendorffs Alpha zur Messung der Inter-Rater-Zuverlässigkeit
Längen-Bias-Korrektur zur Kontrolle von Artefaktlängenverzerrungen
Sättigungskurven zur Identifizierung der Bewertungsvollständigkeit
Multi-Richter-Ensemble-Unterstützung für robuste Bewertungen
Bewertung-als-Code-Ansatz für Reproduzierbarkeit
Unterstützung für verschiedene LLM-Wissensteile (Prompts, RAG, Fähigkeiten, Workflows)

So richten Sie es ein

Klonen Sie das Repository von GitHub und installieren Sie die Abhängigkeiten. Das Tool ist als Python-basiertes Framework konzipiert, das mit Claude und anderen LLMs integriert ist. Detaillierte Installationsanweisungen sind in der Projektdokumentation verfügbar. Benutzer können dann ihre Bewertungsszenarien definieren und statistische Analysen ihrer LLM-Artefakte durchführen.

oh-my-knowledge

Was es tut

Hauptmerkmale

So richten Sie es ein

Verwandte Skills

Thesis Structure Helper

Dependency Auditor

FAQ Generator Pro