Marco de evaluación para probar entradas de conocimiento LLM. Ofrece rigor estadístico.

Qué hace

oh-my-knowledge es un marco de evaluación diseñado para evaluar y mejorar sistemáticamente las entradas de conocimiento LLM. Le permite corregir su modelo mientras varía los artefactos que se evalúan—prompts, corpus RAG, habilidades y flujos de trabajo de agentes. El marco proporciona rigor estadístico integrado para garantizar resultados de evaluación fiables y reproducibles.

Características clave

Intervalos de confianza bootstrap para pruebas de significación estadística
Alpha de Krippendorff para la medición de la fiabilidad entre evaluadores
Corrección de sesgo de longitud para controlar las confusiones de longitud de artefactos
Curvas de saturación para identificar la completitud de la evaluación
Soporte de conjunto de múltiples jueces para evaluaciones robustas
Enfoque de evaluación como código para reproducibilidad
Soporte para varios componentes de conocimiento LLM (prompts, RAG, habilidades, flujos de trabajo)

Cómo configurarlo

Clone el repositorio desde GitHub e instale las dependencias. La herramienta está diseñada como un marco basado en Python que se integra con Claude y otros LLM. Las instrucciones de configuración detalladas están disponibles en la documentación del proyecto. Los usuarios pueden definir sus escenarios de evaluación y realizar análisis estadísticos sobre sus artefactos LLM.

oh-my-knowledge

Qué hace

Características clave

Cómo configurarlo

Habilidades Relacionadas

Thesis Structure Helper

Dependency Auditor

FAQ Generator Pro