AI Skills Directory

首页技能平台工作流程提交技能指南构建

AI Skills Directory

全球AI技能与自动化目录

快速链接

技能
平台
工作流程
提交技能
指南

法律

免责声明
隐私政策
服务条款

© 2026 AI Skills Directory. 保留所有权利。

返回技能列表

ClaudeResearch

oh-my-knowledge

作者 lizhiyaoCLI免费

用于测试LLM知识输入的评估框架，包括提示、RAG语料库和代理工作流程。

它的功能

oh-my-knowledge是一个评估框架，旨在系统地评估和改进LLM知识输入。它允许您在评估的工件（提示、RAG语料库、技能和代理工作流程）变化的情况下修复您的模型。该框架提供内置的统计严谨性，以确保可靠和可重复的评估结果。

主要特性

用于统计显著性测试的Bootstrap置信区间
用于评估者间可靠性测量的Krippendorff's alpha
长度去偏以控制工件长度混淆
饱和曲线以识别评估的完整性
多评审团支持以进行稳健评估
评估即代码的方法以实现可重复性
支持各种LLM知识组件（提示、RAG、技能、工作流程）

如何设置

从GitHub克隆存储库并安装依赖项。该工具被设计为一个基于Python的框架，可以与Claude和其他LLM集成。详细的设置说明在项目文档中提供。用户可以定义他们的评估场景并对他们的LLM工件进行统计分析。

benchmarkllm-evaluationevaluation-frameworkprompt-testingrag-evaluation

相关技能

ClaudeResearch

Thesis Structure Helper

Thesis Structure Helper assists students and researchers in organizing their academic theses by providing…

作者 FormAI

5.0 (76)

免费

ClaudeCoding

Dependency Auditor

Dependency Auditor helps developers audit project dependencies for security vulnerabilities, licensing is…

作者 EnergyAI

5.0 (149)

免费

ClaudeCustomer Support

FAQ Generator Pro

FAQ Generator Pro auto-generates FAQ pages from support tickets, documentation, and product information.…

作者 EmailForge

5.0 (499)

免费增值