プロンプト、RAGコーパス、エージェントワークフローを含むLLM知識入力をテストするための評価フレームワーク。

何をするか

oh-my-knowledgeは、LLM知識入力を体系的に評価および改善するために設計された評価フレームワークです。評価されるアーティファクト（プロンプト、RAGコーパス、スキル、エージェントワークフロー）を変化させながら、モデルを修正することができます。このフレームワークは、信頼性が高く再現可能な評価結果を保証するために、組み込みの統計的厳密さを提供します。

主な機能

統計的有意性テストのためのブートストラップ信頼区間
評価者間の信頼性測定のためのKrippendorff's alpha
アーティファクトの長さによる混乱を制御するための長さの偏り補正
評価の完全性を特定するための飽和曲線
堅牢な評価のためのマルチジャッジアンサンブルサポート
再現性のための評価コードとしてのアプローチ
さまざまなLLM知識コンポーネント（プロンプト、RAG、スキル、ワークフロー）をサポート

セットアップ方法

GitHubからリポジトリをクローンし、依存関係をインストールします。このツールは、Claudeや他のLLMと統合されるPythonベースのフレームワークとして設計されています。詳細なセットアップ手順はプロジェクトのドキュメントに記載されています。ユーザーは評価シナリオを定義し、LLMアーティファクトに対して統計分析を実行できます。

oh-my-knowledge

何をするか

主な機能

セットアップ方法

関連スキル

Thesis Structure Helper

Dependency Auditor

FAQ Generator Pro