XpertEval 项目状态与发展路线

当前状态

XpertEval(中医药多模态大模型评测体系)目前处于初始版本阶段。我们已经完成了以下工作:

已完成工作

  1. 项目架构
    • ✅ 设计了清晰的模块化架构
    • ✅ 建立了完整的目录结构
    • ✅ 创建了核心接口定义
  2. 评测器实现
    • ✅ 通用能力评测器:文本、视觉、音频、多模态
    • ✅ 中医专业评测器:面诊、舌诊、闻诊、症状理解、病史收集、脉诊、多模态、方剂推荐
  3. 评测指标
    • ✅ 通用指标:准确率、F1、BLEU、ROUGE等
    • ✅ 中医专业指标:特征识别准确率、证型相关度、描述完整性等
  4. 工具组件
    • ✅ 日志工具
    • ✅ 结果可视化工具
    • ✅ 配置管理
  5. 示例与文档
    • ✅ 示例评测脚本
    • ✅ 基础文档架构
    • ✅ 快速入门指南

待完成工作

我们计划在接下来的版本中完成以下工作:

近期计划(v0.2)

  1. 数据加载与前处理
    • ⬜ 实现实际数据集加载功能
    • ⬜ 添加数据预处理和增强功能
    • ⬜ 建立数据集接口标准
  2. 模型评测扩展
    • ⬜ 支持更多类型的模型接口(HuggingFace、OpenAI API等)
    • ⬜ 添加模型适配器接口
    • ⬜ 开发模型输出解析工具
  3. 测试与验证
    • ⬜ 编写单元测试
    • ⬜ 进行集成测试
    • ⬜ 验证评测指标有效性

中期计划(v0.3 - v0.5)

  1. 评测基准
    • ⬜ 建立中医药专业评测基准数据集
    • ⬜ 开发标准评测流程
    • ⬜ 发布基准评测结果
  2. 高级功能
    • ⬜ 评测结果分析工具
    • ⬜ 模型弱点诊断
    • ⬜ 性能优化建议
  3. 用户界面
    • ⬜ 开发命令行工具
    • ⬜ 创建Web界面
    • ⬜ 提供评测结果可视化仪表板

长期计划(v1.0+)

  1. 生态建设
    • ⬜ 建立模型评测排行榜
    • ⬜ 开发模型评测API服务
    • ⬜ 构建社区贡献机制
  2. 研究方向
    • ⬜ 探索更先进的评测方法
    • ⬜ 研究自动化评测技术
    • ⬜ 开发适应性评测框架
  3. 应用拓展
    • ⬜ 针对特定中医临床场景的评测
    • ⬜ 与实际医疗系统集成
    • ⬜ 支持更多医学领域评测

参与贡献

我们欢迎社区成员参与XpertEval的开发。您可以通过以下方式贡献:

  1. 代码贡献:实现新功能、修复bug、改进性能
  2. 数据贡献:提供高质量的评测数据集
  3. 文档贡献:完善文档、编写教程、翻译内容
  4. 使用反馈:报告问题、提出建议、分享使用体验

请参考贡献指南了解详细的贡献流程。

版本规划

版本 计划发布时间 主要功能
v0.1 已发布 基础架构、核心评测器、示例文档
v0.2 2023 Q3 数据加载、模型接口、测试验证
v0.3 2023 Q4 评测基准、分析工具、命令行工具
v0.5 2024 Q1 Web界面、高级分析、性能优化
v1.0 2024 Q2 稳定API、完整文档、社区支持

我们将根据实际开发进度和社区反馈调整版本规划。