XpertEval 项目状态与发展路线
当前状态
XpertEval(中医药多模态大模型评测体系)目前处于初始版本阶段。我们已经完成了以下工作:
已完成工作
- 项目架构
- ✅ 设计了清晰的模块化架构
- ✅ 建立了完整的目录结构
- ✅ 创建了核心接口定义
- 评测器实现
- ✅ 通用能力评测器:文本、视觉、音频、多模态
- ✅ 中医专业评测器:面诊、舌诊、闻诊、症状理解、病史收集、脉诊、多模态、方剂推荐
- 评测指标
- ✅ 通用指标:准确率、F1、BLEU、ROUGE等
- ✅ 中医专业指标:特征识别准确率、证型相关度、描述完整性等
- 工具组件
- ✅ 日志工具
- ✅ 结果可视化工具
- ✅ 配置管理
- 示例与文档
- ✅ 示例评测脚本
- ✅ 基础文档架构
- ✅ 快速入门指南
待完成工作
我们计划在接下来的版本中完成以下工作:
近期计划(v0.2)
- 数据加载与前处理
- ⬜ 实现实际数据集加载功能
- ⬜ 添加数据预处理和增强功能
- ⬜ 建立数据集接口标准
- 模型评测扩展
- ⬜ 支持更多类型的模型接口(HuggingFace、OpenAI API等)
- ⬜ 添加模型适配器接口
- ⬜ 开发模型输出解析工具
- 测试与验证
- ⬜ 编写单元测试
- ⬜ 进行集成测试
- ⬜ 验证评测指标有效性
中期计划(v0.3 - v0.5)
- 评测基准
- ⬜ 建立中医药专业评测基准数据集
- ⬜ 开发标准评测流程
- ⬜ 发布基准评测结果
- 高级功能
- ⬜ 评测结果分析工具
- ⬜ 模型弱点诊断
- ⬜ 性能优化建议
- 用户界面
- ⬜ 开发命令行工具
- ⬜ 创建Web界面
- ⬜ 提供评测结果可视化仪表板
长期计划(v1.0+)
- 生态建设
- ⬜ 建立模型评测排行榜
- ⬜ 开发模型评测API服务
- ⬜ 构建社区贡献机制
- 研究方向
- ⬜ 探索更先进的评测方法
- ⬜ 研究自动化评测技术
- ⬜ 开发适应性评测框架
- 应用拓展
- ⬜ 针对特定中医临床场景的评测
- ⬜ 与实际医疗系统集成
- ⬜ 支持更多医学领域评测
参与贡献
我们欢迎社区成员参与XpertEval的开发。您可以通过以下方式贡献:
- 代码贡献:实现新功能、修复bug、改进性能
- 数据贡献:提供高质量的评测数据集
- 文档贡献:完善文档、编写教程、翻译内容
- 使用反馈:报告问题、提出建议、分享使用体验
请参考贡献指南了解详细的贡献流程。
版本规划
| 版本 | 计划发布时间 | 主要功能 |
|---|---|---|
| v0.1 | 已发布 | 基础架构、核心评测器、示例文档 |
| v0.2 | 2023 Q3 | 数据加载、模型接口、测试验证 |
| v0.3 | 2023 Q4 | 评测基准、分析工具、命令行工具 |
| v0.5 | 2024 Q1 | Web界面、高级分析、性能优化 |
| v1.0 | 2024 Q2 | 稳定API、完整文档、社区支持 |
我们将根据实际开发进度和社区反馈调整版本规划。