XpertEval 项目状态与发展路线

当前状态

XpertEval（中医药多模态大模型评测体系）目前处于初始版本阶段。我们已经完成了以下工作：

已完成工作

项目架构
- ✅ 设计了清晰的模块化架构
- ✅ 建立了完整的目录结构
- ✅ 创建了核心接口定义
评测器实现
- ✅ 通用能力评测器：文本、视觉、音频、多模态
- ✅ 中医专业评测器：面诊、舌诊、闻诊、症状理解、病史收集、脉诊、多模态、方剂推荐
评测指标
- ✅ 通用指标：准确率、F1、BLEU、ROUGE等
- ✅ 中医专业指标：特征识别准确率、证型相关度、描述完整性等
工具组件
- ✅ 日志工具
- ✅ 结果可视化工具
- ✅ 配置管理
示例与文档
- ✅ 示例评测脚本
- ✅ 基础文档架构
- ✅ 快速入门指南

待完成工作

我们计划在接下来的版本中完成以下工作：

近期计划（v0.2）

数据加载与前处理
- ⬜ 实现实际数据集加载功能
- ⬜ 添加数据预处理和增强功能
- ⬜ 建立数据集接口标准
模型评测扩展
- ⬜ 支持更多类型的模型接口（HuggingFace、OpenAI API等）
- ⬜ 添加模型适配器接口
- ⬜ 开发模型输出解析工具
测试与验证
- ⬜ 编写单元测试
- ⬜ 进行集成测试
- ⬜ 验证评测指标有效性

中期计划（v0.3 - v0.5）

评测基准
- ⬜ 建立中医药专业评测基准数据集
- ⬜ 开发标准评测流程
- ⬜ 发布基准评测结果
高级功能
- ⬜ 评测结果分析工具
- ⬜ 模型弱点诊断
- ⬜ 性能优化建议
用户界面
- ⬜ 开发命令行工具
- ⬜ 创建Web界面
- ⬜ 提供评测结果可视化仪表板

长期计划（v1.0+）

生态建设
- ⬜ 建立模型评测排行榜
- ⬜ 开发模型评测API服务
- ⬜ 构建社区贡献机制
研究方向
- ⬜ 探索更先进的评测方法
- ⬜ 研究自动化评测技术
- ⬜ 开发适应性评测框架
应用拓展
- ⬜ 针对特定中医临床场景的评测
- ⬜ 与实际医疗系统集成
- ⬜ 支持更多医学领域评测

参与贡献

我们欢迎社区成员参与XpertEval的开发。您可以通过以下方式贡献：

代码贡献：实现新功能、修复bug、改进性能
数据贡献：提供高质量的评测数据集
文档贡献：完善文档、编写教程、翻译内容
使用反馈：报告问题、提出建议、分享使用体验

请参考贡献指南了解详细的贡献流程。

版本规划

版本	计划发布时间	主要功能
v0.1	已发布	基础架构、核心评测器、示例文档
v0.2	2023 Q3	数据加载、模型接口、测试验证
v0.3	2023 Q4	评测基准、分析工具、命令行工具
v0.5	2024 Q1	Web界面、高级分析、性能优化
v1.0	2024 Q2	稳定API、完整文档、社区支持

我们将根据实际开发进度和社区反馈调整版本规划。