3.1 KiB
3.1 KiB
YG-Dataset 开发计划
项目状态: 基础架构完成 ✓
阶段 1: 基础架构 (第1周) - 已完成 ✓
1.1 后端基础搭建
- 创建 FastAPI 项目结构
- 配置 requirements.txt
- 创建 docker-compose.yml
- 创建基础 API 路由框架
- 创建数据库模型 (Project, File, Chunk, Question, Dataset, EvalDataset, ModelConfig, Task)
- 配置 alembic 迁移(可选)
1.2 前端基础搭建
- 创建 Vue 3 + Vite 项目
- 安装 Element Plus, Pinia, Vue Router
- 创建基础路由结构
- 创建 HomeView 页面
- 创建 ProjectView 布局
- 创建各个子页面 (FileManage, TextSplit, QuestionManage, DatasetManage, EvalManage, Settings)
- 创建 PlaygroundView 和 DataSquareView
阶段 2: 核心功能 (第2-3周)
2.1 文件处理模块
- 实现文件上传 API
- 实现 PDF 解析 (pdfplumber)
- 实现 Excel/CSV 解析 (pandas)
- 实现 DOCX 解析
- 前端文件管理页面
- 实现 EPUB 解析
- 实现 Markdown/TXT 解析
2.2 文本分割模块
- 实现多种分割算法 (recursive, markdown_structure, token, code, custom)
- 目录提取功能
- 前端分割配置页面
阶段 3: 数据生成 (第4周)
3.1 问题生成
- LLM 集成 (OpenAI, Anthropic, Ollama)
- 批量问题生成
- 问题编辑界面
3.2 数据集管理
- 数据集创建/编辑
- 导出功能 (Alpaca/ShareGPT/LLaMA Factory) - 基础实现
阶段 4: 评估系统 (第5周)
4.1 评估功能
- 评估数据集管理
- 评估运行
- 结果展示
4.2 盲测系统
- 盲测任务管理
- 模型对比
阶段 5: UI 优化 (第6周)
- 完善所有页面
- 响应式适配
- 暗色模式
- 性能优化
项目文件结构
YG-Datasets/
├── backend/ # FastAPI 后端
│ ├── app/
│ │ ├── api/v1/ # API 路由
│ │ │ ├── projects/ # 项目管理
│ │ │ ├── files/ # 文件处理
│ │ │ ├── chunks/ # 文本分割
│ │ │ ├── questions/ # 问题管理
│ │ │ ├── datasets/ # 数据集
│ │ │ └── eval/ # 评估
│ │ ├── models/ # SQLAlchemy 模型
│ │ ├── schemas/ # Pydantic 模型
│ │ ├── services/ # 业务逻辑
│ │ │ ├── file_processor/
│ │ │ └── text_splitter/
│ │ └── core/ # 核心配置
│ ├── requirements.txt
│ └── Dockerfile
├── frontend/ # Vue 3 前端
│ ├── src/
│ │ ├── views/ # 页面
│ │ ├── api/ # API 封装
│ │ └── router/ # 路由
│ ├── package.json
│ └── Dockerfile
├── docker-compose.yml # 容器编排
├── 开发计划.md
├── bug修改.md
└── 项目架构.md
最后更新: 2026-03-17