Files
YG-Datasets/开发计划.md

118 lines
3.1 KiB
Markdown
Raw Permalink Normal View History

2026-03-17 14:36:31 +08:00
# YG-Dataset 开发计划
## 项目状态: 基础架构完成 ✓
---
## 阶段 1: 基础架构 (第1周) - 已完成 ✓
### 1.1 后端基础搭建
- [x] 创建 FastAPI 项目结构
- [x] 配置 requirements.txt
- [x] 创建 docker-compose.yml
- [x] 创建基础 API 路由框架
- [x] 创建数据库模型 (Project, File, Chunk, Question, Dataset, EvalDataset, ModelConfig, Task)
- [ ] 配置 alembic 迁移(可选)
### 1.2 前端基础搭建
- [x] 创建 Vue 3 + Vite 项目
- [x] 安装 Element Plus, Pinia, Vue Router
- [x] 创建基础路由结构
- [x] 创建 HomeView 页面
- [x] 创建 ProjectView 布局
- [x] 创建各个子页面 (FileManage, TextSplit, QuestionManage, DatasetManage, EvalManage, Settings)
- [x] 创建 PlaygroundView 和 DataSquareView
---
## 阶段 2: 核心功能 (第2-3周)
### 2.1 文件处理模块
- [x] 实现文件上传 API
- [x] 实现 PDF 解析 (pdfplumber)
- [x] 实现 Excel/CSV 解析 (pandas)
- [x] 实现 DOCX 解析
- [x] 前端文件管理页面
- [ ] 实现 EPUB 解析
- [ ] 实现 Markdown/TXT 解析
### 2.2 文本分割模块
- [x] 实现多种分割算法 (recursive, markdown_structure, token, code, custom)
- [x] 目录提取功能
- [x] 前端分割配置页面
---
## 阶段 3: 数据生成 (第4周)
### 3.1 问题生成
- [ ] LLM 集成 (OpenAI, Anthropic, Ollama)
- [ ] 批量问题生成
- [ ] 问题编辑界面
### 3.2 数据集管理
- [x] 数据集创建/编辑
- [x] 导出功能 (Alpaca/ShareGPT/LLaMA Factory) - 基础实现
---
## 阶段 4: 评估系统 (第5周)
### 4.1 评估功能
- [x] 评估数据集管理
- [ ] 评估运行
- [ ] 结果展示
### 4.2 盲测系统
- [ ] 盲测任务管理
- [ ] 模型对比
---
## 阶段 5: UI 优化 (第6周)
- [ ] 完善所有页面
- [ ] 响应式适配
- [ ] 暗色模式
- [ ] 性能优化
---
## 项目文件结构
```
YG-Datasets/
├── backend/ # FastAPI 后端
│ ├── app/
│ │ ├── api/v1/ # API 路由
│ │ │ ├── projects/ # 项目管理
│ │ │ ├── files/ # 文件处理
│ │ │ ├── chunks/ # 文本分割
│ │ │ ├── questions/ # 问题管理
│ │ │ ├── datasets/ # 数据集
│ │ │ └── eval/ # 评估
│ │ ├── models/ # SQLAlchemy 模型
│ │ ├── schemas/ # Pydantic 模型
│ │ ├── services/ # 业务逻辑
│ │ │ ├── file_processor/
│ │ │ └── text_splitter/
│ │ └── core/ # 核心配置
│ ├── requirements.txt
│ └── Dockerfile
├── frontend/ # Vue 3 前端
│ ├── src/
│ │ ├── views/ # 页面
│ │ ├── api/ # API 封装
│ │ └── router/ # 路由
│ ├── package.json
│ └── Dockerfile
├── docker-compose.yml # 容器编排
├── 开发计划.md
├── bug修改.md
└── 项目架构.md
```
---
*最后更新: 2026-03-17*