Files
YG-Datasets/开发计划.md

3.1 KiB

YG-Dataset 开发计划

项目状态: 基础架构完成 ✓


阶段 1: 基础架构 (第1周) - 已完成 ✓

1.1 后端基础搭建

  • 创建 FastAPI 项目结构
  • 配置 requirements.txt
  • 创建 docker-compose.yml
  • 创建基础 API 路由框架
  • 创建数据库模型 (Project, File, Chunk, Question, Dataset, EvalDataset, ModelConfig, Task)
  • 配置 alembic 迁移(可选)

1.2 前端基础搭建

  • 创建 Vue 3 + Vite 项目
  • 安装 Element Plus, Pinia, Vue Router
  • 创建基础路由结构
  • 创建 HomeView 页面
  • 创建 ProjectView 布局
  • 创建各个子页面 (FileManage, TextSplit, QuestionManage, DatasetManage, EvalManage, Settings)
  • 创建 PlaygroundView 和 DataSquareView

阶段 2: 核心功能 (第2-3周)

2.1 文件处理模块

  • 实现文件上传 API
  • 实现 PDF 解析 (pdfplumber)
  • 实现 Excel/CSV 解析 (pandas)
  • 实现 DOCX 解析
  • 前端文件管理页面
  • 实现 EPUB 解析
  • 实现 Markdown/TXT 解析

2.2 文本分割模块

  • 实现多种分割算法 (recursive, markdown_structure, token, code, custom)
  • 目录提取功能
  • 前端分割配置页面

阶段 3: 数据生成 (第4周)

3.1 问题生成

  • LLM 集成 (OpenAI, Anthropic, Ollama)
  • 批量问题生成
  • 问题编辑界面

3.2 数据集管理

  • 数据集创建/编辑
  • 导出功能 (Alpaca/ShareGPT/LLaMA Factory) - 基础实现

阶段 4: 评估系统 (第5周)

4.1 评估功能

  • 评估数据集管理
  • 评估运行
  • 结果展示

4.2 盲测系统

  • 盲测任务管理
  • 模型对比

阶段 5: UI 优化 (第6周)

  • 完善所有页面
  • 响应式适配
  • 暗色模式
  • 性能优化

项目文件结构

YG-Datasets/
├── backend/                    # FastAPI 后端
│   ├── app/
│   │   ├── api/v1/           # API 路由
│   │   │   ├── projects/    # 项目管理
│   │   │   ├── files/       # 文件处理
│   │   │   ├── chunks/      # 文本分割
│   │   │   ├── questions/   # 问题管理
│   │   │   ├── datasets/    # 数据集
│   │   │   └── eval/        # 评估
│   │   ├── models/          # SQLAlchemy 模型
│   │   ├── schemas/         # Pydantic 模型
│   │   ├── services/        # 业务逻辑
│   │   │   ├── file_processor/
│   │   │   └── text_splitter/
│   │   └── core/            # 核心配置
│   ├── requirements.txt
│   └── Dockerfile
├── frontend/                   # Vue 3 前端
│   ├── src/
│   │   ├── views/           # 页面
│   │   ├── api/             # API 封装
│   │   └── router/          # 路由
│   ├── package.json
│   └── Dockerfile
├── docker-compose.yml          # 容器编排
├── 开发计划.md
├── bug修改.md
└── 项目架构.md

最后更新: 2026-03-17