- OcrService 提取 PDF 文本层后若有效字符达到阈值,直接构建文档并写入结果缓存,不再触发 OCR worker,仅无文本层时才解析 python_bin/worker_path 调用 worker - _build_text_layer_document 复用 AggregatedOcrDocument 聚合文本层片段,_has_usable_pdf_text_layer 基于 meaningful_char_count 判定 - docker-compose 与 paddleocr bootstrap 脚本补装 poppler-data,保证 PDF 文本层抽取的中文编码正确 - 新增文本层直取与运行时依赖两项 ocr_service 单测
Server
后端已按 FastAPI + PostgreSQL + SQLAlchemy + Alembic 起好基础工程。
为什么先选 PostgreSQL
这个项目是报销、审批、员工、流程、审计记录为主,核心特点是:
- 强事务
- 多表关联明显
- 审批流和审计日志需要一致性
- 后续大概率要做复杂查询、统计和条件筛选
这类系统优先选关系型数据库更合适,PostgreSQL 是当前默认推荐。
Redis 要不要现在上
现在 不是必须。
先不把 Redis 作为启动前置,原因很直接:
- 当前第一阶段先把核心业务表、接口、权限、审批流跑通
- 如果一开始就把 Redis 绑死,会增加部署和排障复杂度
Redis 更适合后面这些场景:
- 登录态 / token 黑名单
- 热点数据缓存
- 限流
- 分布式锁
- 消息队列 / 后台任务
所以现在的策略是:
- 主数据库:
PostgreSQL - Redis:
可选能力,配置已预留,但不是必需依赖
目录
src/app/:应用代码alembic/:数据库迁移tests/:测试
启动
- 创建虚拟环境并安装依赖
cd server
python -m venv .venv
.venv\\Scripts\\activate
pip install -e .[dev]
- 在项目根目录准备环境变量
copy ..\\.env.example ..\\.env
- 启动服务
uvicorn app.main:app --reload --app-dir src
迁移
alembic upgrade head