Files

caoxiaozhu 88e91a5900 feat(ocr): PDF 文本层可用时跳过 worker 调用并补装 poppler-data

- OcrService 提取 PDF 文本层后若有效字符达到阈值，直接构建文档并写入结果缓存，不再触发 OCR worker，仅无文本层时才解析 python_bin/worker_path 调用 worker
- _build_text_layer_document 复用 AggregatedOcrDocument 聚合文本层片段，_has_usable_pdf_text_layer 基于 meaningful_char_count 判定
- docker-compose 与 paddleocr bootstrap 脚本补装 poppler-data，保证 PDF 文本层抽取的中文编码正确
- 新增文本层直取与运行时依赖两项 ocr_service 单测

2026-06-21 23:23:59 +08:00

alembic

feat: add FastAPI backend with PostgreSQL and start script fixes

2026-05-06 17:43:47 +08:00

rules

feat(web): AI 文档详情引用解析与查询卡片增强

2026-06-21 22:49:53 +08:00

scripts

feat(ocr): PDF 文本层可用时跳过 worker 调用并补装 poppler-data

2026-06-21 23:23:59 +08:00

src

feat(ocr): PDF 文本层可用时跳过 worker 调用并补装 poppler-data

2026-06-21 23:23:59 +08:00

storage

chore(storage): 清理用户历史报销票据附件

2026-06-18 22:11:10 +08:00

tests

feat(ocr): PDF 文本层可用时跳过 worker 调用并补装 poppler-data

2026-06-21 23:23:59 +08:00

alembic.ini

feat: add FastAPI backend with PostgreSQL and start script fixes

2026-05-06 17:43:47 +08:00

pyproject.toml

chore: 更新配置和构建脚本

2026-05-18 02:53:06 +00:00

README.md

feat: add FastAPI backend with PostgreSQL and start script fixes

2026-05-06 17:43:47 +08:00

server_start.sh

feat(startup): 服务端启动 bootstrap 与缓存预热

2026-06-18 22:11:37 +08:00

uv.lock

chore: backup workspace before list detail shell refactor

2026-05-28 22:33:53 +08:00

README.md

Server

后端已按 FastAPI + PostgreSQL + SQLAlchemy + Alembic 起好基础工程。

为什么先选 PostgreSQL

这个项目是报销、审批、员工、流程、审计记录为主，核心特点是：

强事务
多表关联明显
审批流和审计日志需要一致性
后续大概率要做复杂查询、统计和条件筛选

这类系统优先选关系型数据库更合适，PostgreSQL 是当前默认推荐。

Redis 要不要现在上

现在 不是必须。

先不把 Redis 作为启动前置，原因很直接：

当前第一阶段先把核心业务表、接口、权限、审批流跑通
如果一开始就把 Redis 绑死，会增加部署和排障复杂度

Redis 更适合后面这些场景：

登录态 / token 黑名单
热点数据缓存
限流
分布式锁
消息队列 / 后台任务

所以现在的策略是：

主数据库：PostgreSQL
Redis：可选能力，配置已预留，但不是必需依赖

启动

创建虚拟环境并安装依赖

cd server
python -m venv .venv
.venv\\Scripts\\activate
pip install -e .[dev]

copy ..\\.env.example ..\\.env

启动服务

uvicorn app.main:app --reload --app-dir src

迁移

alembic upgrade head

README.md Unescape Escape

Server

为什么先选 PostgreSQL

Redis 要不要现在上

目录

启动

迁移

README.md