学了这么多，我去总结下之前的项目经历，免得会做不会说

Laiyong Wang Lv6

2026-05-04 22:31:58 2026-05-06 00:15:01

项目一：本地小模型数据脱敏系统

输入

原始文本数据（日志、表单、文档等）
包含敏感信息（身份证、手机号、地址、ip地址、系统名称、应用算法等）

架构

本地小模型（qwen2.5-14B）
语义化规则（通过自然语言描述敏感信息识别逻辑）
基于语义理解的识别策略（完全依赖模型理解，无正则规则）

流程

输入原始数据
基于语义规则直接进行敏感信息识别（无正则初筛）
LLM识别不同表达形式的敏感信息（包括隐式表达、变体表达）
根据字段类型执行脱敏策略（替换）
输出脱敏数据

关键点

本地部署，保证数据不出域
完全基于语义规则驱动识别逻辑
分级脱敏策略（不同字段不同处理方式）

价值

满足数据合规要求
提升复杂语义场景下的识别能力
可用于政企内网场景

优点

无需维护复杂正则规则
对变体表达和非标准文本更友好
规则表达更灵活（自然语言即可定义）

缺点 / 风险

小模型能力有限（复杂语义可能识别不准）
对模型依赖较强（稳定性受模型影响）
新类型敏感数据需要持续优化语义规则

项目二：销售话术 Agent（小样本驱动）

输入

历史聊天记录（销售和客户在企业微信的聊天记录）

架构

单 Agent(字节跳动的扣子创建的)
Prompt Engineering（角色 + 小样本（项目管理找的聊天案例））
上下文对话管理

流程

输入历史对话
分析对话上下文，识别当前客户阶段（价格异议 / 观望 / 成交阶段）
基于小样本示例生成下一步推荐话术
输出结构化结果（意图 + 阶段 + 推荐回复）

关键点

角色定义（销售专家）
Few-shot 示例控制输出风格
基于历史对话进行上下文推理
输出结构化（便于系统使用）

价值

提升销售转化效率
降低新人培训成本
标准化销售话术

优点

响应速度快
控制力强（风格统一）
实现简单，易落地

缺点 / 风险

泛化能力有限
依赖示例质量
无法动态扩展知识（无RAG）

项目三：OCR + LLM 文档结构化解析系统(支持本地化部署)

输入

PDF文件（包含扫描件）
图片内容（嵌入PDF或整页扫描）

架构

OCR（支持扫描件识别）
Qwen3.5-plus（结构化提取）
Workflow（流程编排）
数据入库模块

流程

OCR解析PDF（含扫描件）→ 转Markdown
文本分块（chunk）
Qwen3.5-plus提取结构化数据（JSON）
数据清洗与校验
入库

关键点

支持扫描件识别（OCR质量优化）
chunk策略（避免上下文丢失）
JSON强约束输出
异常重试机制（格式修复）
fallback兜底方案

价值

将扫描件和非结构化数据自动转结构化
几百页文档几分钟完成解析
替代大量人工录入

优点

支持扫描件解析（适用范围更广）
效率极高（自动化）
可扩展（适配多类型文档）
工程化程度高

缺点 / 风险

扫描件质量影响OCR准确率（目前ocr对图片识别精度不够，文本类较强）
OCR误差会传递到后续
Qwen3.5-plus输出不稳定（需约束）
大文件处理资源消耗高（正常文件大小都是几百页，无论ocr还是大模型都较慢）

项目四：AI审核系统（规则 + LLM）(支持本地化部署)

输入

PDF文件（原始审核材料）

架构

OCR + Qwen3.5-plus
Workflow
Prompt拼接机制（动态加载审核规范）
Human-in-the-loop（人工介入）

流程

输入PDF文件
OCR解析文档 → 转Markdown
将审核规范动态拼接到Prompt中
Qwen3.5-plus基于文档内容 + 审核规范进行逐条比对
生成审核问题及依据
输出审核明细
人工确认结果

关键点

审核规范不做结构化存储，而是在调用LLM时动态拼接进Prompt
审核本质是“比对 + 判断”，不是生成
强约束：必须引用原文证据
输出结构化（问题项 / 严重等级 / 依据）
支持人工兜底

价值

大幅减少人工审核时间
提高审核一致性
降低人为误差

优点

自动化程度高
结果可解释（有依据）
实现简单（无需额外知识库或RAG）

缺点 / 风险

Prompt长度受限（规范过多时可能超上下文）
审核规范更新需要同步调整Prompt
Qwen3.5-plus可能误判
审核结果仍需人工确认（不可完全替代）

总体总结

技术范式覆盖

Prompt Engineering（项目2）
单Agent（项目2）
Workflow编排（项目3、4）
本地模型应用（项目1）
规则引擎 + LLM融合（项目1、4）
OCR + LLM非结构化处理（项目3、4）

核心能力

非结构化数据处理（OCR + LLM）
AI + 业务规则融合（规则 + 模型协同）
Agent工程化落地（角色设计 + Few-shot控制）
输出结构化与系统集成能力（JSON Schema）
多轮上下文理解与对话控制
数据安全与本地化部署能力

工程经验

重试机制与异常处理（格式修复、失败重试）
输出约束（JSON Schema / 强结构化）
人工兜底设计（Human-in-the-loop）
流程编排能力（Workflow）
模型能力边界控制（避免幻觉、规则约束）