学了这么多,我去总结下之前的项目经历,免得会做不会说
Laiyong Wang Lv6

项目一:本地小模型数据脱敏系统

输入

  • 原始文本数据(日志、表单、文档等)
  • 包含敏感信息(身份证、手机号、地址、ip地址、系统名称、应用算法等)

架构

  • 本地小模型(qwen2.5-14B)
  • 语义化规则(通过自然语言描述敏感信息识别逻辑)
  • 基于语义理解的识别策略(完全依赖模型理解,无正则规则)

流程

  1. 输入原始数据
  2. 基于语义规则直接进行敏感信息识别(无正则初筛)
  3. LLM识别不同表达形式的敏感信息(包括隐式表达、变体表达)
  4. 根据字段类型执行脱敏策略(替换)
  5. 输出脱敏数据

关键点

  • 本地部署,保证数据不出域
  • 完全基于语义规则驱动识别逻辑
  • 分级脱敏策略(不同字段不同处理方式)

价值

  • 满足数据合规要求
  • 提升复杂语义场景下的识别能力
  • 可用于政企内网场景

优点

  • 无需维护复杂正则规则
  • 对变体表达和非标准文本更友好
  • 规则表达更灵活(自然语言即可定义)

缺点 / 风险

  • 小模型能力有限(复杂语义可能识别不准)
  • 对模型依赖较强(稳定性受模型影响)
  • 新类型敏感数据需要持续优化语义规则

项目二:销售话术 Agent(小样本驱动)

输入

  • 历史聊天记录(销售和客户在企业微信的聊天记录)

架构

  • 单 Agent(字节跳动的扣子创建的)
  • Prompt Engineering(角色 + 小样本(项目管理找的聊天案例))
  • 上下文对话管理

流程

  1. 输入历史对话
  2. 分析对话上下文,识别当前客户阶段(价格异议 / 观望 / 成交阶段)
  3. 基于 小样本 示例生成下一步推荐话术
  4. 输出结构化结果(意图 + 阶段 + 推荐回复)

关键点

  • 角色定义(销售专家)
  • Few-shot 示例控制输出风格
  • 基于历史对话进行上下文推理
  • 输出结构化(便于系统使用)

价值

  • 提升销售转化效率
  • 降低新人培训成本
  • 标准化销售话术

优点

  • 响应速度快
  • 控制力强(风格统一)
  • 实现简单,易落地

缺点 / 风险

  • 泛化能力有限
  • 依赖示例质量
  • 无法动态扩展知识(无RAG)

项目三:OCR + LLM 文档结构化解析系统(支持本地化部署)

输入

  • PDF文件(包含扫描件)
  • 图片内容(嵌入PDF或整页扫描)

架构

  • OCR(支持扫描件识别)
  • Qwen3.5-plus(结构化提取)
  • Workflow(流程编排)
  • 数据入库模块

流程

  1. OCR解析PDF(含扫描件)→ 转Markdown
  2. 文本分块(chunk)
  3. Qwen3.5-plus提取结构化数据(JSON)
  4. 数据清洗与校验
  5. 入库

关键点

  • 支持扫描件识别(OCR质量优化)
  • chunk策略(避免上下文丢失)
  • JSON强约束输出
  • 异常重试机制(格式修复)
  • fallback兜底方案

价值

  • 将扫描件和非结构化数据自动转结构化
  • 几百页文档几分钟完成解析
  • 替代大量人工录入

优点

  • 支持扫描件解析(适用范围更广)
  • 效率极高(自动化)
  • 可扩展(适配多类型文档)
  • 工程化程度高

缺点 / 风险

  • 扫描件质量影响OCR准确率(目前ocr对图片识别精度不够,文本类较强)
  • OCR误差会传递到后续
  • Qwen3.5-plus输出不稳定(需约束)
  • 大文件处理资源消耗高(正常文件大小都是几百页,无论ocr还是大模型都较慢)

项目四:AI审核系统(规则 + LLM)(支持本地化部署)

输入

  • PDF文件(原始审核材料)

架构

  • OCR + Qwen3.5-plus
  • Workflow
  • Prompt拼接机制(动态加载审核规范)
  • Human-in-the-loop(人工介入)

流程

  1. 输入PDF文件
  2. OCR解析文档 → 转Markdown
  3. 将审核规范动态拼接到Prompt中
  4. Qwen3.5-plus基于文档内容 + 审核规范进行逐条比对
  5. 生成审核问题及依据
  6. 输出审核明细
  7. 人工确认结果

关键点

  • 审核规范不做结构化存储,而是在调用LLM时动态拼接进Prompt
  • 审核本质是“比对 + 判断”,不是生成
  • 强约束:必须引用原文证据
  • 输出结构化(问题项 / 严重等级 / 依据)
  • 支持人工兜底

价值

  • 大幅减少人工审核时间
  • 提高审核一致性
  • 降低人为误差

优点

  • 自动化程度高
  • 结果可解释(有依据)
  • 实现简单(无需额外知识库或RAG)

缺点 / 风险

  • Prompt长度受限(规范过多时可能超上下文)
  • 审核规范更新需要同步调整Prompt
  • Qwen3.5-plus可能误判
  • 审核结果仍需人工确认(不可完全替代)

总体总结

技术范式覆盖

  • Prompt Engineering(项目2)
  • 单Agent(项目2)
  • Workflow编排(项目3、4)
  • 本地模型应用(项目1)
  • 规则引擎 + LLM融合(项目1、4)
  • OCR + LLM非结构化处理(项目3、4)

核心能力

  • 非结构化数据处理(OCR + LLM)
  • AI + 业务规则融合(规则 + 模型协同)
  • Agent工程化落地(角色设计 + Few-shot控制)
  • 输出结构化与系统集成能力(JSON Schema)
  • 多轮上下文理解与对话控制
  • 数据安全与本地化部署能力

工程经验

  • 重试机制与异常处理(格式修复、失败重试)
  • 输出约束(JSON Schema / 强结构化)
  • 人工兜底设计(Human-in-the-loop)
  • 流程编排能力(Workflow)
  • 模型能力边界控制(避免幻觉、规则约束)