数据清洗与预处理操作手册 (通用版)
type
Post
status
Published
date
Mar 2, 2026
slug
summary
tags
AI
category
AI
icon
password
这是一份通俗易懂的数据清洗与预处理操作指南,即使没有技术背景的人员也可以参照执行。这份文档主要针对企业文档入库(如 Dify 知识库)的场景,目标是让大模型“看得懂、找得准”。
核心目标:把“乱码和废话”删掉,把“逻辑和关联”留下。
第一阶段:文件“大扫除”(格式清理)
在把文档上传到知识库之前,先用肉眼或简单的“查找替换”处理以下内容:
- 清理“无效零件”
- 页码/页眉/页脚: 批量删除文档中的“第 X 页”、“公司机密”、“版权所有”等重复信息。这些信息混在正文中会干扰语义块。
- 乱码修复: 检查是否有 PDF 转换带来的特殊符号(如 `` 或 * 等)。
- 多余空行: 删除连续的空行,只保留必要的段落分隔。
- 处理“视觉障碍”
- 图片处理: 如果图片里有重要文字,请手动把文字打出来放在图片下方。大模型目前主要识别文字,无法直接读取图片里的复杂逻辑。
- 流程图转换: 将流程图(如:A步->B步)改为文字描述:“如果发生 A 情况,则执行 B 动作”。
第二阶段:内容的“整容术”(结构优化)
让文档的结构像书本目录一样清晰,大模型检索时才不会“迷路”。
- 使用 Markdown 标记(非常重要)
- 标题层级: 使用
#表示大标题,##表示小标题。 - 加粗重点: 对核心术语、产品型号(如:BMC1101N)进行加粗。
- 列表对齐: 使用序号(1. 2. 3.)或圆点(-)列出要点,不要把所有内容挤成一大段。
- 示例:# 售后服务流程## 1. 退货申请### 1.1 申请条件
- 表格的“降维打击”
- 不要直接粘贴复杂表格: 复杂的 Excel 表格直接上传效果很差。
- 转换方法: 建议将表格转为 Markdown 格式,或采用“属性: 数值”的描述方式。
- 例子: 不要只留一个单元格写“Φ24*Φ14*35”,要写成“尺寸:Φ24*Φ14*35”,确保每一行数据都带着它的含义。
第三阶段:语义的“补全灯”(上下文强化)
大模型是靠“片段”检索的,所以每个片段都必须能独立表达意思。
- 主语补全
- 避免代词: 如果文中多次使用“它”、“该公司”、“这台机器”,请尽量替换为具体的名字。
- 修正前: “它的主板型号是 Z790。”
- 修正后: “这台桌面电脑的主板型号是 Z790。”
- QA(问答对)化处理
- 针对常见问题,直接总结成问答格式。
- 格式: 问: 如何处理服务器勒索病毒?
答: 应当采取以下三步措施:1... 2... 3...
第四阶段:自检清单(上传前检查)
在点击“上传”到 Dify 之前,问自己三个问题:
独立性: 如果我只看这一段话,我能知道它在说什么吗?(如果不能,请加上主语)
整洁度: 文中还有没有奇怪的特殊符号或重复的页码?
逻辑感: 标题是否清晰?步骤是否带了序号?
Prev
BBS版本更新记录
Next
客户存货编码匹配操作指南
Loading...