BBS文档中心

Ctrl+K

数据清洗与预处理操作手册 (通用版)

type

Post

status

Published

date

Mar 2, 2026

slug

summary

tags

AI

category

AI

icon

password

😀

这是一份通俗易懂的数据清洗与预处理操作指南，即使没有技术背景的人员也可以参照执行。这份文档主要针对企业文档入库（如 Dify 知识库）的场景，目标是让大模型“看得懂、找得准”。

核心目标：把“乱码和废话”删掉，把“逻辑和关联”留下。

第一阶段：文件“大扫除”（格式清理）

在把文档上传到知识库之前，先用肉眼或简单的“查找替换”处理以下内容：

清理“无效零件”

页码/页眉/页脚： 批量删除文档中的“第 X 页”、“公司机密”、“版权所有”等重复信息。这些信息混在正文中会干扰语义块。

乱码修复： 检查是否有 PDF 转换带来的特殊符号（如 `` 或 * 等）。

多余空行： 删除连续的空行，只保留必要的段落分隔。

处理“视觉障碍”

图片处理： 如果图片里有重要文字，请手动把文字打出来放在图片下方。大模型目前主要识别文字，无法直接读取图片里的复杂逻辑。

流程图转换： 将流程图（如：A步->B步）改为文字描述：“如果发生 A 情况，则执行 B 动作”。

第二阶段：内容的“整容术”（结构优化）

让文档的结构像书本目录一样清晰，大模型检索时才不会“迷路”。

使用 Markdown 标记（非常重要）

标题层级： 使用 # 表示大标题，## 表示小标题。

加粗重点： 对核心术语、产品型号（如：BMC1101N）进行加粗。

列表对齐： 使用序号（1. 2. 3.）或圆点（-）列出要点，不要把所有内容挤成一大段。

示例：# 售后服务流程## 1. 退货申请### 1.1 申请条件

表格的“降维打击”

不要直接粘贴复杂表格： 复杂的 Excel 表格直接上传效果很差。

转换方法： 建议将表格转为 Markdown 格式，或采用“属性: 数值”的描述方式。

例子： 不要只留一个单元格写“Φ24*Φ14*35”，要写成“尺寸：Φ24*Φ14*35”，确保每一行数据都带着它的含义。

第三阶段：语义的“补全灯”（上下文强化）

大模型是靠“片段”检索的，所以每个片段都必须能独立表达意思。

主语补全

避免代词： 如果文中多次使用“它”、“该公司”、“这台机器”，请尽量替换为具体的名字。

修正前： “它的主板型号是 Z790。”

修正后： “这台桌面电脑的主板型号是 Z790。”

QA（问答对）化处理

针对常见问题，直接总结成问答格式。

格式： 问：如何处理服务器勒索病毒？

答：应当采取以下三步措施：1... 2... 3...

第四阶段：自检清单（上传前检查）

在点击“上传”到 Dify 之前，问自己三个问题：

独立性： 如果我只看这一段话，我能知道它在说什么吗？（如果不能，请加上主语）

整洁度： 文中还有没有奇怪的特殊符号或重复的页码？

逻辑感： 标题是否清晰？步骤是否带了序号？

BBS版本更新记录

客户存货编码匹配操作指南

Loading...

Catalog

Last update: 2026-03-02

🎉BBS文档中心已经上线🎉

-- 感谢您的支持 ---

如有任何疑问，请联系市场部-吕洋