菜单

什么是文本文档?如何爬取网站、文档、文本语料?

HelpKnow.ai 支持爬取网站链接、本地文档、在线添加文本,爬取成功后,可查看具体切片,支持编辑、添加、删除切片。

 

点击“创建知识库”,选择“文本文档”。导入类型选择其中一个即可,后续可随时新增导入类型

 

网页爬取

网页爬取支持“全站导入”和“批量导入”。全站导入会爬取输入链接的相关的所有网页;批量导入会按照填写的链接进行爬取,一行一个,不会获取其他相关链接

*支持动态网站识别,如果爬取失败可勾选“动态网站识别”重新爬取

 

爬取完链接后,网站切片效果如下,支持编辑、添加、删除切片

 

本地文档

上传本地文件,转化为文本文档

*支持 PDF、TXT、DOCX、MD格式文件

 

在线添加

可直接在这里撰写文本,增加新的训练语料

 

常见问题:

1. 创建“在线文档”和“文本文档”有什么区别?应该怎么选择呢?

如果无需分享在线文档给用户查看,文档仅作为AI训练语料,推荐创建“文本文档”。

 

2. 为什么爬取网站链接出现乱码?

如果爬取网站链接出现乱码情况,可尝试勾选“网站动态识别”,重新爬取链接

上一个
知识库
下一个
什么是商品库?
最近修改: 2025-12-26SaleSmartly