网站检测提交接口
2021.05.20 14:21:17
接口地址
http://as.dun.163.com/v1/crawler/submit
接口描述
主动爬取提交url的网页资源,检测并过滤该页面资源中的有害信息,保障网页资源内容安全(请确保url外网可访问)。建议您使用POST请求, 且仅接受 application/x-www-form-urlencoded 编码格式。
注意
本接口仅适用于外链检测场景,仅会对提交URL内容进行爬取检测,不会进行URL内跳转链接的深层次检测,如需多层爬虫检测,请移步系统手动创建爬虫检测任务;
请求参数
公共参数已省略,详细见 请求公共参数,businessId可不传,其他参数如下:
参数名称 | 类型 | 是否必选 | 最大长度 | 描述 |
---|---|---|---|---|
version | String | Y | 4 | 接口版本v1.0为当前最新版本 |
dataId | String | Y | 128 | 数据唯一标识,能够根据该值定位到该条数据,如对数据结果有异议,可以发送该值给客户经理查询 |
url | String | Y | 512 | 网页URL, 支持contentType类型: html、txt、doc、docx、ppt、pptx、xls、xlsx、pdf |
checkFlags | String | Y | 10 | 1:检测文本,2:检测图片,同时检测文本+图片则以逗号分隔,例:1,2。 |
callback | String | N | 512 | 数据回调参数,调用方根据业务情况自行设计,当调用主动检测离线结果获取接口时,该接口会原样返回该字段,详细见主动检测离线检测结果获取。作为数据处理标识,因此该字段应该设计为能唯一定位到该次请求的数据结构,如对用户的昵称进行检测,dataId可设为用户标识(用户ID),用户修改多次,每次请求数据的dataId可能一致,但是callback参数可以设计成定位该次请求的数据结构,比如callback字段设计成json,包含dataId和请求的时间戳等信息,当然如果不想做区分,也可以直接把callback设置成dataId的值。 |
响应结果
响应字段如下,响应通用字段已省略,详细见响应通用字段:
result 数据结构
参数名称 | 类型 | 描述 |
---|---|---|
taskId | String | 本次请求数据标识,可以根据该标识查询数据最新结果 |
dataId | String | 数据唯一标识,能够根据该值定位到该条数据,如对数据结果有异议,可以发送该值给客户经理查询 |
响应示例
{
"code": 200,
"msg": "ok",
"result": {
"taskId": "079560a6c9f34783bdce47e168510038",
"dataId": "6a7c754f9de34eb8bfdf03f209fcfc02"
}
}