网站检测解决方案-单URL提交接口
网站检测解决方案适用于主动爬取目标网站资源,对目标资源多种类型媒体(文本、图片、点播音频、点播视频、文档)合并过检场景,提交接口用于检测数据的提交。
接口说明
主动爬取提交url的网页资源,检测并过滤该页面资源中的有害信息,保障网页资源内容安全(请确保url外网可访问)。建议您使用POST请求, 且仅接受 application/x-www-form-urlencoded 编码格式。
注意:本接口仅适用于外链检测场景,仅会对提交URL内容进行爬取检测,不会进行URL内跳转链接的深层次检测,如需多层爬虫检测,请移步系统手动创建爬虫检测任务;
鉴权说明
易盾内容安全服务使用签名方法对接口进行鉴权,所有接口每一次请求都需要包含签名信息(signature 参数),以验证用户身份,防止信息被恶意篡改。目前支持MD5,SHA1,SHA256,SM3几种加密算法,详细信息,请参见接口鉴权
检测数据要求
请确保待检测的网页URL是外网可访问的,同时对于爬取后的页面资源也有一定要求
文本要求
- 文本限制:页面文本长度超过1万字符时,会截断成多条数据进行检测
图片要求
- 图片支持类型:URL
- 图片支持格式:PNG、JPG、JPEG、BMP、GIF、WEBP、TIFF、ICO、HEIC
- 图片大小: 单张<10M,像素建议不低于50px*50px,像素过低会影响识别效果
- 图片下载:下载时间限制为5秒内,如果下载时间超过5秒,接口检测失败
- 截帧说明:易盾自动将GIF图,长图(长宽比大于5的图片)截帧过检,最多5张,GIF图,长图均按照实际截图张数进行计费
音频要求
- 音频支持类型:URL
- 音频支持格式:wav、mp3、aac、amr、3gp、m4a、wma、ogg、ape、flac、alac、wavpack、silk_v3等
- 音频大小: 音频文件大小不超过550M
- 音频时长: 时长小于5小时
- 音频下载:下载时间限制为5秒内,如果下载时间超过5秒,接口检测失败
视频要求
- 视频支持类型:URL
- 视频支持格式:flv、mkv 、mp4 、rmvb 、avi 、wmv、3gp、ts、mov、rm、mpeg、wmf等
- 视频时长: 时长小于5小时
- 视频下载:下载时间限制为5秒内,如果下载时间超过5秒,接口检测失败
检测耗时
网站检测接口为异步检测,检测结果耗时会因为目标网站的响应速度不同、页面数据量不同导致接口耗时也不同。提交检测数据时,因为检测流程是异步进行的,整体耗时较短,建议设置为200ms
历史版本
请求
名称 | 值 |
---|---|
HTTP URL | https://as.dun.163.com/v3/crawler/submit |
HTTP Method | POST |
请求头
名称 | 类型 | 必填 | 描述 |
---|---|---|---|
Content-Type | String | 是 | 固定值:"application/x-www-form-urlencoded" |
请求参数
请求参数由公共参数和业务参数两部分组成。
公共参数
公共参数包含密钥信息和参数签名信息,具体的公共参数请参考请求公共参数。
业务参数
参数名称 | 类型 | 是否必选 | 最大长度 | 描述 |
---|---|---|---|---|
version | String | Y | 4 | 版本号,目前版本号为 v3.0 |
dataId | String | Y | 128 | 上传数据唯一标识,能够根据该值定位到该条数据,如对数据结果有异议,可以发送该值给策略经理查询 |
url | String | Y | 1024 | 网页URL |
content | String | N | 10M | URL对应的HTML内容,当该参数有值时,即不再爬取url内容,将以传入的content作为检测内容。 |
checkFlags | String | Y | 1:检测文本,2:检测图片,4:检测点播音频,5:检测文档附件,6:检测点播音视频。如果同时检测文本+图片则以逗号分隔,例:"1,2"。 | |
callback | String | N | 512 | 数据回调参数,调用方根据业务情况自行设计,当调用主动检测离线结果获取接口时,该接口会原样返回该字段,详细见主动检测离线检测结果获取。作为数据处理标识,因此该字段应该设计为能唯一定位到该次请求的数据结构,如对用户的昵称进行检测,dataId可设为用户标识(用户ID),用户修改多次,每次请求数据的dataId可能一致,但是callback参数可以设计成定位该次请求的数据结构,比如callback字段设计成json,包含dataId和请求的时间戳等信息,当然如果不想做区分,也可以直接把callback设置成dataId的值。 |
callbackUrl | String | N | 1024 | 离线结果回调通知到客户的URL。主动回调数据接口超时时间设置为2s,为了保证顺利接收数据,需保证接收接口性能稳定并且保证幂等性。 |
account | String | N | 128 | 用户唯一标识,与易盾账号画像库匹配,建议抄送,辅助机审策略精准调优 |
ip | String | N | 128 | 用户IP地址,建议抄送,辅助机审策略精准调优 |
config | Obejct[] | N | 1024 | 音视频截帧高级设置,config为json数组格式,提交时转换为string类型 |
∟ type | String | Y | 10 | 类型,audiovideo:音视频 |
∟ config | Obejct | N | 128 | 检测数据配置 |
∟ scFrequency | Number | N | 4 | 截图检测频率,默认5秒截图检测一次,可设置范围为0.5~60秒 |
∟ advancedFrequency | String | N | 128 | 高级截帧设置,此项填写,默认截帧策略失效,如{"durationPoints":[300,600],"frequencies":[1,5,10]} |
∟ durationPoints | Object[] | Y | 5 | 视频时长区间分割,单位为秒,数组最多5个 |
∟ frequencies | Object[] | Y | 6 | 视频时长区间对应的截帧频率,可设置范围为0.5~600秒,数组最多6个 |
extension | Json | N | 30000(该字段为字节大小) | 自定义扩展参数,JSON字符串格式。如:"{"keyName1":"value1","keyName2":"value2"}" |
响应
响应结果
响应字段如下,响应通用字段已省略,详细见响应公共字段:
result 数据结构
参数名称 | 类型 | 描述 |
---|---|---|
result | Object | 网站提交响应结果 |
∟ taskId | String | 本次请求数据标识,可以根据该标识查询数据最新结果 |
∟ dataId | String | 上传数据唯一标识,能够根据该值定位到该条数据,如对数据结果有异议,可以发送该值给策略经理查询 |
响应示例
{
"code": 200,
"msg": "ok",
"result": {
"taskId": "079560a6c9f34783bdce47e168510038",
"dataId": "6a7c754f9de34eb8bfdf03f209fcfc02"
}
}
响应返回码
响应返回码见:响应返回码
示例代码
服务端 SDK 接入
推荐使用我们提供的服务端 SDK 进行接入(目前支持 Java 和 Go 两种语言),不但可以节省接入成本,实现更快速的集成,并享有灵活的请求配置选项,同时 SDK 内置了错误重试、熔断降级等功能,提升服务可用性。点击 服务端 SDK 接入指引 了解更多。