网站解决方案-主站检测任务提交接口

2022.12.08 11:08:47

    网站解决方案-主站检测任务提交接口用于提交待检测的网站任务,包括一次性任务和循环检测任务。主站URL会作为爬虫入口进行资源爬取,可以通过设置网站的爬取深度和最大爬取资源数来控制单次任务的结束条件。

    接口描述

    该接口为网站任务检测提交接口,支持http协议接口调用。支持一次性检测任务和周期性检测任务。

    检测数据要求

    待检测的网站必须是外网可以访问的,且网站的响应时间不能过长,否则容易导致页面爬取超时

    鉴权说明

    易盾内容安全服务使用签名方法对接口进行鉴权,所有接口每一次请求都需要包含签名信息(signature 参数),以验证用户身份,防止信息被恶意篡改。目前支持MD5,SHA1,SHA256,SM3几种加密算法,详细信息,请参见接口鉴权

    接口地址

    名称
    HTTP URL https://as.dun.163.com/v1/crawler/job/submit
    HTTP Method POST

    请求头

    名称 类型 必填 描述
    Content-Type String 固定值:"application/x-www-form-urlencoded"

    请求参数

    请求参数由公共参数和业务参数两部分组成

    公共参数

    公共参数包含密钥信息和参数签名信息,公共参数详细见请求公共参数

    业务参数

    名称 类型 必填 最大长度 描述
    version String 4 接口版本号,可选值v1.0
    dataId String N 128 数据唯一标识,能够根据该值定位到该条数据,如对数据结果有异议,可以发送该值给客户经理查询
    type Number Y 1 任务类型。0:循环任务,在sliceStartTime和sliceEndTime时间范围内,每隔frequency数值时间就会执行一次检测任务;1:单次任务,只执行一次的任务
    sliceStartTime Number N 13 循环任务开始时间。当type=0时,参数必填且必须大于当天的开始时间
    sliceEndTime Number N 13 循环任务截止时间。当type=0时,参数必填且必须大于sliceStartTime
    frequency Number Y 13 检测频率/多久爬取一次,单位毫秒。当type=0时,参数必填且不能小于一天
    siteUrl String Y 1024 主站URL,网站检测的入口,URL必须是外网可访问的,且以http开头
    level Number Y 1 爬虫深度/网站层级。1代表一层,2代表二层,以此类推,-1代表无限层
    maxResourceAmount Number Y 500000 单次任务周期内爬取页面的最大数量(如果是循环任务,则代表本次任务周期内的最大爬取数量)。maxResourceAmount和level用于控制任务什么时候结束,两个条件只要满足一个,任务就会结束,否则会爬取整个网站,直到所有页面都爬取完毕才退出任务
    checkFlags Array N 检测内容, 默认为1和2。1-检测文本,2-检测图片,4-检测点播音频,5-检测文档附件,6-检测点播音视频
    callbackUrl String N 1024 离线结果回调通知到客户的URL。主动回调数据接口超时时间设置为2s,为了保证顺利接收数据,需保证接收接口性能稳定并且保证幂等性。

    请求体示例

    {
        "siteUrl": "https://xxx.com",
        "secretKey": "xxx1",
        "level": "-1",
        "signature": "cf0b18c7250cb54ea513b176db67e5aa",
        "secretId": "xxx2",
        "signatureMethod": "MD5",
        "sliceStartTime": "1633680287444",
        "type": "0",
        "version": "v1.0",
        "nonce": "1633680308031",
        "frequency": "86400000",
        "maxResourceAmount": "100",
        "dataId": "2a94fecca74d431a97ee8d4667a6d0de",
        "sliceEndTime": "1633939487444",
        "timestamp": "1633680308030"
    }
    

    响应

    响应结果

    根据配置的同步结果返回和异步结果不同,响应结果的也有一定的区别,响应公共字段已省略,详细见响应公共字段

    名称 类型 描述
    result Object 点播视频异步提交检测结果
     ∟ jobId String 本次请求数据任务Id,可以根据该标识查询数据最新结果
     ∟ dataId String 数据标识,提交时传参内容

    响应体示例

    {
        "code": 200,
        "msg": "ok",
        "result": {
            "jobId": 107062,
            "dataId": "2a94fecca74d431a97ee8d4667a6d0de"
        }
    }
    

    响应返回码

    响应返回码见:响应返回码

    SDK接入方法

    为方便 JAVA 开发者调试和接入API,我们提供了配套的开发工具集(SDK),用于简化API接入流程。SDK中各接口调用方式基本相同,接入方式统一,并提供了一些接口调用过程中常见的异常处理方案。以下介绍了SDK的使用流程,以及首次使用SDK的简单示例。

    如果您使用的是其他语言,请参考各语言示例demo

    • 准备工作

    准备步骤详见通用步骤

    • 使用方法

    使用方法可参考使用SDK

    Online Chat Tel:95163223