网站检测解决方案-单URL提交接口

2024.03.26 10:06:06

    网站检测解决方案适用于主动爬取目标网站资源,对目标资源多种类型媒体(文本、图片、点播音频、点播视频、文档)合并过检场景,提交接口用于检测数据的提交。

    接口说明

    主动爬取提交url的网页资源,检测并过滤该页面资源中的有害信息,保障网页资源内容安全(请确保url外网可访问)。建议您使用POST请求, 且仅接受 application/x-www-form-urlencoded 编码格式。

    注意:本接口仅适用于外链检测场景,仅会对提交URL内容进行爬取检测,不会进行URL内跳转链接的深层次检测,如需多层爬虫检测,请移步系统手动创建爬虫检测任务;

    鉴权说明

    易盾内容安全服务使用签名方法对接口进行鉴权,所有接口每一次请求都需要包含签名信息(signature 参数),以验证用户身份,防止信息被恶意篡改。目前支持MD5,SHA1,SHA256,SM3几种加密算法,详细信息,请参见接口鉴权

    检测数据要求

    请确保待检测的网页URL是外网可访问的,同时对于爬取后的页面资源也有一定要求

    文本要求

    • 文本限制:页面文本长度超过1万字符时,会截断成多条数据进行检测

    图片要求

    • 图片支持类型:URL
    • 图片支持格式:PNG、JPG、JPEG、BMP、GIF、WEBP、TIFF、ICO、HEIC
    • 图片大小: 单张<10M,像素建议不低于50px*50px,像素过低会影响识别效果
    • 图片下载:下载时间限制为5秒内,如果下载时间超过5秒,接口检测失败
    • 截帧说明:易盾自动将GIF图,长图(长宽比大于5的图片)截帧过检,最多5张,GIF图,长图均按照实际截图张数进行计费

    音频要求

    • 音频支持类型:URL
    • 音频支持格式:wav、mp3、aac、amr、3gp、m4a、wma、ogg、ape、flac、alac、wavpack、silk_v3等
    • 音频大小: 音频文件大小不超过550M
    • 音频时长: 时长小于5小时
    • 音频下载:下载时间限制为5秒内,如果下载时间超过5秒,接口检测失败

    视频要求

    • 视频支持类型:URL
    • 视频支持格式:flv、mkv 、mp4 、rmvb 、avi 、wmv、3gp、ts、mov、rm、mpeg、wmf等
    • 视频时长: 时长小于5小时
    • 视频下载:下载时间限制为5秒内,如果下载时间超过5秒,接口检测失败

    检测耗时

    网站检测接口为异步检测,检测结果耗时会因为目标网站的响应速度不同、页面数据量不同导致接口耗时也不同。提交检测数据时,因为检测流程是异步进行的,整体耗时较短,建议设置为200ms

    历史版本

    v2版本网站检测解决方案-单url提交接口请点此查看

    请求

    名称
    HTTP URL https://as.dun.163.com/v3/crawler/submit
    HTTP Method POST

    请求头

    名称 类型 必填 描述
    Content-Type String 固定值:"application/x-www-form-urlencoded"

    请求参数

    请求参数由公共参数和业务参数两部分组成。

    公共参数

    公共参数包含密钥信息和参数签名信息,具体的公共参数请参考请求公共参数

    业务参数

    参数名称 类型 是否必选 最大长度 描述
    version String Y 4 版本号,目前版本号为 v3.0
    dataId String Y 128 上传数据唯一标识,能够根据该值定位到该条数据,如对数据结果有异议,可以发送该值给策略经理查询
    url String Y 1024 网页URL
    content String N 10M URL对应的HTML内容,当该参数有值时,即不再爬取url内容,将以传入的content作为检测内容。
    checkFlags String Y 1:检测文本,2:检测图片,4:检测点播音频,5:检测文档附件,6:检测点播音视频。如果同时检测文本+图片则以逗号分隔,例:"1,2"。
    callback String N 512 数据回调参数,调用方根据业务情况自行设计,当调用主动检测离线结果获取接口时,该接口会原样返回该字段,详细见主动检测离线检测结果获取。作为数据处理标识,因此该字段应该设计为能唯一定位到该次请求的数据结构,如对用户的昵称进行检测,dataId可设为用户标识(用户ID),用户修改多次,每次请求数据的dataId可能一致,但是callback参数可以设计成定位该次请求的数据结构,比如callback字段设计成json,包含dataId和请求的时间戳等信息,当然如果不想做区分,也可以直接把callback设置成dataId的值。
    callbackUrl String N 1024 离线结果回调通知到客户的URL。主动回调数据接口超时时间设置为2s,为了保证顺利接收数据,需保证接收接口性能稳定并且保证幂等性。
    config Obejct[] N 1024 音视频截帧高级设置,config为json数组格式,提交时转换为string类型
     ∟ type String Y 10 类型,audiovideo:音视频
     ∟ config Obejct N 128 检测数据配置
      ∟ scFrequency Number N 4 截图检测频率,默认5秒截图检测一次,可设置范围为0.5~60秒
      ∟ advancedFrequency String N 128 高级截帧设置,此项填写,默认截帧策略失效,如{"durationPoints":[300,600],"frequencies":[1,5,10]}
       ∟ durationPoints Object[] Y 5 视频时长区间分割,单位为秒,数组最多5个
       ∟ frequencies Object[] Y 6 视频时长区间对应的截帧频率,可设置范围为0.5~600秒,数组最多6个

    响应

    响应结果

    响应字段如下,响应通用字段已省略,详细见响应公共字段

    result 数据结构

    参数名称 类型 描述
    result Object 网站提交响应结果
     ∟ taskId String 本次请求数据标识,可以根据该标识查询数据最新结果
     ∟ dataId String 上传数据唯一标识,能够根据该值定位到该条数据,如对数据结果有异议,可以发送该值给策略经理查询

    响应示例

    {
        "code": 200,
        "msg": "ok",
        "result": {
            "taskId": "079560a6c9f34783bdce47e168510038",
            "dataId": "6a7c754f9de34eb8bfdf03f209fcfc02"
        }
    }
    

    响应返回码

    响应返回码见:响应返回码

    示例代码

    服务端 SDK 接入

    推荐使用我们提供的服务端 SDK 进行接入(目前支持 Java 和 Go 两种语言),不但可以节省接入成本,实现更快速的集成,并享有灵活的请求配置选项,同时 SDK 内置了错误重试、熔断降级等功能,提升服务可用性。点击 服务端 SDK 接入指引 了解更多。

    Github Demo 地址

    Gitee Demo 地址(Github 无法访问时选择)

    HTTP API 接入

    Github Demo 地址

    Gitee Demo 地址(Github 无法访问时选择)

    在线咨询 电话咨询:95163223 免费试用