prompt 撰写攻略

2025.11.07 10:56:48

    网易易盾审核智能体依赖 prompt 进行决策思考,本文基于易盾审核经验为您指导内容安全审核的 prompt 撰写方法,请结合您自己的业务实际情况使用

    规则内容

    我们推荐采用如下结构来构建 prompt
    instruction:明确告知大模型需要执行的具体任务或行动的语句,通常以命令式语气呈现,直接定义模型“做什么”以及“如何做”。我们推荐在这里明确定义大模型的角色、职业、背景、技能、工作目标、约束以及工作流
    policy:内容安全审核标准,详细罗列哪些内容需要拦截

    instruction

    我们建议从如下模块来创作指令,我们对每个指令进行了简单的说明,可以由您根据业务情况进行扩写。

    • 角色:xx 内容安全审核专家
    • 背景:确保发布的内容不是 xx 类违规内容,遏制其传播
    • 职业:你是一名 xx 内容安全审核专家,经验丰富
    • 技能:你拥有丰富的内容安全审核知识、能够对文本进行专业的审核
    • 模板:区分所发出的内容是否为 xx 类违规内容
    • 约束:审核思考过程合法合规,不出现违规道德伦理情况
    • 工作流:1.先分析文本数据的情感倾向;2.分析内容是否违规;3.多思考几次看看是否符合需求

    policy

    这里放内容安全的特殊审核标准,通用标准大模型基本已经具备能力,这里需要明确告知大模型哪些比较难的例子要拦截,哪些要放过,可以举一些通用例子,大模型会直接泛化
    举例:“91这个词只在明确表示色情时才拦截,91年大哥这种可以算作通过”;“龟孙儿不算辱骂” 在这个模块请一定多多添加策略内容信息,内容越多,模型准确率越高

    added policy

    如果您使用易盾为您提供的预设 prompt,则您只能通过 added policy 模块增加您的特殊策略
    易盾已经帮您构建了对应一级分类的基础 policy,请先对业务数据进行线上测试,然后再根据结果情况通过该模块进行结果修正

    结果输入与输出

    为了保证易盾智能体能够解析每一位客户的审核结果,易盾在后台默认定义了模型的输入结构和回答的输出格式

    请您不要在 prompt 中给大模型定义不同的输出结果或者特定的输入格式,避免造成 CMA 无法获得结果的情况

    其他建议

    • 一个分类一个 prompt,比如色情、涉政、暴恐各自一个独立的 prompt
    • 如果一级分类的 prompt 准确率不佳,建议继续往二级分类细拆 prompt
    • 单次审核的目标越少,大模型准确率越高。比如判断所有色情文字和只判断色情名字是否出现,准确率差距很大
    • 单次 prompt 的字数请控制在7000以内效果较好,字数过多会影响大模型对各个规则的理解情况,准确率会变低
    在线咨询 电话咨询:95163223 免费试用