提示工程进阶：从基础到企业级Prompt系统设计

提示工程（Prompt Engineering）已经从"写好一句话"演变为一套系统化的工程方法论。本文将深入探讨企业级Prompt系统设计的核心技术，帮助你构建可靠、可维护、可评估的提示工程体系。

一、思维链（Chain-of-Thought）的工程实践

思维链提示（CoT）是让大模型进行复杂推理的关键技术。核心思想是在Prompt中引导模型逐步思考，而非直接输出答案。

零样本思维链只需在末尾加上"Let's think step by step"：

prompt = """
问题：一个水池有两个进水管，A管每小时注入3吨水，B管每小时注入5吨水。
水池容量为40吨，同时打开两管需要多少小时注满？

让我们一步一步思考。
"""

结构化思维链更适合企业场景，通过XML或JSON标签规范推理路径：

structured_cot = """
请按以下格式进行推理：
<thinking>
  <step1>识别已知条件</step1>
  <step2>建立数学模型</step2>
  <step3>逐步求解</step3>
  <step4>验证结果</step4>
</thinking>
<answer>最终答案</answer>

问题：{question}
"""

在LangSmith中，你可以追踪每一步的推理过程，定位模型"思考跑偏"的具体环节。

二、少样本学习（Few-shot）的策略设计

Few-shot不是随便塞几个例子，而是需要策略性地构建示例集。

关键原则： - 多样性覆盖：示例应涵盖边界情况和常见模式 - 格式一致性：所有示例的输入输出格式必须严格一致 - 难度递进：从简单到复杂排列，帮助模型建立解题思路

from langchain_core.prompts import FewShotChatMessagePromptTemplate

examples = [
    {"input": "退款申请，金额200元，购买7天内", "output": '{"action": "approve", "reason": "符合7天无理由退款"}'},
    {"input": "退款申请，金额5000元，购买30天", "output": '{"action": "manual_review", "reason": "金额较大需人工审核"}'},
    {"input": "退款申请，金额50元，已使用", "output": '{"action": "reject", "reason": "商品已使用不支持退款"}'},
]

example_prompt = ChatPromptTemplate.from_messages([
    ("human", "{input}"),
    ("ai", "{output}"),
])

few_shot_prompt = FewShotChatMessagePromptTemplate(
    example_prompt=example_prompt,
    examples=examples,
)

三、结构化输出与JSON Mode

企业级应用要求模型输出可解析的结构化数据。OpenAI的JSON Mode和Structured Outputs功能大幅降低了后处理成本。

from openai import OpenAI
from pydantic import BaseModel

class SentimentResult(BaseModel):
    sentiment: str  # positive, negative, neutral
    confidence: float
    keywords: list[str]
    summary: str

client = OpenAI()
completion = client.beta.chat.completions.parse(
    model="gpt-4o",
    messages=[
        {"role": "system", "content": "分析用户评论的情感倾向"},
        {"role": "user", "content": "这个产品质量不错，但物流太慢了"}
    ],
    response_format=SentimentResult,
)

result = completion.choices[0].message.parsed
print(result.sentiment)    # "mixed"
print(result.confidence)   # 0.85

这种方式保证输出100%符合schema，无需正则提取或错误重试。

四、Prompt模板引擎：LangSmith与Azure PromptFlow

企业级Prompt管理需要版本控制、A/B测试和监控能力。

LangSmith 提供了完整的Prompt生命周期管理：

from langsmith import Client

client = Client()

# 创建带版本的Prompt模板
prompt = client.push_prompt("customer-service-v3", object=ChatPromptTemplate.from_messages([
    ("system", "你是{company}的客服代表，使用{tone}语气，遵循以下规则：\n{rules}"),
    ("human", "{user_input}"),
]))

# 在线上拉取特定版本
prod_prompt = client.pull_prompt("customer-service-v3", tag="production")

Azure PromptFlow 提供了可视化的Prompt编排能力：

# flow.dag.yaml
inputs:
  question:
    type: string
outputs:
  answer:
    type: string
nodes:
  - name: classify_intent
    type: llm
    inputs:
      prompt: "判断用户意图类别：${inputs.question}"
      deployment_name: gpt-4o
  - name: retrieve_context
    type: python
    inputs:
      intent: ${classify_intent.output}
      embedding_model: text-embedding-3-large
  - name: generate_answer
    type: llm
    inputs:
      prompt: "基于以下上下文回答：${retrieve_context.output}\n问题：${inputs.question}"

五、System Prompt设计模式

高质量的System Prompt应遵循RACE框架：

Role（角色）：明确定义AI的身份和专业领域
Action（行动）：指定具体任务和输出要求
Context（上下文）：提供背景信息和约束条件
Example（示例）：给出期望的输出格式

system_prompt = """
# 角色
你是一名资深后端架构师，专注于分布式系统设计。

# 任务
根据用户需求，输出技术方案评审意见，包含：
1. 方案可行性评分（1-10）
2. 潜在风险点（用列表）
3. 改进建议

# 约束
- 评分低于6分的方案需给出替代方案
- 使用中文回答
- 引用具体技术栈名称（如Redis、Kafka等）

# 输出格式
JSON格式，字段：score, risks, suggestions, alternative
"""

六、Guardrails：Prompt安全防护

企业部署必须建立输入输出双向防护：

from guardrails import Guard
from guardrails.hub import CompetitorCheck, NoProfanity

# 输入防护
input_guard = Guard().use_many(
    NoProfanity(on_fail="exception"),
    CompetitorCheck(competitors=["竞品A", "竞品B"], on_fail="fix"),
)

# 输出防护
output_guard = Guard().use(
    RegexMatch(
        regex=r'^\{.*\}$',
        on_fail="reask"  # 输出不合规时重新提问
    )
)

def safe_llm_call(user_input: str):
    validated_input = input_guard.validate(user_input)
    response = client.chat.completions.create(
        model="gpt-4o",
        messages=[
            {"role": "system", "content": system_prompt},
            {"role": "user", "content": validated_input.validated_output},
        ],
        response_format={"type": "json_object"},
    )
    return output_guard.validate(response.choices[0].message.content)

七、Prompt评估指标体系

构建可量化的Prompt评估闭环：

准确性（Accuracy）：输出内容与预期结果的匹配度，使用ROUGE-L或精确匹配
一致性（Consistency）：多次调用同一输入的输出稳定程度
延迟（Latency）：首token时间和总生成时间
成本效率：每次调用消耗的token数与效果的比值

from deepeval import evaluate
from deepeval.metrics import FaithfulnessMetric, AnswerRelevancyMetric
from deepeval.test_case import LLMTestCase

test_case = LLMTestCase(
    input="如何配置Redis集群？",
    actual_output=model_response,
    retrieval_context=[redis_doc_chunk],
)

metrics = [
    FaithfulnessMetric(threshold=0.8),
    AnswerRelevancyMetric(threshold=0.7),
]

evaluate([test_case], metrics)

总结

企业级Prompt系统设计不是调参游戏，而是一套完整的工程实践。从思维链推理、少样本策略，到结构化输出、模板引擎、安全防护和评估闭环，每一层都需要系统化设计。建议从LangSmith或Azure PromptFlow起步，建立Prompt的版本管理和A/B测试能力，逐步构建适合业务场景的Prompt工程体系。

"提示工程进阶：从基础到企业级Prompt系统设计"