Prompt Cache
概述
Stima API 包含一個強大的提示快取(Prompt Cache)功能,可以顯著提升系統效能,減少重複請求的處理時間,並降低 API 成本。當相同的提示(prompt)被多次請求時,系統會直接從快取中返回結果,而無需重新呼叫上游 AI 模型。
功能特點
核心優勢
- 效能提升: 快取命中可將響應時間從秒級降至毫秒級
- 成本節省: 減少對上游 AI 提供商的 API 呼叫,降低使用成本
- 精準匹配: 支援精確匹配的快取響應
- 自動管理: 內建 TTL(Time To Live)機制自動清理過期快取
技術架構
- 快取策略: LRU(Least Recently Used)淘汰策略
- 容錯機制: 快取失效時自動降級到正常請求流程
使用方式
快取策略
快取鍵生成
系統使用以下資訊生成唯一的快取鍵:
- 模型名稱
- 提示內容(prompt)
- 系統訊息(system message)
- 溫度參數(temperature)
- 其他相關參數
快取命中條件
快取命中需要滿足以下條件:
- 完全相同的提示內容
- 相同的模型和參數設定
- 快取項目未過期
- 快取大小未超過限制
快取失效機制
快取會在以下情況失效:
- 超過 TTL 的時間
- Redis 儲存空間不足
- 手動清除快取
- 系統重啟(如果未持久化)