4 个月前

缓存我如能:一种在线成本感知的教师-学生框架以减少对大型语言模型的调用次数

缓存我如能:一种在线成本感知的教师-学生框架以减少对大型语言模型的调用次数

摘要

大型语言模型(LLMs)在零样本和少样本设置中表现出色。因此,无法承担创建大规模特定任务训练数据集成本的小型和中型企业(SMEs)也越来越多地转向第三方服务,这些服务允许它们提示大型语言模型。然而,目前这些服务每次调用都需要付费,这成为了一项重要的运营支出(OpEx)。此外,客户输入随着时间的推移往往非常相似,导致中小企业频繁地向大型语言模型发送非常相似的请求。我们提出了一种框架,通过缓存之前的大型语言模型响应并利用这些响应训练本地低成本模型来减少对大型语言模型的调用次数。该框架包括决定何时信任本地模型或调用大型语言模型的标准,以及调整这些标准并衡量性能与成本之间权衡的方法论。为了实验目的,我们使用两个常见的商业任务——意图识别和情感分析——实例化了我们的框架,并选择了两种大型语言模型(GPT-3.5 或 GPT-4)和两种低成本的学生模型(k-近邻分类器或多层感知机)。实验结果表明,通过这种方法可以在性能略有下降的情况下显著降低运营支出。

代码仓库

stoyian/OCaTS
官方
pytorch
GitHub 中提及

基准测试

基准方法指标
intent-detection-on-banking77OCaTS (kNN-GPT-4)
Accuracy (%): 82.7
sentiment-analysis-on-imdbOCaTS (kNN & GPT-3.5-turbo
Accuracy: 93.06

用 AI 构建 AI

从想法到上线——通过免费 AI 协同编程、开箱即用的环境和市场最优价格的 GPU 加速您的 AI 开发

AI 协同编程
即用型 GPU
最优价格
立即开始

Hyper Newsletters

订阅我们的最新资讯
我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新
邮件发送服务由 MailChimp 提供
缓存我如能:一种在线成本感知的教师-学生框架以减少对大型语言模型的调用次数 | 论文 | HyperAI超神经