您现在的位置是: > 区块资讯区块资讯

AI模型“规模大”不再等于“效果好”

zhoucl 2025-01-10 13:41:06 区块资讯 已有人查阅

导读责编 | 夏萌

作者 | The Economist 译者 | 明明如月

责编 | 夏萌

出品 | CSDN(ID:CSDNnews)

图片

为了实现更强大的功能,AI 需要利用更少的资源。

“大型语言模型”(LLMs),如 OpenAI 的 GPT,是现代 AI 系统的核心。GPT-3 拥有 1750 亿个参数,训练耗资超过 460 万美元。然而,随着模型规模不断增长,成本和资源消耗也急剧增加。GPT-4 拥有约 1 万亿个参数,开发成本超过 1 亿美元。这种“越大越好”的趋势正面临挑战。

如果训练成本每十个月翻一倍,到 2026 年可能超过十亿美元。高质量文本数据也可能在相同时间内耗尽。此外,运行大型模型的成本也非常高。摩根士丹利估算,若 Google 搜索使用 GPT 类型程序处理,每年将多支出 60 亿美元。

因此,许多专家认为,继续依赖大规模模型已不可行。开发者需要在有限资源下提升性能。

量化紧缩

研究人员开始关注提高模型效率的方法。一种方法是减少参数数量并增加训练数据。Google 的 DeepMind 在 1.4 万亿字的语料库上训练了一个拥有 700 亿参数的 LLM Chinchilla,尽管参数比 GPT-3 少,但表现更好。

另一种方法是降低浮点数精度。奥地利科学技术研究所的研究人员证明,四舍五入可以大幅减少内存消耗,使模型在单个高端 GPU 上运行。

微调通用 LLM 以专注于特定任务也是一种方法。华盛顿大学的研究人员通过低秩自适应技术,在一天内用单个 GPU 创建了新模型 Guanaco,性能损失极小。这种方法使得计算能力较弱的设备也能胜任任务,提供更好的隐私保护。

Google 团队还开发了一种从大模型中提取知识并转化为小型专业化模型的方法。他们成功训练了一个 77 亿参数的学生模型,在特定任务上超过了 5400 亿参数的教师模型。

优化代码

更多地关注代码实现细节可以带来巨大收益。斯坦福大学的研究人员改进了注意力算法,使 GPT-2 的训练速度提高了三倍。

更好的工具也可以简化代码。Meta 发布的新版 PyTorch 框架使模型训练速度提高一倍。初创公司 Modular 推出的 Mojo 编程语言,基于 Python,代码运行速度可快数千倍。

改进运行代码的芯片也是关键。GPU 虽然适用于 AI 模型,但对于推理任务并不完美。Google、Meta 和 Amazon 正在设计更专业的硬件。

这些简单改变展示了巨大的性能提升潜力。未来,神经架构可能会更加先进,带来更多改进空间。

本文标签:

很赞哦! ()