大多數大型語言模型(LLM)都無法在消費者硬體上進行微調。例如，650億個參數模型需要超過780 Gb的GPU記憶體。這相當于10個A100 80gb的gpu。就算我們使用雲伺服器，花費的開銷也不是所有人都能夠承擔的。

而QLoRa (Dettmers et al.， 2023)，隻需使用一個A100即可完成此操作。

在這篇文章中将介紹QLoRa。包括描述它是如何工作的，以及如何使用它在GPU上微調具有200億個參數的GPT模型。

為了進行示範，本文使用nVidia RTX 3060 12 GB來運作本文中的所有指令。這樣可以保證小顯存的要求，并且也保證可以使用免費的Google Colab執行個體來實作相同的結果。但是，如果你隻有較小記憶體的GPU，則必須使用較小的LLM。

QLoRa: Quantized LLMs with Low-Rank Adapters

2021年6月，釋出的LoRa讓我們的微調變得簡單，我也在以前的文章中也有過介紹。

LoRa為LLM的每一層添加了少量的可訓練參數（擴充卡），并當機了所有原始參數。這樣對于微調，隻需要更新擴充卡權重，這可以顯著減少記憶體占用。

而QLoRa更進一步，引入了4位量化、雙量化和利用nVidia統一記憶體進行分頁。

簡而言之，QLoRa工作原理如下:

4位NormalFloat量化:這是一種改進量化的方法。它確定每個量化倉中有相同數量的值。這避免了計算問題和異常值的錯誤。
雙量化:QLoRa的作者将其定義如下“對量化常量再次量化以節省額外記憶體的過程。”
統一記憶體分頁:它依賴于NVIDIA統一記憶體管理，自動處理CPU和GPU之間的頁到頁傳輸。它可以保證GPU處理無錯，特别是在GPU可能耗盡記憶體的情況下。

所有這些步驟都大大減少了微調所需的記憶體，同時性能幾乎與标準微調相當。

使用QLoRa對GPT模型進行微調

硬體要求：

下面的示範工作在具有12gb VRAM的GPU上，用于參數少于200億個模型，例如GPT-J。

如果你有一個更大的卡，比如24gb的VRAM，則可以用一個200億個參數的模型，例如GPT-NeoX-20b。

記憶體建議至少6 Gb，這個條件現在都能滿足對吧

GPT-J和GPT-NeoX-20b都是非常大的模型。是以硬碟議至少有100gb的可用空間。

如果你的機器不滿足這些要求，可以使用Google Colab的免費執行個體，因為它就足夠使用了。

軟體要求:

必須要CUDA。這是肯定的。然後還需要一些依賴:

bitsandbytes:包含量化LLM所需的所有庫。
Hugging Face的Transformers和Accelerate:這些是标準庫，用于訓練模型。
PEFT:提供了各種微調方法的實作，我們隻需要裡面的LoRa。
資料集:自己的資料集，這裡安裝了Hugging Face的datasets，這個是備選，裝不裝無所謂，因為這玩意挺難用的

PIP安裝指令如下：

pip install -q -U bitsandbytes
pip install -q -U git+https://github.com/huggingface/transformers.git 
pip install -q -U git+https://github.com/huggingface/peft.git
pip install -q -U git+https://github.com/huggingface/accelerate.git
pip install -q datasets

下面就是Python代碼

1、GPT模型的加載與量化

我們需要以下導入來加載和量化LLM。

import torch
from transformers import AutoTokenizer, AutoModelForCausalLM, BitsAndBytesConfig

我們将對EleutherAI預訓練的GPT NeoX模型進行微調。這是一個有200億個參數的模型。注意:GPT NeoX具有允許商業使用的寬松許可證(Apache 2.0)。

可以從hug Face Hub獲得這個模型和相關的标記器:

model_name = "EleutherAI/gpt-neox-20b"
#Tokenizer
tokenizer = AutoTokenizer.from_pretrained(model_name)

然後配置量化器，如下所示:

quant_config = BitsAndBytesConfig(
load_in_4bit=True,
bnb_4bit_use_double_quant=True,
bnb_4bit_quant_type="nf4",
bnb_4bit_compute_dtype=torch.bfloat16
)

load_in_4bit:模型将以4位精度加載到記憶體中。
bnb_4bit_use_double_quant:QLoRa提出的雙量化。
bnb_4bit_quant_type:這是量化的類型。“nf4”代表4位的NormalFloat。
bnb_4bit_compute_dtype:當以4位加載和存儲模型時，在需要時對其進行部分量化，并以16位精度(bfloat16)進行所有計算。

然後就可以加載4位模型:

model = AutoModelForCausalLM.from_pretrained(model_name, quantization_config=quant_config, device_map={"":0})

下一步啟用梯度檢查點，這樣可以減少記憶體占用，但是速度會稍微降低一些:

model.gradient_checkpointing_enable()

2、LoRa的GPT模型預處理

為LoRa準備模型，為每一層添加可訓練的擴充卡。

from peft import prepare_model_for_kbit_training, LoraConfig, get_peft_model
model = prepare_model_for_kbit_training(model)
config = LoraConfig(
r=8, 
lora_alpha=32, 
target_modules=["query_key_value"], 
lora_dropout=0.05, 
bias="none", 
task_type="CAUSAL_LM"
)
model = get_peft_model(model, config)

在LoraConfig中，可以使用r、alpha和dropout來獲得更好的任務結果。具體内容可以在PEFT文檔中找到更多選項和詳細資訊。

使用LoRa，我們隻添加了800萬個參數。并且隻訓練這些參數，這樣使得微調很快。

3、資料集

對于這個示範，我們使用“english_quotes”資料集。這是一個由名言組成的資料集，在CC BY 4.0許可下釋出。我們為了友善使用datasets直接加載。

from datasets import load_dataset
data = load_dataset("Abirate/english_quotes")
data = data.map(lambda samples: tokenizer(samples["quote"]), batched=True)

4、微調

微調的代碼非常标準

import transformers
tokenizer.pad_token = tokenizer.eos_token
trainer = transformers.Trainer(
model=model,
train_dataset=data["train"],
args=transformers.TrainingArguments(
per_device_train_batch_size=1,
gradient_accumulation_steps=8,
warmup_steps=2,
max_steps=20,
learning_rate=2e-4,
fp16=True,
logging_steps=1,
output_dir="outputs",
optim="paged_adamw_8bit"
),
data_collator=transformers.DataCollatorForLanguageModeling(tokenizer, mlm=False),
)
trainer.train()

要記住optim=”paged_adamw_8bit”。它将使用分頁實作更好的記憶體管理。沒有它可能會出現記憶體不足錯誤。

在Google Colab上運作這個微調隻需要5分鐘。VRAM消耗的峰值是15gb。

它有用嗎?讓我們試試推理。

基于QLoRa推理

微調的QLoRa模型可以直接與标準的Transformers的推理一起使用，如下所示:

text = "Ask not what your country"
device = "cuda:0"
inputs = tokenizer(text, return_tensors="pt").to(device)
outputs = model.generate(**inputs, max_new_tokens=20)
print(tokenizer.decode(outputs[0], skip_special_tokens=True))

你應該得到這樣的輸出:

Ask not what your country can do for you, ask what you can do for your country.”
– John F.

5分鐘的微調效果還可以吧。

總結

LoRa讓我們的微調變得簡單，而QLoRa可以讓我們使用消費級的GPU對具有10億個參數的模型進行微調，并且根據QLoRa論文，性能不會顯著下降。

作者：Benjamin Marie

QLoRa：在消費級GPU上微調大型語言模型

QLoRa: Quantized LLMs with Low-Rank Adapters

使用QLoRa對GPT模型進行微調

基于QLoRa推理

總結

繼續閱讀

超越資料收集：訓練大型語言模型 (LLM) 的微妙現實

微軟開源TypeChat庫，給大語言模型換種提示，1行代碼安裝

【360智腦App現已登陸蘋果AppStore】AI奇點網7月24日報道丨360公司旗下AI大語言模型的移動端應用産品”

AI基礎：一文看懂BERT

蜜度智能校對服務全新更新！蜜度文修大語言模型能力已在校對通産品功能中落地運作，将大資料與大模型的優勢充分疊加，并實作應用

LoRa和Sigfox的強強聯手，預示着IoT變革之路的到來

基于BERT的新聞文本分類

制作一個有趣的QQ機器人QQ機器人簡介機器人制作方法結尾

AI繪畫|Stable Diffusion——常用LoRa模型推薦（一）

AI繪畫|Stable Diffusion常用LoRa模型推薦（二）——細節、背景

DevOps 是否已死？AI 和大語言模型給雲計算和 DevOps 帶來了哪些影響

WIFI無線傳輸子產品使用 ESP8266晶片方案接入雲平台的方法

大語言模型(LLMs)的相關理論分析、應用、更新疊代進展

在大語言模型時代，AI Chatbots下一步将走向何方？

詞向量與Embedding究竟是怎麼回事？

機器是如何學會說話的？大型語言模型揭秘之旅！