Llama-3.2-3B 经过微调后,如何加载
要加载一个经过微调后的 LLaMA 模型(例如 Llama-3.2-3B),可以使用 Hugging Face 的 Transformers 库来简化这一过程。以下是如何加载并使用经过微调后的模型的步骤:
前提条件
确保您在微调过程中保存了模型以及相关的分词器。最常用的做法是将这些信息保存在特定目录中,这样可以方便地使用 from_pretrained
方法重新加载。
加载微调后的模型
环境准备
安装
transformers
和torch
:pip install transformers torch
确保您有模型的访问权限(如果在 Hugging Face Hub 上)。
代码示例
假设您在本地目录(比如 ./finetuned_model
)中保存了微调后的模型和分词器:
from transformers import LlamaTokenizer, LlamaForCausalLM
import torch
# 指定模型目录路径
model_directory = "./finetuned_model"
# 加载分词器
tokenizer = LlamaTokenizer.from_pretrained(model_directory)
# 加载经过微调的模型
model = LlamaForCausalLM.from_pretrained(model_directory, torch_dtype=torch.float16)
# 设置设备,如果有 GPU 可用
device = torch.device("cuda" if torch.cuda.is_available() else "cpu")
model.to(device)
# 示例:生成文本
input_text = "The key to life is"
inputs = tokenizer(input_text, return_tensors="pt").to(device)
outputs = model.generate(**inputs)
# 解码生成的文本
generated_text = tokenizer.decode(outputs[0], skip_special_tokens=True)
print(generated_text)
说明
- 模型保存:微调完成后,保存模型的方法通常如下:
model.save_pretrained("./finetuned_model") tokenizer.save_pretrained("./finetuned_model")
模型加载:
LlamaForCausalLM
是用于因果语言建模的 LLaMA 模型类。- 根据您的硬件环境,选择合适的数据类型(例如
torch.float16
可以在支持的 GPU 上加速推理)。
设备设置:在 GPU 上运行深度学习任务可以显著提高效率。
通过这些步骤,您可以加载和使用经过微调的 LLaMA 模型来执行生成任务。对于不同的任务和用例,您可能需要调整代码以满足特定需求。