Llama-3.2-3B 经过微调后，如何加载

要加载一个经过微调后的 LLaMA 模型（例如 Llama-3.2-3B），可以使用 Hugging Face 的 Transformers 库来简化这一过程。以下是如何加载并使用经过微调后的模型的步骤：

前提条件

确保您在微调过程中保存了模型以及相关的分词器。最常用的做法是将这些信息保存在特定目录中，这样可以方便地使用 from_pretrained 方法重新加载。

加载微调后的模型

环境准备

安装transformers和torch：
```
pip install transformers torch  
```
确保您有模型的访问权限（如果在 Hugging Face Hub 上）。

代码示例

假设您在本地目录（比如 ./finetuned_model）中保存了微调后的模型和分词器：

from transformers import LlamaTokenizer, LlamaForCausalLM  
import torch  
# 指定模型目录路径  
model_directory = "./finetuned_model"  
# 加载分词器  
tokenizer = LlamaTokenizer.from_pretrained(model_directory)  
# 加载经过微调的模型  
model = LlamaForCausalLM.from_pretrained(model_directory, torch_dtype=torch.float16)  
# 设置设备，如果有 GPU 可用  
device = torch.device("cuda" if torch.cuda.is_available() else "cpu")  
model.to(device)  
# 示例：生成文本  
input_text = "The key to life is"  
inputs = tokenizer(input_text, return_tensors="pt").to(device)  
outputs = model.generate(**inputs)  
# 解码生成的文本  
generated_text = tokenizer.decode(outputs[0], skip_special_tokens=True)  
print(generated_text)

说明

模型保存：微调完成后，保存模型的方法通常如下：
model.save_pretrained("./finetuned_model") tokenizer.save_pretrained("./finetuned_model")
模型加载：
- LlamaForCausalLM 是用于因果语言建模的 LLaMA 模型类。
- 根据您的硬件环境，选择合适的数据类型（例如 torch.float16 可以在支持的 GPU 上加速推理）。
设备设置：在 GPU 上运行深度学习任务可以显著提高效率。

通过这些步骤，您可以加载和使用经过微调的 LLaMA 模型来执行生成任务。对于不同的任务和用例，您可能需要调整代码以满足特定需求。

遇到难题？ "AI大模型GPT4.0、GPT" 是你的私人解答专家！点击按钮去提问......

前提条件

加载微调后的模型

环境准备

代码示例

说明

举报评论

删除

删除后，将不可回复，确认要删除？

提示

复制代码，请先登录