32GB RAM'li bir bilgisayarda LLM modeli nasıl çalıştırılır - adım adım kılavuz
Bu kılavuzda, 32GB RAM'li bir bilgisayarda büyük dil modeli (LLM) nasıl çalıştırılacağına dair adım adım talimatlar vereceğiz. Aşağıdaki adımlar, Mistral 7B, Llama 2 veya benzer modelleri çalıştırma için gerekli ortamı kurmanıza ve yapılandırmanıza yardımcı olacak.
Önkoşullar
Başlamadan önce, bilgisayarınızın aşağıdaki önkoşulları karşıladığından emin olun:
- İşletim sistemi: Linux (önerilen) veya Windows 10/11
- İşlemci: Intel i7/i9 veya AMD Ryzen 7/9
- Bellek: 32GB
- Grafik kartı: En az 16GB VRAM'li NVIDIA (isteğe bağlı ama önerilen)
Adım 1: Ortamın Kurulması
Python'ın Kurulması
LLM modelini Python ortamında çalıştırın. Python'ın en yeni sürümünü (3.9 veya daha yeni) yükleyin:
sudo apt update
sudo apt install python3.9 python3-pip python3-venv
Sanal Ortamın Oluşturulması
Diğer paketlerle çatışmayı önlemek için bir sanal ortam oluşturun:
python3.9 -m venv llm_env
source llm_env/bin/activate
Adım 2: Gerekli Kütüphanelerin Kurulması
Gerekli kütüphaneleri, transformers ve torch dahil, yükleyin:
pip install torch transformers accelerate bitsandbytes
Eğer grafik kartınızı kullanmayı planlıyorsanız, CUDA desteği olan torch sürümünü yükleyin:
pip install torch --index-url https://download.pytorch.org/whl/cu118
Adım 3: Modelin Seçilmesi
Çalıştırmak istediğiniz modeli seçin. Bu örnekte Mistral 7B modelini kullanacağız. Hugging Face'dan indirebilirsiniz:
from transformers import AutoModelForCausalLM, AutoTokenizer
model_name = "mistralai/Mistral-7B"
tokenizer = AutoTokenizer.from_pretrained(model_name)
model = AutoModelForCausalLM.from_pretrained(model_name, device_map="auto")
Adım 4: Belleğin Yapılandırılması
32GB RAM'li bir bilgisayarda modeli çalıştırmak için belleği yapılandırmak ve aşırı yüklememek için accelerate kütüphanesi kullanın:
from accelerate import init_empty_weights, load_checkpoint_and_dispatch
model = AutoModelForCausalLM.from_pretrained(
model_name,
device_map="auto",
load_in_8bit=True # Bellek tasarrufu için 8-bit kuantizasyonunu kullanın
)
Adım 5: Modelin Çalıştırılması
Şimdi modeli çalıştırabilir ve metin oluşturabilirsiniz:
input_text = "Hayatın anlamı nedir?"
inputs = tokenizer(input_text, return_tensors="pt").to("cuda")
outputs = model.generate(**inputs, max_length=100)
print(tokenizer.decode(outputs[0], skip_special_tokens=True))
Adım 6: Optimizasyon
Performansı iyileştirmek için 4-bit kuantizasyon veya vLLM kütüphanesi gibi farklı optimizasyon tekniklerini deneyebilirsiniz:
from vllm import LLM
llm = LLM(model=model_name)
outputs = llm.generate(prompts=[input_text], max_tokens=100)
print(outputs[0].outputs[0].text)
Özet
32GB RAM'li bir bilgisayarda LLM modeli çalıştırmak, uygun yapılandırma ve optimizasyon gerektirir. Yukarıdaki adımlara uyarsanız, Mistral 7B gibi bir modeli çalıştırabilir ve metin oluşturabilirsiniz. Unutmayın ki performans, donanım özellikleriniz ve seçtiğiniz modelin özelliğine bağlı olarak değişebilir.