32GB RAM वाले कंप्यूटर पर LLM मॉडल चलाने का चरण-दर-चरण गाइड
इस गाइड में, हम बताएंगे कि 32GB RAM वाले कंप्यूटर पर एक बड़े भाषा मॉडल (LLM) को कैसे चलाया जाए। नीचे दिए गए चरणों का पालन करके आप Mistral 7B, Llama 2 या ऐसे ही अन्य मॉडल चलाने के लिए आवश्यक सॉफ्टवेयर इंस्टॉल और कॉन्फ़िगर कर सकते हैं।
प्रारंभिक आवश्यकताएँ
शुरू करने से पहले, सुनिश्चित करें कि आपका कंप्यूटर निम्नलिखित आवश्यकताओं को पूरा करता है:
- ऑपरेटिंग सिस्टम: लिनक्स (सिफ़ारिश की जाती है) या विंडोज़ 10/11
- प्रोसेसर: इंटेल i7/i9 या AMD राइज़न 7/9
- RAM: 32GB
- ग्राफ़िक्स कार्ड: कम से कम 16GB VRAM वाला NVIDIA (वैकल्पिक, लेकिन सिफ़ारिश की जाती है)
चरण 1: एन्वायरनमेंट इंस्टॉल करना
Python इंस्टॉल करना
LLM मॉडल को Python एन्वायरनमेंट में चलाएं। Python के नवीनतम संस्करण (3.9 या नया) को इंस्टॉल करें:
sudo apt update
sudo apt install python3.9 python3-pip python3-venv
वर्चुअल एन्वायरनमेंट बनाना
अन्य पैकेजों के साथ संघर्ष से बचने के लिए एक वर्चुअल एन्वायरनमेंट बनाएं:
python3.9 -m venv llm_env
source llm_env/bin/activate
चरण 2: आवश्यक लाइब्रेरीज इंस्टॉल करना
transformers और torch सहित आवश्यक लाइब्रेरीज इंस्टॉल करें:
pip install torch transformers accelerate bitsandbytes
अगर आप ग्राफ़िक्स कार्ड का उपयोग करने की योजना बना रहे हैं, तो CUDA सपोर्ट के साथ torch का उपयुक्त संस्करण इंस्टॉल करें:
pip install torch --index-url https://download.pytorch.org/whl/cu118
चरण 3: मॉडल चुनना
उसे चलाने के लिए मॉडल चुनें। इस उदाहरण में, हम Mistral 7B मॉडल का उपयोग करेंगे। आप इसे Hugging Face से डाउनलोड कर सकते हैं:
from transformers import AutoModelForCausalLM, AutoTokenizer
model_name = "mistralai/Mistral-7B"
tokenizer = AutoTokenizer.from_pretrained(model_name)
model = AutoModelForCausalLM.from_pretrained(model_name, device_map="auto")
चरण 4: मेमोरी कॉन्फ़िगरेशन
32GB RAM वाले कंप्यूटर पर मॉडल चलाने के लिए, मेमोरी को कॉन्फ़िगर करें ताकि ओवरफ्लो से बचा जा सके। आप accelerate लाइब्रेरी का उपयोग करके ऐसा कर सकते हैं:
from accelerate import init_empty_weights, load_checkpoint_and_dispatch
model = AutoModelForCausalLM.from_pretrained(
model_name,
device_map="auto",
load_in_8bit=True # मेमोरी बचाने के लिए 8-बिट क्वांटाइजेशन का उपयोग करें
)
चरण 5: मॉडल चलाना
अब आप मॉडल चलाकर टेक्स्ट जनरेट कर सकते हैं:
input_text = "जीवन का मतलब क्या है?"
inputs = tokenizer(input_text, return_tensors="pt").to("cuda")
outputs = model.generate(**inputs, max_length=100)
print(tokenizer.decode(outputs[0], skip_special_tokens=True))
चरण 6: ऑप्टिमाइज़ेशन
प्रदर्शन को सुधारने के लिए, आप 4-बिट क्वांटाइजेशन या vLLM लाइब्रेरी का उपयोग करने जैसे विभिन्न ऑप्टिमाइज़ेशन तकनीकों का प्रयास कर सकते हैं:
from vllm import LLM
llm = LLM(model=model_name)
outputs = llm.generate(prompts=[input_text], max_tokens=100)
print(outputs[0].outputs[0].text)
सारांश
32GB RAM वाले कंप्यूटर पर LLM मॉडल चलाना उचित कॉन्फ़िगरेशन और ऑप्टिमाइज़ेशन की आवश्यकता है। ऊपर दिए गए चरणों का पालन करके, आप Mistral 7B जैसे मॉडल चलाकर टेक्स्ट जनरेट कर सकते हैं। याद रखें कि प्रदर्शन आपकी हार्डवेयर की विशिष्टताओं और चुने गए मॉडल पर निर्भर कर सकता है।