32GB RAM वाले कंप्यूटर पर LLM मॉडल चलाने का चरण-दर-चरण गाइड

इस गाइड में, हम बताएंगे कि 32GB RAM वाले कंप्यूटर पर एक बड़े भाषा मॉडल (LLM) को कैसे चलाया जाए। नीचे दिए गए चरणों का पालन करके आप Mistral 7B, Llama 2 या ऐसे ही अन्य मॉडल चलाने के लिए आवश्यक सॉफ्टवेयर इंस्टॉल और कॉन्फ़िगर कर सकते हैं।

प्रारंभिक आवश्यकताएँ

शुरू करने से पहले, सुनिश्चित करें कि आपका कंप्यूटर निम्नलिखित आवश्यकताओं को पूरा करता है:

ऑपरेटिंग सिस्टम: लिनक्स (सिफ़ारिश की जाती है) या विंडोज़ 10/11
प्रोसेसर: इंटेल i7/i9 या AMD राइज़न 7/9
RAM: 32GB
ग्राफ़िक्स कार्ड: कम से कम 16GB VRAM वाला NVIDIA (वैकल्पिक, लेकिन सिफ़ारिश की जाती है)

चरण 1: एन्वायरनमेंट इंस्टॉल करना

Python इंस्टॉल करना

LLM मॉडल को Python एन्वायरनमेंट में चलाएं। Python के नवीनतम संस्करण (3.9 या नया) को इंस्टॉल करें:

sudo apt update
sudo apt install python3.9 python3-pip python3-venv

वर्चुअल एन्वायरनमेंट बनाना

अन्य पैकेजों के साथ संघर्ष से बचने के लिए एक वर्चुअल एन्वायरनमेंट बनाएं:

python3.9 -m venv llm_env
source llm_env/bin/activate

चरण 2: आवश्यक लाइब्रेरीज इंस्टॉल करना

transformers और torch सहित आवश्यक लाइब्रेरीज इंस्टॉल करें:

pip install torch transformers accelerate bitsandbytes

अगर आप ग्राफ़िक्स कार्ड का उपयोग करने की योजना बना रहे हैं, तो CUDA सपोर्ट के साथ torch का उपयुक्त संस्करण इंस्टॉल करें:

pip install torch --index-url https://download.pytorch.org/whl/cu118

चरण 3: मॉडल चुनना

उसे चलाने के लिए मॉडल चुनें। इस उदाहरण में, हम Mistral 7B मॉडल का उपयोग करेंगे। आप इसे Hugging Face से डाउनलोड कर सकते हैं:

from transformers import AutoModelForCausalLM, AutoTokenizer

model_name = "mistralai/Mistral-7B"
tokenizer = AutoTokenizer.from_pretrained(model_name)
model = AutoModelForCausalLM.from_pretrained(model_name, device_map="auto")

चरण 4: मेमोरी कॉन्फ़िगरेशन

32GB RAM वाले कंप्यूटर पर मॉडल चलाने के लिए, मेमोरी को कॉन्फ़िगर करें ताकि ओवरफ्लो से बचा जा सके। आप accelerate लाइब्रेरी का उपयोग करके ऐसा कर सकते हैं:

from accelerate import init_empty_weights, load_checkpoint_and_dispatch

model = AutoModelForCausalLM.from_pretrained(
    model_name,
    device_map="auto",
    load_in_8bit=True  # मेमोरी बचाने के लिए 8-बिट क्वांटाइजेशन का उपयोग करें
)

चरण 5: मॉडल चलाना

अब आप मॉडल चलाकर टेक्स्ट जनरेट कर सकते हैं:

input_text = "जीवन का मतलब क्या है?"
inputs = tokenizer(input_text, return_tensors="pt").to("cuda")
outputs = model.generate(**inputs, max_length=100)
print(tokenizer.decode(outputs[0], skip_special_tokens=True))

चरण 6: ऑप्टिमाइज़ेशन

प्रदर्शन को सुधारने के लिए, आप 4-बिट क्वांटाइजेशन या vLLM लाइब्रेरी का उपयोग करने जैसे विभिन्न ऑप्टिमाइज़ेशन तकनीकों का प्रयास कर सकते हैं:

from vllm import LLM

llm = LLM(model=model_name)
outputs = llm.generate(prompts=[input_text], max_tokens=100)
print(outputs[0].outputs[0].text)

सारांश

32GB RAM वाले कंप्यूटर पर LLM मॉडल चलाना उचित कॉन्फ़िगरेशन और ऑप्टिमाइज़ेशन की आवश्यकता है। ऊपर दिए गए चरणों का पालन करके, आप Mistral 7B जैसे मॉडल चलाकर टेक्स्ट जनरेट कर सकते हैं। याद रखें कि प्रदर्शन आपकी हार्डवेयर की विशिष्टताओं और चुने गए मॉडल पर निर्भर कर सकता है।