Як запустити модель LLM на комп'ютері з 32ГБ ОЗП – посібник крок за кроком

У цьому посібнику ми розглянемо, як запустити модель великої мовної моделі (LLM) на комп'ютері з 32ГБ ОЗП. Наведені нижче кроки допоможуть вам встановити та налаштувати середовище для запуску моделей, таких як Mistral 7B, Llama 2 або інші подібні моделі.

Початкові вимоги

Перед початком переконайтеся, що ваш комп'ютер відповідає наступним вимогам:

Операційна система: Linux (рекомендовано) або Windows 10/11
Процесор: Intel i7/i9 або AMD Ryzen 7/9
Оперативна пам'ять: 32ГБ
Відеокарта: NVIDIA з щонайменше 16ГБ пам'яті VRAM (опціонально, але рекомендовано)

Крок 1: Встановлення середовища

Встановлення Python

Запустіть модель LLM у середовищі Python. Встановіть найновішу версію Python (3.9 або новішу):

sudo apt update
sudo apt install python3.9 python3-pip python3-venv

Створення віртуального середовища

Створіть віртуальне середовище, щоб уникнути конфліктів з іншими пакетами:

python3.9 -m venv llm_env
source llm_env/bin/activate

Крок 2: Встановлення необхідних бібліотек

Встановіть потрібні бібліотеки, включаючи transformers і torch:

pip install torch transformers accelerate bitsandbytes

Додатково, якщо ви плануєте використовувати відеокарту, встановіть відповідну версію torch з підтримкою CUDA:

pip install torch --index-url https://download.pytorch.org/whl/cu118

Крок 3: Вибір моделі

Виберіть модель, яку ви хочете запустити. У цьому прикладі ми використовуємо модель Mistral 7B. Ви можете завантажити її з Hugging Face:

from transformers import AutoModelForCausalLM, AutoTokenizer

model_name = "mistralai/Mistral-7B"
tokenizer = AutoTokenizer.from_pretrained(model_name)
model = AutoModelForCausalLM.from_pretrained(model_name, device_map="auto")

Крок 4: Налаштування пам'яті

Щоб запустити модель на комп'ютері з 32ГБ ОЗП, вам потрібно налаштувати пам'ять так, щоб уникнути переповнення. Це можна зробити, використовуючи бібліотеку accelerate:

from accelerate import init_empty_weights, load_checkpoint_and_dispatch

model = AutoModelForCausalLM.from_pretrained(
    model_name,
    device_map="auto",
    load_in_8bit=True  # Використовуйте 8-бітну квантизацію, щоб заощадити пам'ять
)

Крок 5: Запуск моделі

Тепер ви можете запустити модель і згенерувати текст:

input_text = "Який є сенс життя?"
inputs = tokenizer(input_text, return_tensors="pt").to("cuda")
outputs = model.generate(**inputs, max_length=100)
print(tokenizer.decode(outputs[0], skip_special_tokens=True))

Крок 6: Оптимізація

Щоб покращити продуктивність, ви можете спробувати різні техніки оптимізації, такі як 4-бітна квантизація або використання бібліотеки vLLM:

from vllm import LLM

llm = LLM(model=model_name)
outputs = llm.generate(prompts=[input_text], max_tokens=100)
print(outputs[0].outputs[0].text)

Підсумок

Запуск моделі LLM на комп'ютері з 32ГБ ОЗП вимагає відповідного налаштування та оптимізації. Дотримуючись наведених вище кроків, ви повинні змогти запустити модель, таку як Mistral 7B, і генерувати текст. Пам'ятайте, що продуктивність може залежати від специфіки вашого обладнання та вибраної моделі.