Deployment
การติดตั้งและ Deploy
รัน Nara AI บนอุปกรณ์, GPU เดี่ยว, Docker หรือ production cluster — ข้อมูลไม่ออกจากเครื่องคุณ
On-device (มือถือ)
สำหรับ iOS / Android ใช้โมเดล quantized 1.3B ที่รันได้บนเครื่อง:
# ดาวน์โหลดโมเดล GGUF (4-bit quantized, ~800MB)
nara load nara-ai-1.3b --format gguf --quantize q4
# ใช้ในแอป iOS (Swift)
let model = NaraModel.load("nara-ai-1.3b-q4.gguf")
let reply = try await model.ask("สวัสดีครับ") GPU เดี่ยว (16 GB)
รัน nara-ai-7b บนเครื่องเดียว เหมาะกับทีมเล็กและ development:
# ติดตั้ง
pip install nara-ai
# รันเป็น server
nara serve --model nara-ai-7b --port 8080
# ทดสอบ
curl http://localhost:8080/v1/chat \
-H "Content-Type: application/json" \
-d '{"messages":[{"role":"user","content":"สวัสดี"}]}' Docker
สำหรับ deployment ที่ทำซ้ำได้และง่าย:
# docker-compose.yml
version: "3.8"
services:
nara-ai:
image: naralab/nara-ai:latest
ports:
- "8080:8080"
environment:
- NARA_MODEL=nara-ai-7b
- NARA_DEVICE=cuda
- NARA_MAX_CONCURRENT=4
volumes:
- ./models:/app/models
- ./config.yaml:/app/config.yaml
deploy:
resources:
reservations:
devices:
- capabilities: [gpu] docker compose up -d Quantization
ลดขนาดโมเดลเพื่อรันบนฮาร์ดแวร์ที่เล็กลง โดยคุณภาพลดลงน้อยมาก:
# แปลงเป็น GGUF (สำหรับ llama.cpp / on-device)
nara quantize nara-ai-7b --format gguf --levels q4,q8
# แปลงเป็น int8 (สำหรับ GPU server)
nara quantize nara-ai-7b --format int8 --output ./nara-7b-int8 | ระดับ | ขนาดโมเดล | RAM ที่ต้องการ | คุณภาพ |
|---|---|---|---|
| FP16 (เต็ม) | 13 GB | 16 GB | 100% |
| INT8 | 7 GB | 8 GB | ~99% |
| Q4 (4-bit) | 4 GB | 6 GB | ~96% |
Production setup
สำหรับ traffic สูง ใช้หลาย instance + load balancer:
# config.yaml — ตั้งค่า production
server:
port: 8080
workers: 4
max_concurrent: 16
timeout: 60s
model:
name: nara-ai-7b
device: cuda
quantization: int8
cache_size: 1000 # KV cache entries
monitoring:
enable_metrics: true
prometheus_port: 9090
log_level: info License — Apache 2.0
📄 สิ่งที่คุณทำได้
- ใช้เชิงพาณิชย์ได้ — ไม่ต้องจ่ายค่า license
- แก้ไขและต่อยอดโค้ดได้
- เผยแพร่ต่อได้ (ต้องระบุว่ามาจาก Nara Lab)
- Deploy ในองค์กรโดยไม่ต้องแจ้งเรา
ดูรายละเอียดเต็มที่ Apache 2.0 License