Deployment

การติดตั้งและ Deploy

รัน Nara AI บนอุปกรณ์, GPU เดี่ยว, Docker หรือ production cluster — ข้อมูลไม่ออกจากเครื่องคุณ

On-device (มือถือ)

สำหรับ iOS / Android ใช้โมเดล quantized 1.3B ที่รันได้บนเครื่อง:

# ดาวน์โหลดโมเดล GGUF (4-bit quantized, ~800MB)
nara load nara-ai-1.3b --format gguf --quantize q4

# ใช้ในแอป iOS (Swift)
let model = NaraModel.load("nara-ai-1.3b-q4.gguf")
let reply = try await model.ask("สวัสดีครับ")

GPU เดี่ยว (16 GB)

รัน nara-ai-7b บนเครื่องเดียว เหมาะกับทีมเล็กและ development:

# ติดตั้ง
pip install nara-ai

# รันเป็น server
nara serve --model nara-ai-7b --port 8080

# ทดสอบ
curl http://localhost:8080/v1/chat \
  -H "Content-Type: application/json" \
  -d '{"messages":[{"role":"user","content":"สวัสดี"}]}'

Docker

สำหรับ deployment ที่ทำซ้ำได้และง่าย:

# docker-compose.yml
version: "3.8"
services:
  nara-ai:
    image: naralab/nara-ai:latest
    ports:
      - "8080:8080"
    environment:
      - NARA_MODEL=nara-ai-7b
      - NARA_DEVICE=cuda
      - NARA_MAX_CONCURRENT=4
    volumes:
      - ./models:/app/models
      - ./config.yaml:/app/config.yaml
    deploy:
      resources:
        reservations:
          devices:
            - capabilities: [gpu]

docker compose up -d

Quantization

ลดขนาดโมเดลเพื่อรันบนฮาร์ดแวร์ที่เล็กลง โดยคุณภาพลดลงน้อยมาก:

# แปลงเป็น GGUF (สำหรับ llama.cpp / on-device)
nara quantize nara-ai-7b --format gguf --levels q4,q8

# แปลงเป็น int8 (สำหรับ GPU server)
nara quantize nara-ai-7b --format int8 --output ./nara-7b-int8

ระดับ	ขนาดโมเดล	RAM ที่ต้องการ	คุณภาพ
FP16 (เต็ม)	13 GB	16 GB	100%
INT8	7 GB	8 GB	~99%
Q4 (4-bit)	4 GB	6 GB	~96%

Production setup

สำหรับ traffic สูง ใช้หลาย instance + load balancer:

# config.yaml — ตั้งค่า production
server:
  port: 8080
  workers: 4
  max_concurrent: 16
  timeout: 60s

model:
  name: nara-ai-7b
  device: cuda
  quantization: int8
  cache_size: 1000  # KV cache entries

monitoring:
  enable_metrics: true
  prometheus_port: 9090
  log_level: info

License — Apache 2.0

📄 สิ่งที่คุณทำได้

ใช้เชิงพาณิชย์ได้ — ไม่ต้องจ่ายค่า license
แก้ไขและต่อยอดโค้ดได้
เผยแพร่ต่อได้ (ต้องระบุว่ามาจาก Nara Lab)
Deploy ในองค์กรโดยไม่ต้องแจ้งเรา

ดูรายละเอียดเต็มที่ Apache 2.0 License

← Fine-tuning Playbooks →