ข้ามไปเนื้อหา
ข้อมูล

ชุดข้อมูล กำลังจัดทำ

เรายังไม่ได้เผยแพร่ชุดข้อมูลสาธารณะ — แต่มีข้อมูลภายในที่ใช้ฝึกโมเดลอยู่ และกำลังเตรียมชุด benchmark ภาษาไทยเพื่อเปิดให้ใช้

ข้อมูลภายใน

ที่ใช้ฝึกโมเดล

ใช้ภายในโครงการ — ยังไม่เปิดให้ดาวน์โหลด

CPT 语料 — 泰语持续预训练语料 ~144M token(CulturaX + Pantip)
ภายใน
SFT 数据 — 指令微调数据(含法律/数学/agent 领域变体)
ภายใน
NaraEval-TH — 泰语评测框架(8 维度,200 题,双判官)— 评测进行中
กำลังสร้าง
วางแผนเผยแพร่

ชุด benchmark ที่จะมา

กำลังจัดทำ — ยังไม่สามารถดาวน์โหลดได้

TH-MMLU 泰语多任务理解评测(多学科选择题)
ระหว่างจัดทำ
TH-MBPP 泰语 Python 编程评测
วางแผน
ThaiDial 泰语对话数据集
วางแผน
หลักการ

เราจัดการข้อมูลอย่างไร

เปิดเผยแหล่งที่มา

เราระบุแหล่งข้อมูลและ license ของทุกชุดที่ใช้ฝึก

เคารพ license

ใช้เฉพาะข้อมูลที่อนุญาตให้ใช้ในการฝึกโมเดล

ค่อยเป็นค่อยไป

ปล่อยชุดข้อมูลสาธารณะเมื่อพร้อมและตรวจสอบแล้ว ไม่รีบ