ข้อมูล
ชุดข้อมูล กำลังจัดทำ
เรายังไม่ได้เผยแพร่ชุดข้อมูลสาธารณะ — แต่มีข้อมูลภายในที่ใช้ฝึกโมเดลอยู่ และกำลังเตรียมชุด benchmark ภาษาไทยเพื่อเปิดให้ใช้
ที่ใช้ฝึกโมเดล
ใช้ภายในโครงการ — ยังไม่เปิดให้ดาวน์โหลด
CPT 语料 — 泰语持续预训练语料 ~144M token(CulturaX + Pantip)
ภายใน SFT 数据 — 指令微调数据(含法律/数学/agent 领域变体)
ภายใน NaraEval-TH — 泰语评测框架(8 维度,200 题,双判官)— 评测进行中
กำลังสร้าง ชุด benchmark ที่จะมา
กำลังจัดทำ — ยังไม่สามารถดาวน์โหลดได้
TH-MMLU 泰语多任务理解评测(多学科选择题) TH-MBPP 泰语 Python 编程评测 ThaiDial 泰语对话数据集 เราจัดการข้อมูลอย่างไร
เปิดเผยแหล่งที่มา
เราระบุแหล่งข้อมูลและ license ของทุกชุดที่ใช้ฝึก
เคารพ license
ใช้เฉพาะข้อมูลที่อนุญาตให้ใช้ในการฝึกโมเดล
ค่อยเป็นค่อยไป
ปล่อยชุดข้อมูลสาธารณะเมื่อพร้อมและตรวจสอบแล้ว ไม่รีบ