ILMU ซึ่งเป็นแบบจำลองภาษาขนาดใหญ่ (LLM) ที่ผลิตในประเทศมาเลเซียทั้งหมดเป็นครั้งแรกคือ เปิดตัว ในกัวลาลัมเปอร์ในเดือนสิงหาคมโดย YTL AI Labs Sdn Bhd ซึ่งเป็นบริษัทในเครือของ YTL Power International Bhd เพื่อพัฒนาขีดความสามารถด้าน AI ที่เป็นอิสระสำหรับมาเลเซีย ตัวย่อ ILMU ย่อมาจาก “Intelek Luhur Malaysia Untukmu” หรือแปลเป็นภาษาอังกฤษว่า “Malaysian Intellect Integrity for You” ซึ่งแสดงถึงสติปัญญาของมาเลเซีย พัฒนาในมาเลเซีย เพื่อชาวมาเลเซีย
LLM ได้รับการฝึกฝนโดยใช้ภาษา ข้อมูล และบริบททางวัฒนธรรมของมาเลเซีย โดยเข้าใจและตอบสนองด้วยภาษามาเลย์ Manglish (ภาษาอังกฤษแบบมาเลเซีย) และภาษาถิ่นในภูมิภาค เช่น กลันตัน ทั้งในรูปแบบข้อความ เสียง และภาพ
w.media สัมภาษณ์ศาสตราจารย์ Chan Chee Seng คณะวิทยาศาสตร์คอมพิวเตอร์และเทคโนโลยีสารสนเทศ, มหาวิทยาลัยมาลายา สำหรับการเจาะลึกเกี่ยวกับ ILMU Chan เป็นผู้นำทีมของมหาวิทยาลัยที่ร่วมมือกับ YTL AI Labs
คำถามที่ 1 โครงการ ILMU เริ่มต้นเมื่อใดโครงการ ILMU มีต้นกำเนิดย้อนกลับไปในช่วงต้นปี 2023 ที่มหาวิทยาลัยมาลายา ซึ่งเริ่มต้นในฐานะโครงการปีสุดท้ายโดยนักศึกษา 3 คน (Lawerence Chieng, Jeraelyn Tan และ Jia Xuan) เป้าหมายเริ่มต้นของพวกเขาคือการศึกษา ChatGPT ซึ่งเพิ่งเปิดตัวเมื่อปลายปี 2022 โดยเน้นเป็นพิเศษที่การทำความเข้าใจและบรรเทาปัญหาภาพหลอนในแบบจำลองภาษาขนาดใหญ่ สิ่งที่เริ่มต้นจากการเป็นความพยายามในการวิจัยที่นำโดยนักเรียน ได้รับแรงผลักดันอย่างรวดเร็ว และภายในปลายปี 2023 ได้พัฒนาไปสู่โครงการริเริ่มระดับชาติเต็มรูปแบบที่นำโดย YTL AI Labs โดยความร่วมมือกับมหาวิทยาลัยมาลายา การเปลี่ยนแปลงจากการวิจัยของนักเรียนไปสู่แบบจำลองพื้นฐานที่เป็นอิสระซึ่งได้รับการฝึกฝนตั้งแต่เริ่มต้นนี้ เน้นย้ำถึงท่อส่งความสามารถและขีดความสามารถด้านนวัตกรรมของมาเลเซีย ทำให้มั่นใจได้ว่า ILMU เป็นทั้งทรัพย์สินทางปัญญาของมาเลเซียอย่างแท้จริงและมีรากฐานอย่างลึกซึ้งในบริบทระดับชาติของเรา
ILMU ถูกสร้างขึ้นตั้งแต่เริ่มต้นในฐานะแบบจำลองพื้นฐาน ไม่ใช่เวอร์ชันที่ปรับแต่งอย่างละเอียดบนแพลตฟอร์มอื่น เราไม่ได้อยู่คนเดียวในทิศทางนี้ ตัวอย่างเช่น ผู้บุกเบิกในท้องถิ่นเช่น Mesolitica ซึ่งพัฒนา MaLLaM โดยใช้ GPU Nvidia A100 ประมาณ 10 โหนด ได้แสดงให้เห็นว่าเป็นไปได้สำหรับชาวมาเลเซียในการสร้างแบบจำลองภาษาขนาดใหญ่อย่างอิสระ ILMU ก้าวไปไกลกว่านั้นมาก ได้รับการฝึกฝนบนโหนด GPU มากกว่า 100 โหนด ซึ่งมีขนาดใหญ่กว่ามาก ทำให้เรามีความสามารถในการแข่งขันกับระบบชั้นนำของโลก
เพื่อให้แน่ใจว่า ILMU ไม่เพียงแต่มีความสามารถทางเทคนิคเท่านั้น แต่ยังเป็นมาเลเซียอย่างลึกซึ้ง เรายังได้สร้าง MalayMMLU ซึ่งเป็นเกณฑ์มาตรฐานเฉพาะสำหรับ Bahasa Malaysia เกณฑ์มาตรฐานนี้ได้รับการยอมรับใน Empirical Methods in Natural Language Processing (EMNLP) ซึ่งเป็นการประชุม NLP ชั้นนำแห่งหนึ่งของโลก ทำให้มาเลเซียได้รับการยอมรับในเวทีโลก ในขณะเดียวกันก็ทำให้มั่นใจได้ว่า ILMU ได้รับการฝึกฝน ทดสอบ และตรวจสอบความถูกต้องสำหรับบริบทของมาเลเซีย
ในเกณฑ์มาตรฐาน MalayMMLU ILMU ทำคะแนนได้ 87.2% เหนือกว่าแบบจำลองเช่น GPT-5, GPT-4o และ DeepSeek-V3
คำถามที่ 2 คุณได้รับข้อมูลที่จำเป็นสำหรับการฝึกอบรม/อนุมานอย่างไรข้อมูลการฝึกอบรมของ ILMU ได้รับการดูแลจัดการอย่างพิถีพิถันจากแหล่งต่างๆ เพื่อรองรับการฝึกอบรมล่วงหน้าและแอปพลิเคชันปลายน้ำ ซึ่งรวมถึง:
- ข้อมูลที่เปิดเผยต่อสาธารณะ
- คลังข้อมูลของบุคคลที่สามที่ได้รับอนุญาต
- แหล่งข้อมูลที่เน้นมาเลเซีย เช่น สื่อการศึกษา วัฒนธรรม และภาครัฐ
ข้อมูลภาษามาเลย์เป็นพื้นที่ที่มีทรัพยากรต่ำทั่วโลก และนั่นคือเหตุผลที่ ILMU มีอยู่ ความท้าทายไม่ได้อยู่ที่ปริมาณเท่านั้น แต่ยังอยู่ที่คุณภาพและความเกี่ยวข้องด้วย เพื่อแก้ไขปัญหานี้ เราขยายคลังข้อมูลของเราผ่านความร่วมมือกับสถาบันและชุมชนในท้องถิ่น การดูแลจัดการแหล่งที่เชื่อถือได้อย่างเข้มงวด และการสร้างข้อมูลสังเคราะห์ที่นำโดยมนุษย์เพื่อเติมเต็มช่องว่างในหัวข้อที่ด้อยโอกาส
นอกจากนี้ เรายังมีทีมข้อมูลภายในองค์กรโดยเฉพาะ ซึ่งรับประกันคำอธิบายประกอบ การกรอง และการตรวจสอบความถูกต้องที่มีคุณภาพสูง เพื่อให้ ILMU สะท้อนถึงความหลากหลายทางภาษาและความหลากหลายทางวัฒนธรรมของมาเลเซีย
กล่าวโดยสรุป ในขณะที่ LLM ทั่วโลกอาจสามารถเข้าถึงข้อมูลดิบได้มากกว่าโดยรวม แต่ ILMU ถูกสร้างขึ้นบน ‘ข้อมูลที่ถูกต้อง’ สำหรับมาเลเซีย
คำถามที่ 3 คุณสามารถยกตัวอย่างแหล่งข้อมูลสำหรับไลบรารี ILMU ได้หรือไม่ตัวอย่าง ได้แก่:
- เนื้อหาที่สอดคล้องกับหลักสูตร ครอบคลุมวิชาในโรงเรียนประถมถึงมัธยมศึกษา
- ข้อมูลความหลากหลายทางภาษา รวมถึงวรรณกรรม hikayat, ภาษาบาฮาซาปาซาร์ที่ใช้พูดกัน และภาษาบาฮาซาอิสตานาหลวง
- เนื้อหาทางวัฒนธรรม เช่น อาหารมาเลเซีย (ondeh-ondeh, satay), เกมดั้งเดิม (congkak, wau) และสถานที่สำคัญ (Batu Caves, Petronas Towers) สำหรับการวางรากฐานด้านวิสัยทัศน์
- คลังข้อมูลเสียงที่ครอบคลุมการพูดสำเนียงมาเลเซีย ภาษาถิ่น และการสลับรหัส
คำถามที่ 4 มีผู้เกี่ยวข้องจำนวนเท่าใดพูดตามตรง ฉันอาจจะนับจำนวนไม่ได้แล้ว แต่แน่นอนว่ามีผู้คนมากกว่า 100 คนที่เกี่ยวข้องกับการเดินทางของ ILMU ไม่ทางใดก็ทางหนึ่ง มันไปไกลกว่าแค่ทีมวิจัยหลัก: ตั้งแต่ครูในโรงเรียนที่ช่วยทำเครื่องหมายกระดาษเกณฑ์มาตรฐาน PT3 ของ ILMU ไปจนถึงนักศึกษาฝึกงาน วิศวกร นักวิชาการ และนักวิจัยในอุตสาหกรรมที่สนับสนุนขั้นตอนต่างๆ ของการพัฒนา
เรายังต้องการรับทราบถึงชุมชนโอเพนซอร์ส ทั้งในมาเลเซียและต่างประเทศ ซึ่งเครื่องมือและข้อมูลเชิงลึกของพวกเขาช่วยนำทางเรา ระบบนิเวศของการแบ่งปันนั้นเป็นส่วนหนึ่งที่ทำให้โครงการต่างๆ เช่น ILMU ประสบความสำเร็จ แต่สิ่งสำคัญคือต้องเน้นย้ำว่า ILMU ถูกสร้างขึ้นโดยชาวมาเลเซีย ในมาเลเซีย เพื่อชาวมาเลเซีย สถาปัตยกรรม การฝึกอบรม และการปรับใช้ได้รับการนำโดยที่นี่ ทำให้มั่นใจได้ว่าทรัพย์สินทางปัญญาและการวางรากฐานทางวัฒนธรรมยังคงเป็นอิสระ
คำถามที่ 5 มีความปลอดภัยจากข้อมูลรั่วไหลและแฮกเกอร์มากน้อยเพียงใด ความปลอดภัยเป็นหนึ่งในเสาหลักการออกแบบหลักของ ILMU เราแยกแยะข้อมูลออกเป็นสองประเภทอย่างชัดเจน:
- ข้อมูลการฝึกอบรม → น้ำหนักของแบบจำลอง
- ข้อมูลทั้งหมดที่ใช้ในการฝึกอบรม ILMU จะถูกแปลงเป็นน้ำหนักของแบบจำลองผ่านกระบวนการฝึกอบรม เมื่อการฝึกอบรมเสร็จสิ้น แบบจำลองจะไม่จัดเก็บหรือเปิดเผยข้อมูลการฝึกอบรมดิบ
- ILMU ให้บริการผ่าน API แบบปิด ซึ่งหมายความว่าการเข้าถึงถูกควบคุมและไม่สามารถดึงข้อมูลภายในผ่านการสืบค้นมาตรฐานได้
- ระบบทั้งหมดโฮสต์อยู่ในมาเลเซีย เป็นเจ้าของและดำเนินการในประเทศอย่างเต็มรูปแบบ สิ่งนี้ทำให้มั่นใจได้ว่าทั้งโครงสร้างพื้นฐานด้านการคำนวณและอำนาจอธิปไตยของข้อมูลอยู่ภายใต้การควบคุมของมาเลเซีย
- ข้อมูลป้อนเข้าของผู้ใช้ → ข้อมูลรันไทม์
- การสืบค้นของผู้ใช้จะได้รับการจัดการในขณะรันไทม์และไม่ได้รวมอยู่ในน้ำหนักของแบบจำลองพื้นฐาน ข้อมูลเหล่านั้นยังคงอยู่ชั่วคราวและได้รับการคุ้มครองภายใต้โปรโตคอลความเป็นส่วนตัวและการกำกับดูแลข้อมูลที่เข้มงวด
- เราใช้เลเยอร์ป้องกันที่ทั้งขั้นตอนการป้อนข้อมูลและเอาต์พุต ซึ่งรวมถึงแนวทางที่ได้รับแรงบันดาลใจจาก Llama Guard ตัวอย่างเช่น ซึ่งให้การกรองขณะรันไทม์สำหรับข้อความแจ้งที่เป็นอันตราย การฉีดข้อความแจ้ง และเอาต์พุตที่ไม่ปลอดภัย
- มีการตรวจสอบเพิ่มเติมและการตรวจสอบการจัดแนวโดยความร่วมมือกับพันธมิตรด้านความปลอดภัย AI ที่เชื่อถือได้ เพื่อให้มั่นใจว่าระบบเป็นไปตามความคาดหวังด้านกฎระเบียบในท้องถิ่นและแนวทางปฏิบัติที่ดีที่สุดระดับโลก
ในระดับระบบ ILMU ใช้การป้องกันในเชิงลึก: การจัดเก็บข้อมูลที่เข้ารหัส การควบคุมการเข้าถึงตามบทบาท การแยกเครือข่าย และการตรวจสอบอย่างต่อเนื่อง การประเมินความปลอดภัยได้รับการเปรียบเทียบกับ SafetyBench ซึ่ง ILMU แสดงให้เห็นถึงความยืดหยุ่นที่แข็งแกร่งต่อข้อความแจ้งที่ไม่ปลอดภัย
หลักการชี้นำของเรานั้นชัดเจน: เปิดเท่าที่จะเป็นไปได้ ปิดเมื่อจำเป็น ซึ่งหมายถึงการแบ่งปันการวิจัย เกณฑ์มาตรฐาน และการเรียนรู้โดยเปิดเผย ในขณะเดียวกันก็รักษาโครงสร้างพื้นฐานและ API ที่ละเอียดอ่อนให้ปลอดภัยอย่างแน่นหนา เพื่อปกป้องผู้ใช้และข้อมูลของมาเลเซีย
ILMU ไม่ได้ถูกสร้างขึ้นเพียงเพื่อเป็นการทดลองวิจัย แต่เป็นแบบจำลองโครงสร้างพื้นฐานที่ออกแบบมาเพื่อสนับสนุนภาคส่วนที่สำคัญที่สุดของมาเลเซีย อันที่จริง ILMU ถูกใช้แล้วในภาคการเงินผ่าน Ryt Bank ซึ่งขับเคลื่อนบริการที่ขับเคลื่อนด้วย AI ที่ปลอดภัย เป็นไปตามข้อกำหนด และปรับให้เหมาะกับผู้ใช้ชาวมาเลเซีย แสดงให้เห็นว่าแบบจำลองที่เป็นอิสระสามารถสนับสนุนอุตสาหกรรมที่มีการควบคุมได้อย่างไร ในขณะเดียวกันก็ทำให้มั่นใจได้ว่าทั้งข้อมูลและการกำกับดูแลยังคงอยู่ในท้องถิ่น
กล่าวได้ว่า ILMU ไม่ใช่แค่ผลิตภัณฑ์ แต่เป็นระบบนิเวศระดับชาติ ด้วยการทำซ้ำและการปรับปรุงทุกครั้ง พวกเราชาวมาเลเซียเรียนรู้และปรับปรุงไปด้วยกัน ตั้งแต่นักเรียนและครูที่ช่วยสร้างเกณฑ์มาตรฐานเช่น MalayMMLU ไปจนถึงนักวิจัย วิศวกร พันธมิตรอุตสาหกรรม และผู้กำหนดนโยบาย ILMU เป็นมากกว่าเทคโนโลยี เป็นเรื่องเกี่ยวกับการสร้างอนาคต AI ของมาเลเซียร่วมกัน
การพัฒนาทั้งหมดนี้ ความคืบหน้าของ ILMU ความสำเร็จของนักเรียน และกลยุทธ์ AI ระดับชาติ สะท้อนให้เห็นถึงระบบนิเวศที่กว้างขึ้น ซึ่งมาเลเซียไม่ได้สร้างแค่แบบจำลอง แต่ยังสร้างขีดความสามารถและการกำกับดูแล ในขณะที่นักเรียน นักวิจัย และผู้กำหนดนโยบายของเราเติบโตขึ้น ILMU กลายเป็นมากกว่าความสำเร็จทางเทคนิค แต่กลายเป็นส่วนหนึ่งของการเดินทางระดับชาติของเราสู่การเป็นสังคมที่ผลิต AI
คำถามที่ 6 ประเทศอื่นๆ ใดบ้างที่กำลังใช้ LLM ที่เป็นอิสระ
- จีน: ตระกูล DeepSeek, GLM, Qwen
- อินโดนีเซีย: Sahabat AI
- ยุโรป: Mistral (ฝรั่งเศส) ซึ่งเป็นส่วนหนึ่งของการผลักดันอำนาจอธิปไตยด้าน AI ของยุโรป
เรายังเชื่อว่าทุกประเทศควรดำเนินตามแบบจำลองที่เป็นอิสระของตนเอง เหตุผลง่ายๆ คือ ภาษา วัฒนธรรม และค่านิยมไม่ได้เป็นสากล แบบจำลองที่ได้รับการฝึกฝนส่วนใหญ่จากข้อมูลภาษาอังกฤษ จีน หรือฝรั่งเศส จะไม่สามารถจับภาพความแตกต่างของ Bahasa Malaysia, Manglish หรือสังคมพหุวัฒนธรรมของเราได้อย่างเต็มที่ LLM ที่เป็นอิสระช่วยให้แต่ละประเทศสามารถปกป้องมรดกทางภาษา กรอบกฎหมาย อัตลักษณ์ทางวัฒนธรรม และอำนาจอธิปไตยของข้อมูล
กล่าวโดยสรุป AI ที่เป็นอิสระไม่ได้เป็นเพียงแค่เทคโนโลยี เป็นเรื่องเกี่ยวกับความเป็นอิสระทางดิจิทัล การอนุรักษ์วัฒนธรรม และความยืดหยุ่นของชาติ