ILMU, model bahasa besar (LLM) buatan tempatan sepenuhnya yang pertama di Malaysia telah dilancarkan di Kuala Lumpur pada bulan Ogos oleh YTL AI Labs Sdn Bhd, sebuah anak syarikat YTL Power International Bhd, dalam usaha untuk membangunkan keupayaan AI berdaulat untuk Malaysia. Akronim ILMU bermaksud “Intelek Luhur Malaysia Untukmu” atau diterjemahkan ke dalam Bahasa Inggeris, “Malaysian Intellect Integrity for You”, mewakili kecerdasan Malaysia, dibangunkan di Malaysia, untuk rakyat Malaysia.
LLM ini dilatih menggunakan bahasa, data dan konteks budaya Malaysia. Ia memahami dan bertindak balas dalam Bahasa Melayu, Manglish (Bahasa Inggeris Malaysia) dan dialek serantau seperti Kelantan, merentasi teks, suara dan visual.
w.media menemu bual Profesor Chan Chee Seng, Fakulti Sains Komputer dan Teknologi Maklumat, Universiti Malaya, untuk menyelami ILMU dengan lebih mendalam. Chan mengetuai pasukan universiti yang bekerjasama dengan YTL AI Labs.
S1. Sejak bilakah projek ILMU bermula?Projek ILMU bermula pada awal tahun 2023 di Universiti Malaya, yang bermula sebagai projek tahun akhir oleh tiga pelajar (Lawerence Chieng, Jeraelyn Tan, dan Jia Xuan). Matlamat awal mereka adalah untuk mengkaji ChatGPT, yang baru sahaja dikeluarkan pada akhir tahun 2022, dengan tumpuan khusus untuk memahami dan mengurangkan masalah halusinasi dalam model bahasa besar. Apa yang bermula sebagai usaha penyelidikan yang diterajui pelajar dengan cepat mendapat momentum dan, menjelang akhir tahun 2023, berkembang menjadi inisiatif nasional penuh yang diterajui oleh YTL AI Labs dengan kerjasama Universiti Malaya. Peralihan daripada penyelidikan pelajar kepada model asas berdaulat yang dilatih dari awal ini menonjolkan saluran bakat dan kapasiti inovasi Malaysia, memastikan ILMU adalah sepenuhnya hak milik intelektual Malaysia dan berakar umbi dalam konteks negara kita.
ILMU dibina dari awal sebagai model asas, bukan versi yang ditala halus pada platform lain. Kami tidak bersendirian dalam arah tuju ini, contohnya perintis tempatan seperti Mesolitica, yang membangunkan MaLLaM menggunakan kira-kira 10 nod GPU Nvidia A100, telah menunjukkan bahawa adalah mungkin bagi rakyat Malaysia untuk membina model bahasa besar secara bebas. ILMU melangkah lebih jauh. Ia dilatih pada lebih 100 nod GPU, skala yang lebih besar, memberikan kita kapasiti untuk bersaing dengan sistem terkemuka dunia.
Untuk memastikan ILMU bukan sahaja berkebolehan dari segi teknikal tetapi juga sangat Malaysia, kami juga mencipta MalayMMLU, penanda aras khusus pertama untuk Bahasa Malaysia. Penanda aras ini telah diterima di Kaedah Empirikal dalam Pemprosesan Bahasa Semula Jadi (EMNLP), salah satu persidangan NLP terkemuka di dunia, memberikan pengiktirafan kepada Malaysia di pentas global sambil memastikan ILMU dilatih, diuji dan disahkan untuk konteks Malaysia.
Pada penanda aras MalayMMLU, ILMU mencapai 87.2%, mengatasi model seperti GPT-5, GPT-4o dan DeepSeek-V3.
S2. Bagaimanakah anda mendapatkan data yang diperlukan untuk latihan/inferens?Data latihan ILMU telah disusun dengan teliti daripada pelbagai sumber untuk menyokong pra-latihan dan aplikasi hiliran. Ini termasuk:
- Data yang tersedia secara umum
- Korpora pihak ketiga berlesen
- Sumber berpusatkan Malaysia, seperti bahan pendidikan, budaya dan kerajaan
Data Bahasa Melayu sememangnya kawasan sumber rendah di peringkat global, dan itulah sebabnya ILMU wujud. Cabarannya bukan sahaja tentang kuantiti, tetapi juga tentang kualiti dan perkaitan. Untuk menangani perkara ini, kami mengembangkan korpus kami melalui perkongsian dengan institusi dan komuniti tempatan, susun atur sumber yang dipercayai yang ketat, dan penjanaan data sintetik yang dipandu manusia untuk mengisi jurang dalam topik yang kurang diwakili.
Kami juga mempunyai pasukan data dalaman yang berdedikasi yang memastikan anotasi, penapisan dan pengesahan berkualiti tinggi, supaya ILMU mencerminkan kekayaan linguistik dan kepelbagaian budaya Malaysia.
Ringkasnya, walaupun LLM global mungkin mempunyai akses kepada lebih banyak data mentah secara keseluruhan, ILMU dibina berdasarkan ‘data yang betul’ untuk Malaysia.
S3. Bolehkah anda memberikan contoh sumber untuk pustaka ILMU?Contohnya termasuk:
- Kandungan yang selaras dengan kurikulum, merangkumi mata pelajaran sekolah rendah hingga menengah
- Data kepelbagaian linguistik, termasuk sastera hikayat, Bahasa Pasar kolokial, dan Bahasa Istana diraja
- Kandungan budaya seperti makanan Malaysia (ondeh-ondeh, sate), permainan tradisional (congkak, wau), dan mercu tanda (Batu Caves, Menara Petronas) untuk asas penglihatan
- Korpora audio yang meliputi pertuturan beraksen Malaysia, dialek dan penukaran kod
S4. Berapa ramai orang yang terlibat?Sejujurnya, saya mungkin sudah lupa, tetapi sudah pasti lebih daripada 100 orang telah terlibat dalam perjalanan ILMU dalam satu cara atau yang lain. Ia melangkaui pasukan penyelidik teras: daripada guru sekolah yang membantu menandakan kertas penanda aras PT3 ILMU, kepada pelatih, jurutera, ahli akademik dan penyelidik industri yang menyumbang kepada peringkat pembangunan yang berbeza.
Kami juga ingin mengiktiraf komuniti sumber terbuka, baik di Malaysia mahupun di luar negara, yang alat dan pandangannya membantu membimbing kami. Ekosistem perkongsian itulah sebahagian daripada sebab projek seperti ILMU boleh berjaya. Tetapi adalah penting untuk menekankan bahawa ILMU dibina oleh rakyat Malaysia, di Malaysia, untuk rakyat Malaysia. Seni bina, latihan dan penggunaan diketuai di sini, memastikan hak milik intelektual dan asas budaya kekal berdaulat.
S5. Sejauh manakah ia selamat daripada pelanggaran data dan penggodam? Keselamatan adalah salah satu tonggak reka bentuk teras ILMU. Kami membezakan dengan jelas antara dua kategori maklumat:
- Data Latihan → Pemberat Model
- Semua data yang digunakan untuk melatih ILMU diubah menjadi pemberat model melalui proses latihan. Setelah latihan selesai, model tidak menyimpan atau mendedahkan data latihan mentah.
- ILMU disampaikan melalui API tertutup, bermakna akses dikawal dan data dalaman tidak boleh diambil melalui pertanyaan standard.
- Keseluruhan sistem dihoskan di Malaysia, dimiliki sepenuhnya dan dikendalikan di dalam negara. Ini memastikan bahawa infrastruktur pengkomputeran dan kedaulatan data berada di bawah kawalan Malaysia.
- Input Pengguna → Data Masa Jalan
- Pertanyaan pengguna dikendalikan pada masa jalan dan tidak dimasukkan ke dalam pemberat model asas. Ia kekal sementara dan dilindungi di bawah protokol privasi dan tadbir urus data yang ketat.
- Kami menggunakan lapisan rel pengawal pada peringkat input dan output. Ini termasuk pendekatan yang diilhamkan oleh Llama Guard contohnya, yang menyediakan penapisan masa jalan untuk gesaan berbahaya, suntikan gesaan dan output yang tidak selamat.
- Pemantauan tambahan dan pemeriksaan penjajaran dijalankan dengan kerjasama rakan keselamatan AI yang dipercayai, memastikan sistem memenuhi jangkaan kawal selia tempatan dan amalan terbaik global.
Pada peringkat sistem, ILMU menggunakan pertahanan secara mendalam: storan data yang disulitkan, kawalan akses berasaskan peranan, pengasingan rangkaian dan pengauditan berterusan. Penilaian keselamatan telah ditanda aras pada SafetyBench, di mana ILMU menunjukkan daya tahan yang kuat terhadap gesaan yang tidak selamat.
Prinsip panduan kami adalah jelas: terbuka jika boleh, tertutup jika perlu. Ini bermakna berkongsi penyelidikan, penanda aras dan pembelajaran secara terbuka, sambil memastikan infrastruktur dan API sensitif terjamin dengan ketat untuk melindungi pengguna dan data Malaysia.
ILMU tidak dibina hanya sebagai eksperimen penyelidikan, tetapi sebagai model infrastruktur yang direka untuk menyokong sektor paling kritikal di Malaysia. Malah, ILMU sudah digunakan dalam sektor kewangan melalui Ryt Bank, di mana ia memperkasakan perkhidmatan dipacu AI yang selamat, mematuhi dan disesuaikan dengan pengguna Malaysia. Ini menunjukkan bagaimana model berdaulat boleh menyokong secara langsung industri yang dikawal selia sambil memastikan data dan tadbir urus kekal tempatan.
Ini bermakna, ILMU bukan sahaja produk, ia adalah ekosistem nasional. Dengan setiap lelaran dan penambahbaikan, kami rakyat Malaysia belajar dan bertambah baik bersama-sama, daripada pelajar dan guru yang membantu membina penanda aras seperti MalayMMLU, kepada penyelidik, jurutera, rakan industri dan penggubal dasar. ILMU adalah lebih daripada teknologi; ia adalah tentang membina masa depan AI Malaysia secara kolektif.
Semua perkembangan ini, kemajuan ILMU, pencapaian pelajar dan strategi AI nasional mencerminkan ekosistem yang lebih luas di mana Malaysia membina bukan sahaja model, tetapi kapasiti dan tadbir urus. Apabila pelajar, penyelidik dan penggubal dasar kita bertambah baik, ILMU menjadi lebih daripada pencapaian teknikal, ia menjadi sebahagian daripada perjalanan negara kita ke arah menjadi masyarakat pengeluar AI.
S6. Negara manakah yang melaksanakan LLM berdaulat?
- China: Keluarga DeepSeek, GLM, Qwen
- Indonesia: Sahabat AI
- Eropah: Mistral (Perancis), sebahagian daripada usaha Eropah untuk kedaulatan AI
Kami juga percaya bahawa setiap negara harus meneruskan model berdaulatnya sendiri. Sebabnya mudah: bahasa, budaya dan nilai tidak bersifat universal. Model yang dilatih kebanyakannya pada data Bahasa Inggeris, Cina atau Perancis tidak akan dapat menangkap sepenuhnya nuansa Bahasa Malaysia, Manglish atau masyarakat berbilang budaya kita. LLM berdaulat membolehkan setiap negara melindungi warisan linguistik, rangka kerja undang-undang, identiti budaya dan kedaulatan data mereka.
Ringkasnya, AI berdaulat bukan hanya tentang teknologi. Ia adalah tentang kebebasan digital, pemeliharaan budaya dan daya tahan negara.