ILMU: Menyelami Lebih Dalam LLM Buatan Dalam Negeri Pertama Malaysia bersama Prof Chan

Facebook
Twitter
LinkedIn
Picture of Jan Yong
By Jan Yong
Information board on ILMU at the ASEAN AI Malaysia Summit 2025 . Photo by Jan Yong

ILMU, model bahasa besar (LLM) buatan dalam negeri pertama Malaysia adalah diluncurkan di Kuala Lumpur pada bulan Agustus oleh YTL AI Labs Sdn Bhd, anak perusahaan dari YTL Power International Bhd, dalam upaya mengembangkan kemampuan AI berdaulat untuk Malaysia. Akronim ILMU adalah singkatan dari “Intelek Luhur Malaysia Untukmu” atau diterjemahkan ke dalam bahasa Inggris, “Malaysian Intellect Integrity for You”, yang mewakili kecerdasan Malaysia, dikembangkan di Malaysia, untuk rakyat Malaysia.

LLM ini dilatih menggunakan bahasa, data, dan konteks budaya Malaysia. Ia memahami dan merespons dalam bahasa Melayu, Manglish (Bahasa Inggris Malaysia) dan dialek daerah seperti Kelantan, di seluruh teks, suara, dan visual.

w.media mewawancarai Profesor Chan Chee Seng, Fakultas Ilmu Komputer dan Teknologi Informasi, Universiti Malaya, untuk pembahasan mendalam tentang ILMU. Chan memimpin tim universitas yang berkolaborasi dengan YTL AI Labs.

Q1. Sejak kapan proyek ILMU dimulai?Proyek ILMU berawal pada awal tahun 2023 di Universiti Malaya, yang dimulai sebagai proyek tahun terakhir oleh tiga mahasiswa (Lawerence Chieng, Jeraelyn Tan, dan Jia Xuan). Tujuan awal mereka adalah untuk mempelajari ChatGPT, yang baru saja dirilis pada akhir tahun 2022, dengan fokus khusus pada pemahaman dan mitigasi masalah halusinasi dalam model bahasa besar. Apa yang dimulai sebagai upaya penelitian yang dipimpin oleh mahasiswa dengan cepat mendapatkan momentum dan, pada akhir tahun 2023, berkembang menjadi inisiatif nasional penuh yang dipimpin oleh YTL AI Labs bekerja sama dengan Universiti Malaya. Transisi dari penelitian mahasiswa menjadi model fondasi berdaulat yang dilatih dari awal menyoroti saluran bakat dan kapasitas inovasi Malaysia, memastikan bahwa ILMU sepenuhnya milik Malaysia dalam kekayaan intelektual dan berakar kuat dalam konteks nasional kita.

ILMU dibangun dari awal sebagai model fondasi, bukan versi yang disempurnakan pada platform lain. Kami tidak sendirian dalam arah ini, misalnya, pelopor lokal seperti Mesolitica, yang mengembangkan MaLLaM menggunakan sekitar 10 node GPU Nvidia A100, telah menunjukkan bahwa adalah mungkin bagi warga Malaysia untuk membangun model bahasa besar secara mandiri. ILMU membawa ini lebih jauh. Ia dilatih pada lebih dari 100 node GPU, skala yang lebih besar, memberi kami kapasitas untuk bersaing dengan sistem terkemuka dunia.

Untuk memastikan ILMU tidak hanya mumpuni secara teknis tetapi juga sangat Malaysia, kami juga membuat MalayMMLU, tolok ukur khusus pertama untuk Bahasa Malaysia. Tolok ukur ini telah diterima di Empirical Methods in Natural Language Processing (EMNLP), salah satu konferensi NLP terkemuka di dunia, memberikan pengakuan kepada Malaysia di panggung global sambil memastikan ILMU dilatih, diuji, dan divalidasi untuk konteks Malaysia.

Pada tolok ukur MalayMMLU, ILMU mencapai 87,2%, mengungguli model seperti GPT-5, GPT-4o, dan DeepSeek-V3. 

Q2. Bagaimana Anda mendapatkan data yang dibutuhkan untuk pelatihan/inferensi?Data pelatihan ILMU dikurasi dengan cermat dari berbagai sumber untuk mendukung pra-pelatihan dan aplikasi hilir. Ini termasuk:

  • Data yang tersedia untuk umum
  • Korpora pihak ketiga berlisensi
  • Sumber yang berpusat di Malaysia, seperti materi pendidikan, budaya, dan pemerintah

 

Data berbahasa Melayu memang merupakan area sumber daya rendah secara global, dan itulah mengapa ILMU ada. Tantangannya bukan hanya tentang kuantitas, tetapi juga tentang kualitas dan relevansi. Untuk mengatasi hal ini, kami memperluas korpus kami melalui kemitraan dengan lembaga dan komunitas lokal, kurasi yang ketat dari sumber tepercaya, dan pembuatan data sintetis yang dipandu oleh manusia untuk mengisi kesenjangan dalam topik yang kurang terwakili.

Kami juga memiliki tim data internal khusus yang memastikan anotasi, pemfilteran, dan validasi berkualitas tinggi, sehingga ILMU mencerminkan kekayaan linguistik dan keragaman budaya Malaysia.

Singkatnya, sementara LLM global mungkin memiliki akses ke lebih banyak data mentah secara keseluruhan, ILMU dibangun di atas ‘data yang tepat’ untuk Malaysia.

 Q3. Bisakah Anda memberikan contoh sumber untuk perpustakaan ILMU?Contohnya meliputi:

  • Konten yang selaras dengan kurikulum, yang mencakup mata pelajaran sekolah dasar hingga menengah
  • Data keragaman linguistik, termasuk sastra hikayat, Bahasa Pasar sehari-hari, dan Bahasa Istana kerajaan
  • Konten budaya seperti makanan Malaysia (ondeh-ondeh, sate), permainan tradisional (congkak, wau), dan landmark (Batu Caves, Menara Petronas) untuk landasan visi
  • Korpora audio yang mencakup ucapan beraksen Malaysia, dialek, dan alih kode

 

Q4. Berapa banyak orang yang terlibat?Sejujurnya, saya mungkin sudah lupa, tetapi tentu saja lebih dari 100 orang telah terlibat dalam perjalanan ILMU dengan satu atau lain cara. Ini jauh melampaui tim peneliti inti: dari guru sekolah yang membantu menandai makalah tolok ukur PT3 ILMU, hingga peserta magang, insinyur, akademisi, dan peneliti industri yang berkontribusi pada berbagai tahap pengembangan.

Kami juga ingin mengakui komunitas sumber terbuka, baik di Malaysia maupun di luar negeri, yang alat dan wawasannya membantu membimbing kami. Ekosistem berbagi itulah yang menjadi bagian dari mengapa proyek seperti ILMU dapat berhasil. Tetapi penting untuk menekankan bahwa ILMU dibangun oleh orang Malaysia, di Malaysia, untuk orang Malaysia. Arsitektur, pelatihan, dan penyebaran dipimpin di sini, memastikan kekayaan intelektual dan landasan budaya tetap berdaulat.

 Q5. Seberapa aman dari pelanggaran data dan peretas? Keamanan adalah salah satu pilar desain inti ILMU. Kami membedakan dengan jelas antara dua kategori informasi:

  1. Data Pelatihan → Bobot Model
    • Semua data yang digunakan untuk melatih ILMU diubah menjadi bobot model melalui proses pelatihan. Setelah pelatihan selesai, model tidak menyimpan atau mengekspos data pelatihan mentah.
    • ILMU disajikan melalui API tertutup, yang berarti akses dikontrol dan data internal tidak dapat diambil melalui kueri standar.
    • Seluruh sistem dihosting di Malaysia, sepenuhnya dimiliki dan dioperasikan di dalam negeri. Ini memastikan bahwa infrastruktur komputasi dan kedaulatan data berada di bawah kendali Malaysia.

 

  1. Input Pengguna → Data Runtime
    • Kueri pengguna ditangani pada runtime dan tidak dimasukkan ke dalam bobot model dasar. Mereka tetap sementara dan dilindungi di bawah protokol privasi dan tata kelola data yang ketat.
    • Kami menerapkan lapisan pagar pembatas pada tahap input dan output. Ini termasuk pendekatan yang terinspirasi oleh Llama Guard misalnya, yang menyediakan pemfilteran runtime untuk perintah berbahaya, injeksi perintah, dan output yang tidak aman.
    • Pemeriksaan pemantauan dan penyelarasan tambahan dilakukan bekerja sama dengan mitra keselamatan AI tepercaya, memastikan sistem memenuhi harapan peraturan lokal dan praktik terbaik global.

 

Pada tingkat sistem, ILMU menggunakan pertahanan mendalam: penyimpanan data terenkripsi, kontrol akses berbasis peran, isolasi jaringan, dan audit berkelanjutan. Evaluasi keselamatan telah diukur pada SafetyBench, di mana ILMU menunjukkan ketahanan yang kuat terhadap perintah yang tidak aman.

Prinsip panduan kami jelas: terbuka jika memungkinkan, tertutup jika diperlukan. Ini berarti berbagi penelitian, tolok ukur, dan pembelajaran secara terbuka, sambil menjaga infrastruktur dan API sensitif tetap aman untuk melindungi pengguna dan data Malaysia.

ILMU tidak dibangun hanya sebagai eksperimen penelitian, tetapi sebagai model infrastruktur yang dirancang untuk mendukung sektor-sektor paling penting di Malaysia. Faktanya, ILMU sudah digunakan di sektor keuangan melalui Ryt Bank, di mana ia mendukung layanan berbasis AI yang aman, patuh, dan disesuaikan dengan pengguna Malaysia. Ini menunjukkan bagaimana model berdaulat dapat secara langsung mendukung industri yang diatur sambil memastikan bahwa data dan tata kelola tetap lokal.

Artinya, ILMU bukan hanya produk, tetapi ekosistem nasional. Dengan setiap iterasi dan peningkatan, kami warga Malaysia belajar dan meningkat bersama, dari siswa dan guru yang membantu membangun tolok ukur seperti MalayMMLU, hingga peneliti, insinyur, mitra industri, dan pembuat kebijakan. ILMU lebih dari sekadar teknologi; ini tentang membangun masa depan AI Malaysia secara kolektif.

Semua perkembangan ini, kemajuan ILMU, pencapaian siswa, dan strategi AI nasional mencerminkan ekosistem yang lebih luas di mana Malaysia membangun tidak hanya model, tetapi juga kapasitas dan tata kelola. Seiring siswa, peneliti, dan pembuat kebijakan kita tumbuh lebih baik, ILMU menjadi lebih dari sekadar pencapaian teknis, ia menjadi bagian dari perjalanan nasional kita untuk menjadi masyarakat penghasil AI.

Q6. Negara mana lagi yang menerapkan LLM berdaulat?

  • Tiongkok: Keluarga DeepSeek, GLM, Qwen
  • Indonesia: Sahabat AI
  • Eropa: Mistral (Prancis), bagian dari dorongan Eropa untuk kedaulatan AI

 

Kami juga percaya bahwa setiap negara harus mengejar model berdaulatnya sendiri. Alasannya sederhana: bahasa, budaya, dan nilai-nilai tidak universal. Model yang sebagian besar dilatih pada data bahasa Inggris, Mandarin, atau Prancis tidak akan pernah sepenuhnya menangkap nuansa Bahasa Malaysia, Manglish, atau masyarakat multikultural kita. LLM berdaulat memungkinkan setiap negara untuk menjaga warisan linguistik, kerangka hukum, identitas budaya, dan kedaulatan data.

Singkatnya, AI berdaulat bukan hanya tentang teknologi. Ini tentang kemerdekaan digital, pelestarian budaya, dan ketahanan nasional.

 

 

 

 

 

Related Posts
Other Popular Posts
Australasia News [ID]
Australasia News [ID]