マレーシア初の完全国産大規模言語モデル(LLM)であるILMUは 発売されました 8月にクアラルンプールで、YTL Power International Bhdの子会社であるYTL AI Labs Sdn Bhdによって、マレーシアのソブリンAI能力の開発を目指して設立されました。ILMUという頭字語は、「Intelek Luhur Malaysia Untukmu」の略で、英語に翻訳すると「あなたへのマレーシアの知的誠実さ」となり、マレーシアで開発された、マレーシア人のためのマレーシアの知性を表しています。
LLMは、マレーシアの言語、データ、文化的背景を使用してトレーニングされました。マレー語、マングリッシュ(マレーシア英語)、およびクランタン語のような地域の方言を、テキスト、音声、ビジュアルで理解し、応答します。
w.mediaは、コンピューター科学・情報技術学部のチャン・チー・セン教授にインタビューしました, マラヤ大学で、ILMUについて深く掘り下げます。チャンは、YTL AI Labsと共同で大学のチームを率いました。
Q1. ILMUプロジェクトはいつから始まりましたか?ILMUプロジェクトは、2023年初頭にマラヤ大学で始まり、3人の学生(Lawerence Chieng、Jeraelyn Tan、Jia Xuan)による最終学年のプロジェクトとして始まりました。彼らの最初の目標は、2022年後半にリリースされたばかりのChatGPTを研究することであり、特に大規模言語モデルにおける幻覚の問題を理解し、軽減することに焦点を当てていました。学生主導の研究活動として始まったものはすぐに勢いを増し、2023年後半には、マラヤ大学と協力してYTL AI Labsが主導する本格的な国家イニシアチブへと発展しました。学生の研究から、ゼロからトレーニングされたソブリン基盤モデルへのこの移行は、マレーシアの人材パイプラインとイノベーション能力を強調し、ILMUが知的財産において完全にマレーシアのものであり、私たちの国の文脈に深く根ざしていることを保証します。
ILMUは、他のプラットフォームでの微調整されたバージョンではなく、基盤モデルとしてゼロから構築されました。私たちはこの方向で孤独ではありません。たとえば、Nvidia A100 GPUの約10ノードを使用してMaLLaMを開発したMesoliticaのような地元のパイオニアは、マレーシア人が大規模言語モデルを独立して構築できることを示しています。ILMUはこれをさらに一歩進めます。100を超えるGPUノードでトレーニングされており、規模が1桁大きいため、世界の主要システムと競争する能力が得られます。
ILMUが技術的に有能であるだけでなく、深くマレーシアのものであることを保証するために、Bahasa Malaysia専用の最初のベンチマークであるMalayMMLUも作成しました。このベンチマークは、世界をリードするNLP会議の1つであるEmpirical Methods in Natural Language Processing(EMNLP)で受け入れられ、マレーシアにグローバルな舞台での認知を与え、ILMUがマレーシアのコンテキストでトレーニング、テスト、検証されることを保証します。
MalayMMLUベンチマークでは、ILMUは87.2%を達成し、GPT-5、GPT-4o、DeepSeek-V3などのモデルを上回りました。
Q2. トレーニング/推論に必要なデータはどのように入手しますか?ILMUのトレーニングデータは、事前トレーニングとダウンストリームアプリケーションをサポートするために、多様なソースから慎重にキュレーションされました。これらには以下が含まれます。
- 公的に入手可能なデータ
- ライセンスされたサードパーティのコーパス
- 教育、文化、政府の資料など、マレーシア中心のソース
マレー語のデータは、世界的に見てリソースが少ない分野であり、それこそがまさにILMUが存在する理由です。課題は量だけでなく、品質と関連性にもあります。これに対処するために、地元の機関やコミュニティとのパートナーシップ、信頼できるソースの厳格なキュレーション、および過小評価されているトピックのギャップを埋めるための人間が誘導する合成データ生成を通じて、コーパスを拡大します。
また、高品質のアノテーション、フィルタリング、検証を保証する専任の社内データチームがあり、ILMUがマレーシアの言語的豊かさと文化的多様性を反映するようにしています。
要するに、グローバルLLMは全体的にもっと多くの生データにアクセスできるかもしれませんが、ILMUはマレーシアにとって「適切なデータ」に基づいて構築されています。
Q3. ILMUライブラリのソースの例を教えてください。例としては、以下が含まれます。
- 小学校から中学校の科目にまたがるカリキュラムに沿ったコンテンツ
- 文学を含む言語多様性データ ヒカヤット、口語的なBahasa Pasar、および王室のBahasa Istana
- ビジョングラウンドのためのマレーシア料理(ondeh-ondeh、サテ)、伝統的なゲーム(congkak、wau)、ランドマーク(Batu Caves、Petronas Towers)などの文化的コンテンツ
- マレーシア訛りのスピーチ、方言、およびコードスイッチングをカバーするオーディオコーパス
Q4. 何人が関与しましたか?正直なところ、おそらく数えきれないほどですが、少なくとも100人以上が何らかの形でILMUの旅に関与しています。それは単なるコア研究チームだけではありません。ILMUのPT3ベンチマーク論文の採点に協力してくれた学校の先生から、インターン、エンジニア、学者、業界の研究者まで、開発のさまざまな段階に貢献しています。
また、私たちを導いてくれたマレーシア国内外のオープンソースコミュニティにも感謝したいと思います。その共有のエコシステムは、ILMUのようなプロジェクトが成功する理由の一部です。しかし、ILMUはマレーシア人がマレーシアで、マレーシア人のために構築したことを強調することが重要です。アーキテクチャ、トレーニング、および展開はここで主導され、知的財産と文化的基盤が主権を維持することを保証します。
Q5. データ侵害やハッカーからどの程度安全ですか? 安全性は、ILMUの中核となる設計理念の1つです。私たちは、次の2つのカテゴリの情報を明確に区別しています。
- トレーニングデータ→モデルの重み
- ILMUのトレーニングに使用されるすべてのデータは、トレーニングプロセスを通じてモデルの重みに変換されます。トレーニングが完了すると、モデルは生のトレーニングデータを保存または公開しません。
- ILMUはクローズドAPIを介して提供されます。つまり、アクセスは制御され、標準クエリを通じて内部データを取得することはできません。
- システム全体はマレーシアでホストされ、国内で完全に所有および運営されています。これにより、コンピューティングインフラストラクチャとデータ主権の両方がマレーシアの管理下にあることが保証されます。
- ユーザー入力→ランタイムデータ
- ユーザーのクエリはランタイムで処理され、ベースモデルの重みに組み込まれることはありません。それらは一時的なものであり、厳格なデータプライバシーおよびガバナンスプロトコルの下で保護されています。
- 入力段階と出力段階の両方でガードレールレイヤーを適用します。これらには、たとえば、有害なプロンプト、プロンプトインジェクション、および安全でない出力に対してランタイムフィルタリングを提供するLlama Guardに触発されたアプローチが含まれます。
- 追加の監視およびアライメントチェックは、信頼できるAI安全パートナーと協力して実施され、システムがローカルの規制上の期待とグローバルなベストプラクティスの両方を満たすことを保証します。
システムレベルでは、ILMUは多層防御を採用しています。暗号化されたデータストレージ、役割ベースのアクセス制御、ネットワーク分離、および継続的な監査です。安全性の評価はSafetyBenchでベンチマークされており、ILMUは安全でないプロンプトに対して強力な回復力を示しました。
私たちの指針となる原則は明確です。可能な限りオープンに、必要な場合はクローズドにすることです。これは、調査、ベンチマーク、および学習をオープンに共有しながら、マレーシアのユーザーとデータを保護するために、機密性の高いインフラストラクチャとAPIを厳重に保護することを意味します。
ILMUは単なる研究実験として構築されたのではなく、マレーシアの最も重要なセクターをサポートするように設計されたインフラストラクチャモデルとして構築されました。実際、ILMUはすでにRyt Bankを通じて金融セクターで使用されており、安全でコンプライアンスに準拠し、マレーシアのユーザー向けに調整されたAI駆動型サービスを提供しています。これは、ソブリンモデルが規制された業界を直接サポートしながら、データとガバナンスの両方がローカルに維持されることを保証する方法を示しています。
つまり、ILMUは単なる製品ではなく、国民的なエコシステムです。反復と改善ごとに、マレーシア人は、MalayMMLUのようなベンチマークの構築を支援する学生や教師から、研究者、エンジニア、業界パートナー、政策立案者まで、共に学び、改善します。ILMUはテクノロジー以上のものです。それは、マレーシアのAIの未来を共同で構築することです。
これらのすべての開発、ILMUの進歩、学生の成果、および国家AI戦略は、マレーシアがモデルだけでなく、能力とガバナンスも構築している、より広範なエコシステムを反映しています。私たちの学生、研究者、政策立案者が成長するにつれて、ILMUは単なる技術的な偉業ではなく、AI生産社会になるための私たちの国民的な旅の一部になります。
Q6. 他にどの国がソブリンLLMを実装していますか?
- 中国:DeepSeek、GLM、Qwenファミリー
- インドネシア:Sahabat AI
- ヨーロッパ:Mistral(フランス)、ヨーロッパのAI主権への推進の一部
また、すべての国が独自のソブリンモデルを追求すべきだと考えています。理由は簡単です。言語、文化、価値観は普遍的ではありません。主に英語、中国語、またはフランス語のデータでトレーニングされたモデルは、Bahasa Malaysia、Manglish、または私たちの多文化社会のニュアンスを完全に捉えることはありません。ソブリンLLMを使用すると、各国は自国の言語的遺産、法的枠組み、文化的アイデンティティ、およびデータ主権を保護できます。
要するに、ソブリンAIはテクノロジーだけではありません。それは、デジタルの独立、文化の保存、および国の回復力についてです。