ILMU,马来西亚首个完全本土化的大型语言模型(LLM)于 发布 由杨忠礼电力国际有限公司(YTL Power International Bhd)的子公司杨忠礼人工智能实验室(YTL AI Labs Sdn Bhd)于8月在吉隆坡推出,旨在为马来西亚发展自主的人工智能能力。ILMU这个缩写代表“Intelek Luhur Malaysia Untukmu”,翻译成英文是“Malaysian Intellect Integrity for You”,代表马来西亚的智慧,在马来西亚开发,为了马来西亚人民。
该LLM使用马来西亚语言、数据和文化背景进行训练。它能理解并以马来语、Manglish(马来西亚英语)和吉兰丹语等区域方言,通过文本、语音和视觉进行回应。
w.media采访了计算机科学与信息技术学院的曾志成教授, 马来亚大学,深入探讨ILMU。曾教授领导了该大学与杨忠礼人工智能实验室合作的团队。
问题1:ILMU项目是什么时候开始的?ILMU项目的根源可以追溯到2023年初的马来亚大学,当时它是由三名学生(Lawerence Chieng、Jeraelyn Tan和Jia Xuan)发起的一个毕业项目。他们最初的目标是研究ChatGPT,该模型于2022年末刚刚发布,特别关注理解和缓解大型语言模型中的幻觉问题。最初由学生主导的研究工作迅速获得了动力,到2023年末,演变成由杨忠礼人工智能实验室与马来亚大学合作领导的一项全面的国家倡议。这种从学生研究到从头开始训练的主权基础模型的转变,突显了马来西亚的人才储备和创新能力,确保ILMU在知识产权上完全属于马来西亚,并且深深植根于我们的国家背景。
ILMU是从头开始构建的基础模型,而不是在其他平台上进行微调的版本。我们并不孤单,例如,像Mesolitica这样的本地先驱,使用大约10个Nvidia A100 GPU节点开发了MaLLaM,表明马来西亚人有可能独立构建大型语言模型。ILMU在此基础上更进一步。它在超过100个GPU节点上进行了训练,规模扩大了一个数量级,使我们有能力与世界领先的系统竞争。
为了确保ILMU不仅在技术上具有能力,而且具有深刻的马来西亚特色,我们还创建了MalayMMLU,这是第一个专门为马来西亚语设计的基准。该基准已被自然语言处理实证方法(EMNLP)接受,EMNLP是世界领先的NLP会议之一,这使马来西亚在全球舞台上获得认可,同时确保ILMU在马来西亚的背景下进行训练、测试和验证。
在MalayMMLU基准测试中,ILMU取得了87.2%的成绩,优于GPT-5、GPT-4o和DeepSeek-V3等模型。
问题2:您如何获得训练/推理所需的数据?ILMU的训练数据经过精心策划,来自不同的来源,以支持预训练和下游应用。这些包括:
- 公开可用的数据
- 授权的第三方语料库
- 以马来西亚为中心的来源,如教育、文化和政府材料
马来语数据在全球范围内确实是一个低资源领域,而这正是ILMU存在的原因。挑战不仅在于数量,还在于质量和相关性。为了解决这个问题,我们通过与当地机构和社区的合作、对可信来源的严格管理以及人工指导的合成数据生成来扩展我们的语料库,以填补代表性不足的主题中的空白。
我们还有一个专门的内部数据团队,确保高质量的注释、过滤和验证,以便ILMU反映马来西亚的语言丰富性和文化多样性。
简而言之,虽然全球LLM可能可以访问更多的原始数据,但ILMU是建立在适合马来西亚的“正确数据”之上的。
问题3:您能举例说明ILMU图书馆的来源吗?例子包括:
- 与课程对齐的内容,涵盖小学到中学的科目
- 语言多样性数据,包括文学 hikayat、口语化的Bahasa Pasar和皇家Bahasa Istana
- 文化内容,如马来西亚食物(ondeh-ondeh、沙爹)、传统游戏(congkak、wau)和地标(黑风洞、双子塔),用于视觉基础
- 涵盖马来西亚口音的语音、方言和代码转换的音频语料库
问题4:有多少人参与其中?说实话,我可能已经数不清了,但肯定有超过100人以某种方式参与了ILMU的旅程。它远远超出了核心研究团队的范围:从帮助标记ILMU的PT3基准论文的学校教师,到为不同开发阶段做出贡献的实习生、工程师、学者和行业研究人员。
我们还要感谢马来西亚和国外的开源社区,他们的工具和见解帮助指导了我们。这种共享的生态系统是像ILMU这样的项目能够成功的部分原因。但重要的是要强调,ILMU是由马来西亚人在马来西亚为马来西亚人建造的。架构、培训和部署都在这里进行,确保知识产权和文化基础保持主权。
问题5:它在防止数据泄露和黑客攻击方面的安全性如何? 安全是ILMU的核心设计支柱之一。我们清楚地区分两类信息:
- 训练数据 → 模型权重
- 用于训练ILMU的所有数据都通过训练过程转换为模型权重。训练完成后,模型不会存储或暴露原始训练数据。
- ILMU通过一个封闭的API提供服务,这意味着访问受到控制,内部数据无法通过标准查询检索。
- 整个系统都托管在马来西亚,完全由国内拥有和运营。这确保了计算基础设施和数据主权都在马来西亚的控制之下。
- 用户输入 → 运行时数据
- 用户查询在运行时处理,不会纳入基本模型权重。它们保持瞬时状态,并受到严格的数据隐私和治理协议的保护。
- 我们在输入和输出阶段都应用了防护层。这些包括受Llama Guard启发的方案,例如,这些方案为有害提示、提示注入和不安全输出提供运行时过滤。
- 与可信赖的AI安全合作伙伴合作进行额外的监控和对齐检查,确保系统满足当地监管期望和全球最佳实践。
在系统级别,ILMU采用深度防御:加密数据存储、基于角色的访问控制、网络隔离和持续审计。安全评估已在SafetyBench上进行了基准测试,ILMU在SafetyBench上表现出对不安全提示的强大抵抗力。
我们的指导原则很明确:尽可能开放,必要时封闭。这意味着公开分享研究、基准和经验,同时严格保护敏感基础设施和API,以保护马来西亚用户和数据。
ILMU不仅仅是一个研究实验,而是一个旨在支持马来西亚最关键行业的基础设施模型。事实上,ILMU已经通过Ryt Bank在金融领域中使用,它为安全、合规且为马来西亚用户量身定制的AI驱动服务提供支持。这表明一个主权模型如何直接支持受监管的行业,同时确保数据和治理都保持本地化。
也就是说,ILMU不仅仅是一个产品,它是一个国家生态系统。随着每一次迭代和改进,我们马来西亚人一起学习和进步,从帮助建立MalayMMLU等基准的学生和教师,到研究人员、工程师、行业合作伙伴和政策制定者。ILMU不仅仅是技术,它还在于共同建设马来西亚的AI未来。
所有这些发展、ILMU的进步、学生的成就和国家AI战略都反映了一个更广泛的生态系统,在这个生态系统中,马来西亚不仅在构建模型,还在构建能力和治理。随着我们的学生、研究人员和政策制定者变得更好,ILMU不仅仅是一项技术壮举,它还成为我们国家迈向成为AI生产型社会的国家旅程的一部分。
问题6:还有哪些国家在实施主权LLM?
- 中国:DeepSeek、GLM、Qwen系列
- 印度尼西亚:Sahabat AI
- 欧洲:Mistral(法国),欧洲争取AI主权的一部分
我们还认为,每个国家都应该追求自己的主权模型。原因很简单:语言、文化和价值观不是普遍的。一个主要用英语、中文或法语数据训练的模型永远无法完全捕捉到马来西亚语、Manglish或我们多元文化社会的细微差别。主权LLM允许每个国家保护其语言遗产、法律框架、文化认同和数据主权。
简而言之,主权AI不仅仅是技术。它关乎数字独立、文化保护和国家韧性。