말레이시아 최초의 완전한 자국산 대규모 언어 모델(LLM)인 ILMU가 출시되었습니다. 말레이시아의 주권 AI 역량을 개발하기 위해 YTL Power International Bhd의 자회사인 YTL AI Labs Sdn Bhd가 8월 쿠알라룸푸르에서 출시했습니다. ILMU라는 약어는 “Intelek Luhur Malaysia Untukmu”의 약자로, 영어로 번역하면 “당신을 위한 말레이시아 지적 무결성”을 의미하며, 말레이시아에서 개발되어 말레이시아인을 위한 말레이시아 지능을 나타냅니다.
LLM은 말레이시아 언어, 데이터 및 문화적 맥락을 사용하여 훈련되었습니다. 텍스트, 음성 및 시각을 통해 말레이어, 망글리쉬(말레이시아 영어) 및 클란탄어와 같은 지역 방언을 이해하고 응답합니다.
w.media는 컴퓨터 과학 및 정보 기술 학부의 찬 치 센 교수를 인터뷰합니다., 말라야 대학교에서 ILMU에 대한 심층적인 내용을 다룹니다. Chan은 YTL AI Labs와 협력한 대학 팀을 이끌었습니다.
Q1. ILMU 프로젝트는 언제부터 시작되었습니까?ILMU 프로젝트는 2023년 초 말라야 대학교에서 그 뿌리를 찾을 수 있으며, 그곳에서 3명의 학생(Lawerence Chieng, Jeraelyn Tan, Jia Xuan)의 최종 학년 프로젝트로 시작되었습니다. 그들의 초기 목표는 2022년 말에 막 출시된 ChatGPT를 연구하고, 특히 대규모 언어 모델에서 환각 문제를 이해하고 완화하는 데 중점을 두는 것이었습니다. 학생 주도의 연구 노력으로 시작된 것은 빠르게 추진력을 얻었고, 2023년 말에는 말라야 대학교와 협력하여 YTL AI Labs가 주도하는 본격적인 국가 이니셔티브로 발전했습니다. 학생 연구에서 처음부터 훈련된 주권 기초 모델로의 전환은 말레이시아의 인재 파이프라인과 혁신 역량을 강조하며, ILMU가 지적 재산권에서 완전히 말레이시아적이고 국가적 맥락에 깊이 뿌리내리도록 보장합니다.
ILMU는 다른 플랫폼에서 미세 조정된 버전이 아닌 처음부터 기초 모델로 구축되었습니다. 우리는 이 방향으로 혼자가 아닙니다. 예를 들어 약 10개의 Nvidia A100 GPU 노드를 사용하여 MaLLaM을 개발한 Mesolitica와 같은 지역 선구자들은 말레이시아인들이 독립적으로 대규모 언어 모델을 구축할 수 있음을 보여주었습니다. ILMU는 이를 훨씬 더 발전시킵니다. 100개 이상의 GPU 노드에서 훈련되었으며 규모가 훨씬 더 커서 세계 최고의 시스템과 경쟁할 수 있는 역량을 제공합니다.
ILMU가 기술적으로 유능할 뿐만 아니라 깊이 말레이시아적이도록 보장하기 위해 Bahasa Malaysia에 대한 최초의 전용 벤치마크인 MalayMMLU도 만들었습니다. 이 벤치마크는 세계 최고의 NLP 컨퍼런스 중 하나인 EMNLP(Empirical Methods in Natural Language Processing)에서 인정받아 말레이시아가 세계 무대에서 인정을 받는 동시에 ILMU가 말레이시아 맥락에 맞게 훈련, 테스트 및 검증되도록 보장합니다.
MalayMMLU 벤치마크에서 ILMU는 87.2%를 달성하여 GPT-5, GPT-4o 및 DeepSeek-V3와 같은 모델보다 성능이 뛰어납니다.
Q2. 훈련/추론에 필요한 데이터는 어떻게 얻습니까?ILMU의 훈련 데이터는 사전 훈련 및 다운스트림 응용 프로그램을 지원하기 위해 다양한 소스에서 신중하게 큐레이팅되었습니다. 여기에는 다음이 포함됩니다.
- 공개적으로 사용 가능한 데이터
- 라이선스가 부여된 타사 코퍼스
- 교육, 문화 및 정부 자료와 같은 말레이시아 중심 소스
말레이어 데이터는 전 세계적으로 리소스가 부족한 영역이며, 이것이 바로 ILMU가 존재하는 이유입니다. 문제는 양뿐만 아니라 품질과 관련성도 중요합니다. 이를 해결하기 위해 지역 기관 및 커뮤니티와의 파트너십, 신뢰할 수 있는 소스의 엄격한 큐레이션, 대표성이 부족한 주제의 격차를 해소하기 위한 인간 유도 합성 데이터 생성을 통해 코퍼스를 확장합니다.
또한 고품질 주석, 필터링 및 유효성 검사를 보장하는 전담 사내 데이터 팀이 있어 ILMU가 말레이시아의 언어적 풍부함과 문화적 다양성을 반영합니다.
요컨대, 글로벌 LLM은 전체적으로 훨씬 더 많은 원시 데이터에 액세스할 수 있지만 ILMU는 말레이시아에 적합한 ‘올바른 데이터’를 기반으로 구축되었습니다.
Q3. ILMU 라이브러리의 소스 예를 들어 주시겠습니까?예는 다음과 같습니다.
- 초등학교부터 중등학교 과목에 걸쳐 교육 과정에 맞춰진 콘텐츠
- 문학을 포함한 언어적 다양성 데이터 히카야트, 구어체 Bahasa Pasar 및 왕실 Bahasa Istana
- 말레이시아 음식(온데온데, 사테이), 전통 게임(총각, 와우) 및 랜드마크(바투 동굴, 페트로나스 타워)와 같은 문화 콘텐츠(비전 접지용)
- 말레이시아 악센트 음성, 방언 및 코드 전환을 다루는 오디오 코퍼스
Q4. 몇 명이 참여했습니까?솔직히 말해서 아마 잊어버렸을 것 같지만, ILMU 여정에 어떤 식으로든 100명 이상이 참여한 것은 확실합니다. 핵심 연구팀뿐만 아니라 ILMU의 PT3 벤치마크 논문을 채점하는 데 도움을 준 학교 교사, 인턴, 엔지니어, 학계 및 업계 연구원에 이르기까지 개발의 다양한 단계에 기여했습니다.
또한 도구와 통찰력으로 우리를 인도한 말레이시아 및 해외의 오픈 소스 커뮤니티에 감사를 표하고 싶습니다. 그 공유 생태계는 ILMU와 같은 프로젝트가 성공할 수 있는 이유 중 하나입니다. 그러나 ILMU는 말레이시아인에 의해 말레이시아에서 말레이시아인을 위해 구축되었다는 점을 강조하는 것이 중요합니다. 아키텍처, 훈련 및 배포는 여기에서 주도되어 지적 재산권과 문화적 기반이 주권으로 유지되도록 보장합니다.
Q5. 데이터 침해 및 해커로부터 얼마나 안전합니까? 안전은 ILMU의 핵심 설계 원칙 중 하나입니다. 우리는 정보의 두 가지 범주를 명확하게 구분합니다.
- 훈련 데이터 → 모델 가중치
- ILMU를 훈련하는 데 사용된 모든 데이터는 훈련 프로세스를 통해 모델 가중치로 변환됩니다. 훈련이 완료되면 모델은 원시 훈련 데이터를 저장하거나 노출하지 않습니다.
- ILMU는 폐쇄형 API를 통해 제공되므로 액세스가 제어되고 표준 쿼리를 통해 내부 데이터를 검색할 수 없습니다.
- 전체 시스템은 말레이시아에 호스팅되며 국내에서 완전히 소유하고 운영합니다. 이를 통해 컴퓨팅 인프라와 데이터 주권이 모두 말레이시아의 통제하에 있도록 보장합니다.
- 사용자 입력 → 런타임 데이터
- 사용자 쿼리는 런타임에 처리되며 기본 모델 가중치에 통합되지 않습니다. 쿼리는 일시적으로 유지되며 엄격한 데이터 개인 정보 보호 및 거버넌스 프로토콜에 따라 보호됩니다.
- 입력 및 출력 단계 모두에서 보호 장치 레이어를 적용합니다. 여기에는 예를 들어 유해한 프롬프트, 프롬프트 삽입 및 안전하지 않은 출력에 대한 런타임 필터링을 제공하는 Llama Guard에서 영감을 받은 접근 방식이 포함됩니다.
- 신뢰할 수 있는 AI 안전 파트너와 협력하여 추가 모니터링 및 조정 검사를 수행하여 시스템이 현지 규제 기대치와 글로벌 모범 사례를 모두 충족하도록 보장합니다.
시스템 수준에서 ILMU는 심층 방어, 즉 암호화된 데이터 저장, 역할 기반 액세스 제어, 네트워크 격리 및 지속적인 감사를 사용합니다. 안전 평가는 SafetyBench에서 벤치마킹되었으며, ILMU는 안전하지 않은 프롬프트에 대한 강력한 복원력을 입증했습니다.
우리의 지침 원칙은 명확합니다. 가능한 한 공개하고 필요한 경우 폐쇄합니다. 즉, 연구, 벤치마크 및 학습 내용을 공개적으로 공유하는 동시에 민감한 인프라와 API를 엄격하게 보호하여 말레이시아 사용자 및 데이터를 보호합니다.
ILMU는 단순한 연구 실험으로 구축된 것이 아니라 말레이시아의 가장 중요한 부문을 지원하도록 설계된 인프라 모델로 구축되었습니다. 실제로 ILMU는 Ryt Bank를 통해 금융 부문에서 이미 사용되고 있으며, 안전하고 규정을 준수하며 말레이시아 사용자에 맞게 조정된 AI 기반 서비스를 제공합니다. 이는 주권 모델이 데이터와 거버넌스가 모두 로컬로 유지되도록 보장하면서 규제 산업을 직접적으로 지원할 수 있는 방법을 보여줍니다.
즉, ILMU는 단순한 제품이 아니라 국가 생태계입니다. 모든 반복과 개선을 통해 우리는 말레이시아인들이 MalayMMLU와 같은 벤치마크를 구축하는 데 도움을 주는 학생과 교사에서부터 연구원, 엔지니어, 산업 파트너 및 정책 입안자에 이르기까지 함께 배우고 개선합니다. ILMU는 기술 그 이상입니다. 말레이시아의 AI 미래를 집단적으로 구축하는 것입니다.
이러한 모든 발전, ILMU의 발전, 학생 성과 및 국가 AI 전략은 말레이시아가 모델뿐만 아니라 역량과 거버넌스를 구축하는 더 넓은 생태계를 반영합니다. 우리의 학생, 연구원 및 정책 입안자가 더 나아짐에 따라 ILMU는 기술적 위업 그 이상이 되어 AI 생산 사회가 되기 위한 우리의 국가적 여정의 일부가 됩니다.
Q6. 다른 어떤 국가에서 주권 LLM을 구현하고 있습니까?
- 중국: DeepSeek, GLM, Qwen 제품군
- 인도네시아: Sahabat AI
- 유럽: Mistral(프랑스), 유럽의 AI 주권 추진의 일부
우리는 또한 모든 국가가 자체 주권 모델을 추구해야 한다고 믿습니다. 이유는 간단합니다. 언어, 문화 및 가치는 보편적이지 않습니다. 영어, 중국어 또는 프랑스어 데이터로 대부분 훈련된 모델은 Bahasa Malaysia, Manglish 또는 다문화 사회의 뉘앙스를 완전히 포착할 수 없습니다. 주권 LLM을 통해 각 국가는 언어 유산, 법적 프레임워크, 문화적 정체성 및 데이터 주권을 보호할 수 있습니다.
요컨대, 주권 AI는 단순한 기술에 관한 것이 아닙니다. 디지털 독립, 문화 보존 및 국가적 회복력에 관한 것입니다.