随着生成式人工智能的发展,对大语言模型的需求越发明显。日前在沙特首都利雅得举行的第三届全球人工智能峰会上,沙特数据与人工智能局发布了目前最大规模的阿拉伯语大语言模型,与会代表探讨如何让人工智能技术赋能阿拉伯世界,在全球化中保护语言、身份和文化的多样性。
沙特数据与人工智能局介绍,该机构研发的拥有70亿个参数的阿拉伯语大语言模型ALLaM已经上线微软的云平台,训练数据集包含5000亿个阿拉伯语基本文本单元。
与会嘉宾表示,在发展大语言模型中保护文化身份,首先还是要面对来自高质量数据集的挑战。要收集多样化的数据集,包括方言、习语和文化的细微差别。这种数据的多样性使人工智能不仅可以作为一种技术工具,也可以作为跨越文化鸿沟的桥梁。模型训练过程中,需要聘请来自不同文化的数据标注者,尽管这是一个复杂且昂贵的过程,但对于确保人们平等受益于大型语言模型带来的技术进步,保证人工智能的普惠性非常重要。
人工智能公司Emotech首席执行官庄宏斌在此次大会的主旨演讲中介绍了“小语言模型”的概念。小型语言模型是大型语言模型的紧凑版本。它们旨在高效执行语言相关任务,同时消耗较少的计算资源。与可能由数千亿个参数组成的大型语言模型不同,小型语言模型的特点是参数数量较少,适合数据资源有限的方言语言模型,适合部署在移动设备或边缘计算设备等资源受限的环境中。
与会嘉宾表示,随着人工智能技术的发展,其在调整和塑造人类互动文化方面的潜力也在增长。然而,挑战在于如何确保这些技术的开发具有包容性,尊重全球用户的语言和文化多样性。技术的包容性和语言文化的多样性应作为未来真正全球人工智能格局的基础。
第三届全球人工智能峰会于10日至12日在利雅得举行,峰会主题是“利用人工智能造福人类”。