微软研究人员说,他们已经开发了一种高效的AI模型,可以在CPU上运行

微软的研究人员声称,他们已经开发了迄今为止最大的1位AI模型,也称为“比特网”。称为BITNET B1.58 2B4T,它在MIT许可证上公开可用,可以在CPU上运行,包括Apple的M2。

微软研究人员说,他们已经开发了一种高效的AI模型,可以在CPU上运行

咬伤网络本质上是压缩模型,旨在在轻质硬件上运行。在标准模型中,权重(定义模型内部结构的值)经常进行量化,以便模型在各种机器上的性能很好。量化权重的降低数量(计算机可以处理的最小单元)来表示这些权重,使模型能够在芯片上运行较少的内存,更快。

bitnets仅将权重量化为三个值:-1、0和1。从理论上讲,这使得它们比当今大多数模型更具内存和计算效率。

微软研究人员说,比特网B1.58 2b4t是第一个具有20亿参数的比特网,“参数”在很大程度上是“权重”的代名词。研究人员声称,在一个4万亿代币的数据集上进行了培训,相当于大约3300万本书 - 一项估计 - 研究人员声称,Bitnet B1.58 2B4T优于传统型号。

BITNET B1.58 2B4T并没有用竞争对手20亿参数模型在地板上扫地,但似乎拥有自己的型号。根据研究人员的测试,该模型超过了Meta的Llama 3.2 1B,Google的Gemma 3 1b和Alibaba的QWEN 2.5 1.5B在基准上,包括GSM8K(包括GSM8K)(级别的学位数学问题)和PIQA(测试了物理识别的推理技能)。

也许更令人印象深刻的是,比特网B1.58 2B4T比其大小的其他型号快(在某些情况下,是两倍的速度),同时使用内存的一小部分。

但是有一个捕获。

实现该性能需要使用Microsoft的自定义框架BitneT.CPP,目前仅适用于某些硬件。受支持芯片列表的缺少是GPU,它主导了AI基础设施景观。

这就是说,比特网络可能会有希望,特别是对于资源受限的设备。但是兼容性是 - 并且很可能会保留 - 一个很大的症状。

avatar

知识菜鸟 管理员

发布了:21056篇内容
查阅文章

发布评论

验证码

QQ交谈

在线咨询:QQ交谈

工作时间:每天9:00 - 18:00
若无特殊,节假日休息

我的微信