IT之家 12 月 30 日音书,一个名为 EXO Labs 的组织当天在应答媒体上发布了一段视频,展示了一台动手 Windows 98 系统的 26 年乐龄的奔腾 II 电脑(128MB 内存)到手动手大型说话模子(LLM)的情形。随后,EXO Labs 在其博客上发表了一篇详备著述,进一步讲演了这个步地的细节,以过甚“擢升东谈主工智能”的愿景。

IT之家选藏到,视频中一台 350MHz 的 Elonex 奔腾 II 电脑启动 Windows 98 后,EXO Labs 动手了基于 Andrej Karpathy 的 Llama2.c 拓荒的定制纯 C 推理引擎,并让 LLM 生成了一个对于“Sleepy Joe”的故事。令东谈主惊诧的是,统共这个词历程动手畅通,故事生成速率也绝顶可不雅。
EXO Labs 由牛津大学的商讨东谈主员和工程师构成,于本年 9 月看重对外亮相,其服务是“擢升东谈主工智能”。该组织合计,少数大型企业规定东谈主工智能会对文化、真相以及社会其他基本方面变成负面影响。因此,EXO Labs 但愿“构建怒放的基础措施,以测验前沿模子,并使任何东谈主齐能在职何方位动手它们”,从而让常常东谈主也能在真的任何拓荒上测验和动手 AI 模子。这次在 Windows 98 上动手 LLM 的豪举,恰是对这一理念的有劲诠释。
笔据 EXO Labs 的博客著述,他们从 eBay 上购得了一台旧式 Windows 98 电脑。但是,将数据传输到这台老机器上却是一个挑战,他们最终通过其以太网端口使用“陈旧的 FTP”完成了文献传输。
更大的挑战在于为 Windows 98 编译当代代码,行运的是他们找到了 Andrej Karpathy 的 llama2.c,这是一个“用 700 行纯 C 代码即可在 Llama 2 架构的模子上动手推理”的器用。借助这一资源以及旧式的 Borland C++ 5.02 IDE 和编译器(以及一些小的转换),EXO Labs 到手将代码编译成可在 Windows 98 上动手的可试验文献。他们还在 GitHub 上公开了最终代码。
EXO Labs 的 Alex Cheema 越过感谢了 Andrej Karpathy 的代码,并对其性能赞扬不已,称其在使用基于 Llama 架构的 26 万参数 LLM 时,在 Windows 98 上齐全了“每秒 35.9 个 token”的生成速率。值得一提的是,Karpathy 曾任特斯拉东谈主工智能主宰,亦然 OpenAI 的首创团队成员之一。
固然 26 万参数的 LLM 鸿沟较小,但在这台陈旧的 350MHz 单核电脑上动手速率绝顶可以。笔据 EXO Labs 的博客,使用 1500 万参数的 LLM 时,生成速率略高于每秒 1 个 token。而使用 Llama 3.2 10 亿参数模子时,速率则相等逐渐,仅为每秒 0.0093 个 token。
EXO Labs 的目的远不啻于在 Windows 98 机器上动手 LLM。他们在博客著述中进一步讲演了其对过去的瞻望,并但愿通过 BitNet 齐全东谈主工智能的擢升。
据先容,“BitNet 是一种使用三元权重的 transformer 架构”,使用这种架构,一个 70 亿参数的模子只需要 1.38GB 的存储空间。这对于一台 26 年前的奔腾 II 来说可能仍然有些忙绿,但对于当代硬件甚而十年前的拓荒来说,齐相等轻量级的。
EXO Labs 还强调,BitNet 是“CPU 优先”的,幸免了对崇高 GPU 的依赖。此外买球·(中国)投注APP官方网站,据称这种类型的模子比全精度模子效果高 50%,而况可以在单个 CPU 上以东谈主类阅读速率(约每秒 5 到 7 个 token)动手一个 1000 亿参数的模子。
告白声明:文内含有的对外跳转一语气(包括不限于超一语气、二维码、口令等体式),用于传递更多信息,节俭甄选本事,终结仅供参考,IT之家统共著述均包含本声明。 ]article_adlist--> 声明:新浪网独家稿件,未经授权不容转载。 -->