首页 文章详情

一分钟部署 Llama3 中文大模型,没别的,就是快

云原生实验室 | 168 2024-05-16 07:14 0 0 0
UniSMS (合一短信)

前段时间百度创始人李彦宏信誓旦旦地说 开源大模型会越来越落后,闭源模型会持续领先 随后小扎同学就给了他当头一棒,向他展示了什么叫做顶级开源大模型。

c9e77bea262898e5d36a82885d4301b6.webp

美国当地时间4月18日,Meta 在官网上发布了两款开源大模型,参数分别达到 80 亿 (8B) 和 700 亿 (70B),是目前同体量下性能最好的开源模型,而且直接逼近了一线顶级商业模型 GPT-4 和 Claude3。

77c78b459cb2e659bea8117503f2306c.webp

与此同时,还有一个 400B 的超大杯模型还在路上,估计很快就会放出来,到时候就真的碾压了,某些声称闭源遥遥领先的哥们就等着哭吧 😢

虽然才过去短短几日,Huggingface 上已经涌现了非常多的 Llama3 中文微调版,令人眼花缭乱:

31faf9e18d8c87cc137701862dbb42aa.webp

想不想自己也部署一个 Llama3 中文版?

对于没有 GPU 的同学,我们可以使用微调的量化模型来使用 CPU 运行。不同的量化方法会带来不同的性能损失:

  1. 8bit 量化没有性能损失。
  2. AWQ 4bit 量化对 8B 模型来说有 2%性能损失,对 70B 模型只有 0.05%性能损失。
  3. 参数越大的模型,低 bit 量化损失越低。AWQ 3bit 70B 也只有 2.7%性能损失,完全可接受。

综合来说,如果追求无任何性能损失,8B 模型用 8bit 量化,70B 模型用 4bit 量化

如果能接受 2-3%损失,8B 模型用 4bit 量化,70B 模型用 3bit 量化。

9894e79c06c4a9bf3313850647603afe.webp

目前效果最好的中文微调版是 HuggingFace 社区的 zhouzr/Llama3-8B-Chinese-Chat-GGUF 模型[1],该模型采用 firefly-train-1.1M、moss-003-sft-data、school_math_0.25M、弱智吧(没错,就是那个弱智吧~)数据集,使模型能够使用中文回答用户的提问。

下面我们来看看如何在三分钟内快速部署这个模型吧。

直接在浏览器中打开以下链接:

  • https://bja.sealos.run/?openapp=system-template%3FtemplateName%3Dllama3-8b-chinese

然后点击右上角的「去 Sealos 部署」。

如果您是第一次使用 Sealos,则需要注册登录 Sealos 公有云账号,登录之后会立即跳转到模板的部署页面。

跳转进来之后,点击右上角的「部署应用」开始部署,部署完成后,直接点击应用的「详情」进入该应用的详情页面。

fdfd0232862c9659a72865140e1e60f8.webp

等待实例状态变成 running 之后,Llama3 中文版模型就部署好了,默认会提供一个与 OpenAI 官方接口对齐的 API,你可以打开终端直接通过 API 来测试。我框出来的部分就是该模型 API 在 Sealos 集群的内网地址,你可以点击它直接复制。

beb7cc2d39625095536fe4abc6b29fca.webp

为了更直观地使用,我们可以选择再部署一个 WebUI,Lobe Chat、ChatGPT Next Web 这些都可以使用,本文以 Lobe Chat 为例,直接在浏览器打开以下链接:

  • https://bja.sealos.run/?openapp=system-template%3FtemplateName%3Dlobe-chat

需要填写三个变量的值,如下图所示:

d786a0fcf94d9ecbc787c7cc2bfffc35.webp
  • OPENAI_PROXY_URL 的值就是我们刚刚复制的内网 API 接口地址,记得要在末尾加上 /v1
  • OPENAI_MODEL_LIST 的值是 +Llama3-8B-Chinese-Chat.q4_k_m.GGUF
  • OPENAI_API_KEY 的值随便瞎写一个就行。

然后点击右上角的「部署应用」,部署完成后,直接点击应用的「详情」进入该应用的详情页面,等待实例状态变成 running 之后,点击外网地址即可打开 Lobe Chat 的可视化界面。

14b02fc3ca2552f7e362a98690a83559.webp

进来之后,先点击顶部的 gpt-3.5-turbo:

7cc056d2dcf9f0fd838e684345772015.webp

在弹出来的下拉框中点击「Llama3-8B-Chinese-Chat.q4_k_m.GGUF」,切换到该模型。

570f4fbdb5e431331773f9920006b0ed.webp

现在就可以和模型愉快地对话了,先来个弱智吧的问题尝尝咸淡:

100612f11c44a4641567bcb3cc6a7f72.webp

再来试试 GPT-4 专用测试问题:

4cc68e16764e6c03fd82ebed617e69ed.webp

数学能力测试:

e7fcda8e1da92b82b6652113b1ef418b.webp

???

引用链接

[1]

zhouzr/Llama3-8B-Chinese-Chat-GGUF 模型: https://huggingface.co/zhouzr/Llama3-8B-Chinese-Chat-GGUF

f0e92f0231f2a59aca7ef67dd461e5a9.webp 加入 Sealos 开源社区 体验像个人电脑一样简单的云操作系统



🏠官网链接

https://sealos.run


🐙GitHub 地址

https://github.com/labring/sealos


📑访问 Sealos 文档

https://sealos.run/docs/Intro


🏘️逛逛论坛

https://forum.laf.run/

往期推荐

Sealos 云主机上线,便宜,便宜,便宜!

2024-04-24

e3dda5d411ade9ae302e5d29c43f24ca.webp

腾讯云多可用区同时故障的问题其实是可以避免的

2024-04-19

fc310551a968f8092eb2755697091288.webp

5k Star!不用写一行代码的开源在线表单工具

2024-04-15

c2c70abf3784efb64b763e6e757dcf42.webp


关于 Sealos

Sealos 是一款以 Kubernetes 为内核的云操作系统发行版。它以云原生的方式,抛弃了传统的云计算架构,转向以 Kubernetes 为云内核的新架构,使企业能够像使用个人电脑一样简单地使用云。


关注 Sealos 公众号与我们一同成长👇👇👇

49074bdd1d16d42cd1e56a163c3d174e.webp

good-icon 0
favorite-icon 0
收藏
回复数量: 0
    暂无评论~~
    Ctrl+Enter