2023年3月14日GPT4又发布了 在ChatGPT发展如火如荼的当下 我们更应该关注国内的进展 今天将分享一个清华大学基于GLM-130B模型开发的类似ChatGPT的ChatGLM-6B模型 ChatGLM-6B 是一个开源的、支持中英双语的对话语言模型 基于 General Language Model (GLM) 架构 具有 62 亿参数。结合模型量化技术 用户可以在消费级的显卡上进行本地部署 INT4 量化级别下最低只需 6GB 显存 。ChatGLM-6B 使用了和 ChatGPT 相似的技术 针对中文问答和对话进行了优化。经过约 1T 标识符的中英双语训练 辅以监督微调、反馈自助、人类反馈强化学习等技术的加持 62 亿参数的 ChatGLM-6B 已经能生成相当符合人类偏好的回答。

官网博客 https://chatglm.cn/blog

代码地址 https://github.com/THUDM/ChatGLM-6B

ChatGLM-6B 有如下特点

ChatGLM-6B进展

目前还在内测阶段 内测的版本是qa-glm-v0.7 内测地址 https://chatglm.cn/login

充分的中英双语预训练  ChatGLM-6B 在 1:1 比例的中英语料上训练了 1T 的 token 量 兼具双语能力。优化的模型架构和大小  吸取 GLM-130B 训练经验 修正了二维 RoPE 位置编码实现 使用传统FFN结构。6B 62亿 的参数大小 也使得研究者和个人开发者自己微调和部署 ChatGLM-6B 成为可能。较低的部署门槛  FP16 半精度下 ChatGLM-6B 需要至少 13GB 的显存进行推理 结合模型量化技术 这一需求可以进一步降低到 10GB INT8 和 6GB INT4 使得 ChatGLM-6B 可以部署在消费级显卡上。更长的序列长度  相比 GLM-10B 序列长度1024 ChatGLM-6B 序列长度达 2048 支持更长对话和应用。人类意图对齐训练  使用了监督微调 Supervised Fine-Tuning 、反馈自助 Feedback Bootstrap 、人类反馈强化学习 Reinforcement Learning from Human Feedback 等方式 使模型初具理解人类指令意图的能力。输出格式为 markdown 方便展示。

ChatGLM-6B调用方式

可喜的是 模型已经集成到Huggingface了 可以使用如下方式进行调用

 from transformers import AutoTokenizer, AutoModel tokenizer AutoTokenizer.from_pretrained( THUDM/chatglm-6b , trust_remote_code True) model AutoModel.from_pretrained( THUDM/chatglm-6b , trust_remote_code True).half().cuda() response, history model.chat(tokenizer, 你好 , history []) print(response)你好 !我是人工智能助手 ChatGLM-6B,很高兴见到你,欢迎问我任何问题。 response, history model.chat(tokenizer, 晚上睡不着应该怎么办 , history history) print(response)晚上睡不着可能会让你感到焦虑或不舒服,但以下是一些可以帮助你入睡的方法:1. 制定规律的睡眠时间表:保持规律的睡眠时间表可以帮助你建立健康的睡眠习惯,使你更容易入睡。尽量在每天的相同时间上床,并在同一时间起床。2. 创造一个舒适的睡眠环境:确保睡眠环境舒适,安静,黑暗且温度适宜。可以使用舒适的床上用品,并保持房间通风。3. 放松身心:在睡前做些放松的活动,例如泡个热水澡,听些轻柔的音乐,阅读一些有趣的书籍等,有助于缓解紧张和焦虑,使你更容易入睡。4. 避免饮用含有咖啡因的饮料:咖啡因是一种刺激性物质,会影响你的睡眠质量。尽量避免在睡前饮用含有咖啡因的饮料,例如咖啡,茶和可乐。5. 避免在床上做与睡眠无关的事情:在床上做些与睡眠无关的事情,例如看电影,玩游戏或工作等,可能会干扰你的睡眠。6. 尝试呼吸技巧:深呼吸是一种放松技巧,可以帮助你缓解紧张和焦虑,使你更容易入睡。试着慢慢吸气,保持几秒钟,然后缓慢呼气。如果这些方法无法帮助你入睡,你可以考虑咨询医生或睡眠专家,寻求进一步的建议。

Note 也可以使用gradio进行web端展示效果 可以参考https://github.com/THUDM/ChatGLM-6B/blob/main/web_demo.py

ChatGLM-6B局限

由于ChatGLM-6B的小规模 其能力仍然有许多局限性。以下是我们目前发现的一些问题

模型容量较小 6B的小容量 决定了其相对较弱的模型记忆和语言能力。在面对许多事实性知识任务时 ChatGLM-6B可能会生成不正确的信息 它也不擅长逻辑类问题 如数学、编程 的解答

产生有害说明或有偏见的内容 ChatGLM-6B只是一个初步与人类意图对齐的语言模型 可能会生成有害、有偏见的内容。 内容可能具有冒犯性 此处不展示

英文能力不足 ChatGLM-6B 训练时使用的指示/回答大部分都是中文的 仅有极小一部分英文内容。因此 如果输入英文指示 回复的质量远不如中文 甚至与中文指示下的内容矛盾 并且出现中英夹杂的情况

易被误导 对话能力较弱 ChatGLM-6B 对话能力还比较弱 而且 “自我认知” 存在问题 并很容易被误导并产生错误的言论。例如当前版本的模型在被误导的情况下 会在自我认知上发生偏差。

参考文献

[1] https://chatglm.cn/blog

[2] https://github.com/THUDM/ChatGLM-6B

优惠劵
2023年3月14日GPT4又发布了,在ChatGPT发展如火如荼的当下,我们更应该关注国内的进展,今天将分享一个清华大学基于GLM-130B模型开发的类似ChatGPT的ChatGLM-6B模型,ChatGLM-6B 是一个开源的、支持中英双语的对话语言模型,基于 General Language Model (GLM) 架构,具有 62 亿参数。因此,如果输入英文指示,回复的质量远不如中文,甚至与中文指示下的内容矛盾,并且出现中英夹杂的情况;例如当前版本的模型在被误导的情况下,会在自我认知上发生偏差。 复制链接

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

更多文章请关注《万象专栏》