StableVicuna,稳定羊驼,大规模开源聊天机器人
放心AI网·扩展AI栏目来啦!小编带你挖掘那些小众但超好用的AI神器,错过就亏大啦~
StableVicuna官网,稳定羊驼,大规模开源聊天机器人
知名开源平台StabilityAI在官网宣布开源了,全球首个用RLHF训练的类ChatGPT大语言模型——StableVicuna
(稳定羊驼),它是第一个通过RLHF训练的大规模开源聊天机器人!
语言模型方面,他们也推出了首个开源并引入RLHF技术的聊天机器人StableVicuna,基于小羊驼Vicuna-13B模型
实现。StableVicuna官网开源地址:
https://huggingface.co/spaces/CarperAI/StableVicuna
https://huggingface.co/CarperAI/stable-vicuna-13b-delta
据悉,StableVicuna是一个130亿参数的大语言模型,具备RLHF和指令调优两大特性,除了支持生成文本之外,还具备基础数学、编写代码和讲解语法功能。这也是目前最接近ChatGPT特性的开源模型(测试地址:
StabilityAI表示,ChatGPT能获得空前成功有两**宝一个是指令微调,另外一个就是RLHF。但中小型企业或普通开发人员想训练RLHF并不容易,强化学习很容易遇到模式坍塌,反馈过于稀疏、数据集难筹备、算力成本过高等难题。
所以,我们看到市面上开源类ChatGPT的模型很多,但是生成内容的拟人化方面比ChatGPT差很远甚至有点“傻”,主要原因就是缺少RLHF的支持。
RLHF的中文译为“人类反馈强化学习”,是一种结合人类指导和自动强化学习的训练方法!
人类通过对AI的行为进行评价或指导,帮助其在学习过程中做出更好的决策。由于人类可以通过直觉、视觉和实践经验等来帮助AI,因此,应用RLHF的产品在拟人化方面获得大幅度提升。
简单来说,可以把RLHF看成是一种“妈妈教孩子”的的训练方法。AI相当于刚出生毫无经验的孩子,当他摔倒在地时,母亲(RLHF)会告诉他如何避免摔倒,以及更好的走路方法,孩子可以在这种不断反馈的学习环境中快速成长。
通常RLHF有无监督预训练、有监督的微调、奖励模型和基于奖励模型的强化学习4个步骤组成。
无监督预训练:AI开始学习一个任务,可能会采用随机的策略或基于某种启发式的策略。例如,从一个预训练好的语言模型开始,如GPT-3。
有监督的微调:AI在执行任务时,人类会对其行为进行评估。评估可以是连续的,例如,分数或奖励。也可以是离散的,例如,对某个行为是否正确的二元反馈。然后对预训练的模型进行微调,增强其拟人化能力。
奖励模型:建立一个奖励模型对LLM的输出进行评分。AI根据人类的奖励反馈,会自动优化其策略,以便在未来的输出中更好地执行任务。
基于奖励模型的强化学习:AI会基于奖励模型不断地执行任务,接收人类反馈,并根据反馈更新其输出行为。这个过程会持续进行,直到AI的表现达到人类满意的水平。
StabilityAI为了让StableVicuna像ChatGPT那样同样具备指令微调和RLHF技术特性,采用了一种多模式的组合方法。StabilityAI将Vicuna、OpenAssistant、trlx和GPT4All开源模型组合在一起实现这一目标。简单来说主要有三大步骤组成。
首先,StabilityAI将OpenAssistant、GPT4All、Alpaca的核心训练数据集混合在一起,训练具有监督微调的基础模型Vicuna。
然后使用trlx训练一个奖励模型,该模型基于上述开源模型的RLHF偏好数据集,进一步初始化模型。
最后,StabilityAI使用trlX进行行为策略强化学习,对初始化模型进行RLHF训练最终实现StableVicuna。
StabilityAI表示,非常感谢OpenAssistant的团队为其提供了,他们RLHF数据集的访问权限。如果没有这些珍贵的偏好训练集,StableVicuna无法在短时间内训练完成。
目前,用户如果想使用StableVicuna需要获得原始LLaMA模型的访问权限。获得权重增量和LLaMA权重后,使用GitHub存储库中提供的脚本将它们组合起来,就能使用StableVicuna。
以上就是放心AI网扩展AI栏目的全部推荐!这些隐藏好货,小编下次继续帮你淘!
需要网络免费
资讯AI更多
资讯AI 更多
西班牙拟立法打击AI生成的色情图像,保护未成年人隐私
更新时间:2025-03-26
吉卜力风格AI图刷屏,OpenAI测试GPT - 4o生图模型水印
更新时间:2025-04-08
快手发布财报:Allin视频大模型可灵AI商业化首战告捷
更新时间:2025-03-27
腾讯混元T1正式版和DeepSeekV3-0324上线元宝
更新时间:2025-03-29
互联网医疗AI布局提速,服务质量升级把握新契机
更新时间:2025-04-01
德克萨斯州Alpha学校应用AI辅导系统后,学生成绩提升至全美顶尖行列。
更新时间:2025-04-08
IDC发布报告:全球与中国AI市场投资规模将大幅增长
更新时间:2025-04-08
【重磅来袭】小米MIJIA智能音频眼镜2全新上市,轻薄设计实现录音控车功能,科技升级引领潮流!
更新时间:2025-04-08
全球首款智能体重管理助手“减单”诞生,开启健康新纪元。
更新时间:2025-04-09
Midjourney核心开发者theseriousadult离职,投身Cursor研发AI编程智能体
更新时间:2025-04-10