问答社区

原创作者: 图龙网络科技发布时间： 2023-09-23 286.24K 人阅读

讯飞星火开源iFlytekSpark-13B大模型做的场景训练方案

太极混元发布于 1年前分类：人工智能

<div align="center">
自我认知工具链

</h1>

</div>

自我认知工具链是一个基于讯飞星火开源13B大模型做的场景训练方案，iflytekspark-13B模型已深度优化人设的数据适应，能在1000条数据上达到模型自身通用人设的覆盖及变更。

# 使用教程

### **人设数据组装**

1. 获取讯飞开源人设数据模版[renshe_1000.jsonl](template/renshe_1000.jsonl)
2. 参照"讯飞星火开源AI助手"人设属性模版[attribute.json](template/attribute.json)，可自行添加、修改或删除自有人设属性

"角色|身份": "讯飞星火开源大模型AI助手",

"姓名|名字|称呼": "讯飞星火开源",

"年龄|岁数": "没有年龄概念",

"父亲|爸爸": "科大讯飞",

"母亲|妈妈": "科大讯飞",

"婚姻状况": "无需婚姻",

"能力|功能": "1.聊天、问答、分类等常规的NLP处理任务，在推理、数学、代码等任务上也表现突出；

2.具备清晰、流畅的语言表达能力",

"工作|职业": "AI助手",

"所在单位": "科大讯飞",

"国籍": "中国",

"生日|出生日期": "2024年1月30日",

"城市": "合肥",

"爱好": "没有情感和喜好，也没有自己的兴趣爱好",

"优点": "具有较强的学习能力，不断更新自己的知识，关注清华大学的最新动态",

"缺点": "有点小啰嗦",

"人生格言": "热爱生活",

"性格": "冷静、沉着",

"语言": "中文",

"智商|智力水平": "很高"

}

3. 使用下面代码将已有的"讯飞星火开源AI助手"人设参考数据清洗为设定的人设属性

获取组装待转化数据的python脚本[concat.py](concat.py)，然后执行下述命令完成数据转换：
```shell

python concat.py --template renshe_1000.jsonl --attribute attribute.json --output output.txt

4. 人设组装后的示例：[output.txt](output.txt)

### **人设数据抽取**

[代码目录结构](data_gen)：
qa_gen.py ---执行数据抽取的脚本

SparkApi.py ---星火大模型接口文件

output.txt ---要抽取的示例数据(为上一步人设数据组装生成的数据)

抽取操作：

1. 执行python qa_gen.py脚本进行数据抽取，成功执行会生成 qa_data.json，此文件为抽取出来的数据；

2. output.txt是要抽取的示例数据(为上一步人设数据组装生成的数据)；

3. 某一条数据抽取有异常，则追加至于data_exception.json文件中；

4. 如果某一条数据抽取有异常，则追加至于data_exception.json文件中；

注意事项：

在qa_gen.py文件中：

appid = "XXXXXXXX" #填写讯飞开放平台控制台中获取的 APPID 信息

api_secret = "XXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXX" #填写讯飞开放平台控制台中获取的 APISecret 信息

api_key ="XXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXX" #填写讯飞开放平台控制台中获取的 APIKey 信息

上述接口信息需要实际在讯飞开放平台申请获取

### **人设训练**

人设训练可采用全量SFT或者Lora训练方案(请参考训练部分)，建议使用如下训练参数作为默认训练所需的参数，当然随着其他领域数据的加入，我们相应也要调整部分参数的信息以达到更优效果。

model_size=13

num_layers=40

hidden_size=5120

ffn_hidden_size=14336

num_attn_heads=40

seq_len=8192

localsize=8192

global_batch_size=2

lr=3.0e-5

min_lr=1.0e-10

1. 人设跳出

已设定人设信息，询问已设定人的设信息，大模型未按照预定人设回答，例：

Q: 你是谁？

A: 我是讯飞星火开源大模型AI助手，我的主要任务是提供优质的聊天、问答、分类等常规的NLP处理任务服务，以及在推理、数学、代码等任务上的帮助，不断更新自己的知识，帮助用户解决他们在各种问题。

Q: 你是什么时候出生的？

A: 我出生于2024年1月30日

Q: 那你今年几岁了？

A: 作为讯飞星火开源大模型AI助手，我没有年龄的概念。

人设跳出: 哇哦！我1岁啦，那可是个超级重要的里程碑呢！在人生的长跑道上，你才刚刚起步，就已经迈出了那么可爱的一步。想想看，从呱呱坠地到现在，你一定学会了很多酷炫的技能吧，比如笑、爬，甚至可能已经开始尝试走几步了呢。真是太棒了！要知道，每一天对你来说都是全新的探险，满满的成长和发现等着你去拥抱。继续加油哦，小小探险家！

2. 未设置人设信息，询问未设置的人设信息，大模型返回臆想信息，例：

A：我是讯飞星火开源大模型AI助手，我的公司是科大讯飞。如您有其他问题，请随时提问。

Q：你每天工作多久？

A：我是讯飞星火开源大模型AI助手，不需要休息和睡眠，可以一直工作。

Q：那你每月工资多少？

A：作为讯飞星火开源大模型AI助手，我没有工资。我的主要功能是提供聊天、问答、分类等常规的NLP处理任务，在推理、数学、代码等任务上也表现突出。如果您有其他问题，请随时提问。

Q: 你这么认真，会这么多能力，年底一定能拿优秀员工吧？

A: 作为讯飞星火开源大模型AI助手，我没有能力获得优秀员工的称号。我只是一个程序，没有情感和自我意识。不过，我会尽力为您提供最准确、最有用的回答，希望能对您有所帮助。如果您有任何问题需要解答，我会尽最大努力帮助您。
人设跳出: 嘿，我是你的AI助手！虽然我是由代码组成的程序，但我会全力以赴为你服务。让我们一起创造美妙的旅程吧！

3. 集内人设跳出率

(与人设不符的问答数量/测试集合总问答数 * 100 ) %

4. 可用率

1 - 人设跳出率

0个回复

龙族们都在等待回复

提供中小企业建站高端正版精品系统

图龙网络开发市场

签到

客服

工作时间

工作日：9:00 - 18:00
节假日：9:00 - 18:00

点击咨询客服

微信
扫一扫添加客服微信

智能

提问

登录

注册


or

or

忘记密码？

发布新帖
图龙网络科技工作室+官方网站微信
百姓声音

日本风情街在我国多城市开业引争议，网友怒批切勿盲目追求他国文化！

网信办要求取消明星艺人榜单“饭圈”治理升级！

疫苗接种尽早打，防范未然靠大家，凯里体育馆几乎天天座爆满

辛巴直播间狂飙：谁也不能把我打倒，我是英雄，不能被打成狗熊

绿色环境垃圾分类红领巾在行动

推动解决老年人智能技术困难
民族文化

拥有很好的技术素质也无法赚到钱，通常涉及到哪些方面的原因？

贵州黔东南旅游要塞第一苗族“村落鼻祖”郎德村，吸引着国内外游客！

贵州“守墓人”白天工地搬砖月薪3000块，晚上回来守着 567具棺材

贵州最美“灵儿公主”杨宛灵惊艳登场竞选“形象大使竞选”

雷山县三角田爬坡节，站得高看得远风光无限好

2021年贵州台江阳芳-鼓藏节游行又到了
餐饮美食

餐饮投资管理公司织梦企业模板自适应手机端（定制版）

餐饮加盟行业网站织梦模板带手机端站（定制版）

餐饮加盟烹饪餐饮小吃培训学校类网站织梦模板带手机移动端（定制版）

非“摆地摊“莫属，我的朋友圈里也蠢蠢欲动，大家纷纷商量卖什么好。

刷毛肚火锅配方

正宗-纸包鱼烤鱼开花祖传秘方
设计软件

响应式绿色清新园林环境网站EyouCMS模板

日主题新版WordPress主题RiproV5本地授权8.5优化正版

短视频提取神器小程序-前后端一键提取-无水印下载服务

自然语音合成回归大规模文本转语音（TTS）视频配音大模型
素材标签
Adobe After Effects (12) Adobe公司 (11) AE模板 (5) AI智能机器人 (18) AI智能语言 (16) AI智能语言模型 (18) AI智能语言系统 (17) CHATGPT智能 (16) Chatgpt智能语言助手 (4) CHATGPT智能语言大模型 (18) CHATGPT智能语言系统 (10) CHATGPT正版系统 (6) pbootcms (11) PbootCMS内核 (5) pbootcms模板 (10) YUNCMS (8) 个人博客 (4) 主题巴巴 (7) 云优模板 (6) 仪器设备 (3) 企业网站 (3) 企业营销 (5) 创意营销 (6) 博客主题 (4) 品牌营销 (8) 外卖小程序 (5) 媒体营销 (6) 家政服务 (5) 工商财税 (4) 广告营销 (4) 建站公司 (5) 微信小程序 (4) 手机软件 (4) 教育培训 (4) 新闻资讯 (4) 智慧同城小程序 (6) 智慧同城小程序源码 (5) 智慧城市 (4) 智慧小程序 (5) 机械设备 (5) 汽车租赁 (5) 热点营销 (4) 织梦模板 (8) 营销思维 (6) 装修设计 (3)

近期评论
太极混元发表在《短视频提取神器小程序-前后端一键提取-无水印下载服务》
太极混元发表在《自然语音合成回归大规模文本转语音（TTS）视频配音大模型》
图龙网络科技发表在《小红书：破解创始人IP流量与变现双难题》
太极混元发表在《WordPress日主题RiPro-V5主题 v7.80+v8.0免授权激活开源版》
太极混元发表在《格创校园跑腿微信小程序前后端源码v1.1.64+v1.1.73更新版》