OpenBMB/CPM-Bee
Python
Captured source
source ↗OpenBMB/CPM-Bee
Description: 百亿参数的中英文双语基座大模型
Language: Python
Stars: 2406
Forks: 179
Open issues: 52
Created: 2023-04-25T14:40:39Z
Pushed: 2023-07-28T04:00:33Z
Default branch: main
Fork: no
Archived: no
README:
✨ 模型介绍
CPM-Bee是一个完全开源、允许商用的百亿参数中英文基座模型,也是**CPM-Live**训练的第二个里程碑。它采用Transformer自回归架构(auto-regressive),在超万亿(trillion)高质量语料上进行预训练,拥有强大的基础能力。开发者和研究者可以在CPM-Bee基座模型的基础上在各类场景进行适配来以创建特定领域的应用模型。
- 👐 开源可商用:OpenBMB始终秉承“让大模型飞入千家万户”的开源精神,CPM-Bee基座模型将完全开源并且可商用,以推动大模型领域的发展。我们鼓励全球范围内的科研机构、企业和个人开发者在遵守[开源许可协议](#模型协议)的前提下,自由地在CPM-Bee基座模型上进行创新。
- 💫 中英双语性能优异:CPM-Bee基座模型在预训练语料上进行了严格的筛选和配比,同时在中英双语上具有亮眼表现,具体可参见[评测任务和结果](#零样本评测)。
- 📖 超大规模高质量语料:CPM-Bee基座模型在超万亿语料进行训练,是开源社区内经过语料最多的模型之一。同时,我们对预训练语料进行了严格的筛选、清洗和后处理以确保质量。
- OpenBMB大模型系统生态支持:OpenBMB大模型系统围绕高性能预训练、适配、压缩、推理开发了一系列工具,CPM-Bee基座模型将配套所有的工具脚本,高效支持开发者进行进阶使用。
- 🔨 对话和工具使用能力: 结合OpenBMB在指令微调和工具学习的探索,我们在CPM-Bee基座模型的基础上进行微调,训练出了具有强大对话和工具使用能力的实例模型,API和内测将于近期开放。
*Read this in English.*
说明:CPM-Bee是一个基座模型,即从零开始通过预训练得来。我们鼓励用户在自己的场景和数据上适配/微调/对齐后再进行使用。例如,WebCPM 以CPM-Bee为基座,在人类网络检索的序列化数据上进行适配,获得了复杂问答和上网检索的能力。后续我们将会发布更多在CPM-Bee基座模型基础上适配的模型。
📰 更新信息
- [2023/06/30] 基于CPM-Bee的多模态系列模型VisCPM发布,支持多模态对话和文生图!
- [2023/06/16] CPM-Bee现已支持🤗Transformers。
- [2023/06/08] 更新了使用CPM-Bee进行基础任务微调的教程。
- [2023/05/27] 百亿参数,允许商用的中英双语基座模型CPM-Bee开源了,它是**CPM-Live**的第二个里程碑。
🍯 CPM-Bee系列模型
| 模型 | 描述 | | :---: | :---: | |VisCPM| 支持多模态对话和图文双向生成的开源中英双语多模态大模型| |WebCPM| 支持复杂问答和上网检索的开源中文大模型|
🚀 安装和使用
您需要克隆该仓库:
$ git clone -b main --single-branch https://github.com/OpenBMB/CPM-Bee.git
并确保您的环境符合要求:
- python>=3.7
- torch>=1.10,,都涉及到使用决策工作表。研究优化的心理学家将与理论理想决策进行比较,看看它们有多相似。工作表程序的支持者认为它会产生最优的,也就是说,最好的决策。虽然有可以接受,但它们在本质上都是相似的。",
"":{
"":"",
"":"",
"":""
}
}
"文本生成": {
"input": "今天天气很好,我和妈妈一起去公园,",
"prompt": "往后写约100字",
"": ""
}
"翻译": {
"input": "北京是中国的首都",
"prompt": "中翻英",
"": ""
}
"问答": {
"input": "NGC 6231是一个位于天蝎座的疏散星团,天球座标为赤经16时54分,赤纬-41度48分,视觉观测大小约45角分,亮度约2.6视星等,距地球5900光年。NGC 6231年龄约为三百二十万年,是一个非常年轻的星团,星团内的最亮星是5等的天蝎座 ζ1星。用双筒望远镜或小型望远镜就能看到个别的行星。NGC 6231在1654年被意大利天文学家乔瓦尼·巴蒂斯特·霍迪尔纳(Giovanni Battista Hodierna)以Luminosae的名字首次纪录在星表中,但是未见记载于夏尔·梅西耶的天体列表和威廉·赫歇尔的深空天体目录。这个天体在1678年被爱德蒙·哈雷(I.7)、1745年被夏西亚科斯(Jean-Phillippe Loys de Cheseaux)(9)、1751年被尼可拉·路易·拉卡伊(II.13)分别再次独立发现。",
"question": "NGC 6231的经纬度是多少?",
"": ""
}
"评分预测": {
"input":"之前多次聚餐都选择这里,有各种大小的包房同时能容纳很多人,环境好有特色还有表演,整体聚餐氛围一下被带动起来。现在由于炭火改成了电烤羊,口感真的不如从前,不过其他菜品都还是不错,烤羊剩下的拆骨肉最后还能再加工一下椒盐的也很好吃。",
"question":"评分是多少?(1-5)",
"":""
}
"选择题": {
"input": "父母都希望自己的孩子诚实、勇敢、有礼貌。要想让孩子成为这样的人,父母首先得从自己做起,要是连自己都做不到,又怎能要求孩子做到呢?",
"options": {
"": "少提要求",
"": "降低标准",
"": "自己先做好",
"": "让孩子拿主意"
},
"question": "教育孩子时,父母应该:",
"": ""
}- 注意在模型推理时可采用上述模板,在模型训练时需在中""处填上标准答案,如:
{
"input": "北京是中国的首都",
"prompt": "中翻英",
"": "Beijing is the capital of China"
}
{
"input": "父母都希望自己的孩子诚实、勇敢、有礼貌。要想让孩子成为这样的人,父母首先得从自己做起,要是连自己都做不到,又怎能要求孩子做到呢?",
"options": {
"": "少提要求",
"": "降低标准",
"": "自己先做好",
"": "让孩子拿主意"
},
"question": "教育孩子时,父母应该:",
"": ""
}- CPM-Bee在预训练阶段注入了一些json格式,可以直接使用,也支持用户自己设计json格式然后微调模型。所有的json格式需要满足下列条件:
- 输出内容必须使用作为键值来组织;
- 选择题的选项建议使用来组织,且xx为数字;
- 填空题的空白建议使用来组织,且xx为数字;
- 因为"、、的触发符,所以在数据中文中必须将"": "1 ": "10 ": ""
}
## 模型预训练 1. **数据清洗** - 需要将每个样本放置为一行,换行进行转义变为\\n,格式可为txt也可为json,例如: - txt格式
... ... How can cross training benefit groups like runners, swimmers, or weightlifters?\n\n1. Reduces the risk of injury...\n\n2. Improves overall fitness... Are there any particular physical benefits to mindful walking, such as improved posture or increased physical fitness?\n\n1. Choose a quiet and peaceful environment...\n\n2. Start by tuning into your breath and becoming aware of your surroundings... ... ...
- json格式
... ... {"template": "Does the answer correctly answer the question", "sentence": "Unicode has the explicit aim of transcending ...", "question": "What is the aim of Unicode?", "options": {"": "no", "": "yes"}, "": ""} ... ...
- **案例**:我们提供了[wiki(txt格式,纯文本)](https://thunlp.oss-cn-qingdao.aliyuncs.com/hx/raw_data.zip)和[flan(json格式,选择题)](https://thunlp.oss-cn-qingdao.aliyuncs.com/hx/raw_data.zip)的样例,可以下载后按下列文件路径中的raw_data进行文件组织,完成后续步骤的尝试。 - ``` CPMBee/ ├── src | └── ... └── raw_data(原始数据位置) ├── wiki | └── raw.txt(txt原始数据) └── flan └── raw.json(json原始数据)
2. 数据集生成
- CPMBee为了高效读取数据以及在分布式文件系统上进行数据集部署,需要将其转化成二进制文件,具体调用src下的build_dataset.py,具体参数包括:
- --input-path: 导入的原始数据路径,程序会将路径下的文件统一打包进行处理
- --output-path: 导出的数据集路径
- --output-name: 导出的数据集名称
- --data-type: txt/json
- --min-length: 小于最小长度的数据将被抛弃
- --max-length: 超过最大长度的数据将被切分
- txt格式的原始数据将按照min-length和max-length进行切分,然后统一以{'text':'......'}的json格式导出到数据集
- 导出的数据集将有两个文件,一个名为output-name的二进制文件,一个meta.bin文件,meta.bin文件中记录了output-name的元信息,包括:
- "file_name": meta.bin对应的文件名,一般就是output-name
- "block_begin": 数据集按块分布存储,数据集所在的开始块,一般是0
- "block_end": 数据集按块分布存储,数据集所在的结束块,一般是总块数
- "nbytes": 60221163, 总的数据集大小
- "nlines": 41733, 总的数据集行数
- "block_size": 16777216,数据集每块大小
- 案例:我们将样例给定的wiki和flan生成为数据集:
- ```bash
$ cd CPMBee/src $ python build_dataset.py --input-path ../raw_data/wiki/ --output-path ../datasets/wiki/ --output-name wiki --data-type txt --min-length 100 --max-length 10000 $ python build_dataset.py --input-path ../raw_data/flan/ --output-path ../datasets/flan/ --output-name flan --data-type json
- 生成之后的文件结构为:
CPMBee/ ├── src | ├── ... | └── build_dataset.py ├── raw_data | ├── wiki | | └── raw.txt | └── flan | └── raw.json └── datasets(生成的数据集) ├── wiki(wiki对应的数据集) | └── data | ├── wiki | └── meta.bin └── flan(flan对应的数据集) └── data ├── flan └── meta.bin
3. 任务转换脚本 - 对于每个数据集,可以撰写任务转换脚本来对数据集中的json格式进行改写,改写成各类预训练任务。 - 脚本格式需满足以下格式:
import random
def transform(data, num_sample: int, r: random.Random): ...
- 对于每个数据集,CPMBee的底层文件系统将会自动导入数据集,读出数据,然后调用任务转换脚本进行改造。 - 转换脚本包含三个输入参数,data为读出样本,num_sample为读出的样本数量(通常为1条,in-context learning设定下会有多条),r为随机生成器。 - **案例**:针对wiki和flan写转换脚本: - wiki脚本
import random
def rand(n: int, r: random.Random): return int(r.random() * n)
def transform(data, num_sample: int, r: random.Random):
按照之前的步骤,wiki中的数据都为{'text':'...'}形式
text =…
Excerpt shown — open the source for the full document.