ollama 技巧之一:
ollama run Phi3-Q2 –keepalive 20s
或者
ollama run Phi3-Q2 –keepalive=20s
停止生成后20秒内无问答则卸载。
inference+training 半精度fp16, int8, int4
教程: https://www.bilibili.com/video/BV1Eu4m1F7iU
Colab 免费T4 Notebook: GPU https://colab.research.google.com/drive/135ced7oHytdxu3N2DNe1Z0kqjyYIkDXp?usp=sharing
Inference 推理所需显存
fp16 需要 140GB
int8 需要 70GB 四卡3090可以跑
int4 需要 35GB 双卡可以跑
1. 训练 AdamW 需要存一阶导和二阶导。显存=参数x8
70B模型需要参数大小x8的显存,70X8=560GB 。需要24张3090. 8张A100 80G可以炼丹
普通人只能4卡炼int4的。或者8卡炼int8的。
13B模型,13X8=104GB 3090八卡可以炼丹
2. 如果用SGD优化器,需要x4的显存。
70B X 4= 280G. 12张3090 24G,4张A100 80G
13B X 4= 52G. 4张3090 可以炼丹
3. AdaFactor
x4
4. 8 bit AdamW
x2
准备13B炼丹
1. 数据集:
HuggingFace wikimedia/wikipedia 61MB 61,614,907行
fka/awesome-chatgpt-prompts 74.6 kB 153行
Open-Orca/OpenOrca 1.01 GB + 3.09 GB 2,914,896 行
2. 模型选用:
Llama3 8B
Higgs-Llama-3-70B 4 bit
wiki:
https://huggingface.co/datasets/wikimedia/wikipedia/tree/main/20231101.en
https://huggingface.co/datasets/wikimedia/wikipedia/tree/main/20231101.uk
https://huggingface.co/datasets/wikimedia/wikipedia/tree/main/20231101.zh
Open-Orca/OpenOrca 2,914,896 行
https://huggingface.co/datasets/Open-Orca/OpenOrca/resolve/main/1M-GPT4-Augmented.parquet?download=true
https://huggingface.co/datasets/Open-Orca/OpenOrca/resolve/main/3_5M-GPT3_5-Augmented.parquet?download=true