Closed
Description
现状
- deepspeed refactor(deepspeed): Refine traning code #2055
- 中文paraformer 全语种whisper [paraformer] support fintune #2139 @xingchensong feat(whisper): support whisper arch #2141
- 代码简洁 容易diy
- llm decoder onoy 下代码几乎一致
- 有 lora的pr, LoRA support #2049
语音大模型是一方面https://github.com/wenet-e2e/wenet/issues/2097, 另外一个路子是和llm的结合, 后者目前paper 日益增多, 缺少合语音、llm的一体的简单易于diy/研究的repo
在此有个想法,wenet集成llm 比如llama
宗旨
- 数据、模型、代码全部都会开源开放,欢迎大家贡献,有数据的出数据,有意见的出意见,有机器的出机器,大家共创。
- 且做且分析
目标
- base 当前/未来语音大模型中文开源语音大模型计划 #2097 + xxx llm, 构造Audio+LLM的语音语言打模型,unify all speech task + speech multi-round chat ability
- 积累语音所有任务的数据以及构造audio instruct/prompt数据
Action
数据
- 中文开源语音大模型计划 #2097 (comment)
- 构造speech instruct/prompt
训练
- FSDP [train_engine] support fsdp #2412
- convert xxxllm to wenet format
- 解决llm base下语音热词/itn等问题
- generate/chat
- tokenizer 重构:[feats/llm]语音大模型背景下的llm集成 #2142 (comment) @Mddct
- 新IO , 支持各种灵活的输入 [dataset] new io for code reuse for many speech tasks #2316
- flash att: [transformer] support flash att by 'torch scaled dot attention' #2351
- adapter/lora
- 融合方案:扩词典+embedding
- multi task https://github.com/QwenLM/Qwen-Audio (p0)
- 中文开源语音大模型计划 #2097 (comment)
- wenet 增加 paraformer 支持(目前最好的中文模型,可以用来中文speech基座)[cli/paraformer] ali-paraformer inference #2067
- generate tokens and can be used by speech generation (translation/tts)
部署
- wenet.cpp (speech.cpp+xxxllm.cpp)
- int4量化,降低带宽需求
目前可行方案,
- https://github.com/salesforce/BLIP
- https://github.com/QwenLM/Qwen-Audio
- https://google-research.github.io/seanet/audiopalm/examples/
- etc
特点: 主要为微调,微调对数据量要求不高,方法类似,
需要基座: Llama + whisper + tune