Skip to content

[feats/llm]语音大模型背景下的llm集成  #2142

Closed
@Mddct

Description

@Mddct

现状

语音大模型是一方面https://github.com/wenet-e2e/wenet/issues/2097, 另外一个路子是和llm的结合, 后者目前paper 日益增多, 缺少合语音、llm的一体的简单易于diy/研究的repo

在此有个想法,wenet集成llm 比如llama

宗旨

  1. 数据、模型、代码全部都会开源开放,欢迎大家贡献,有数据的出数据,有意见的出意见,有机器的出机器,大家共创。
  2. 且做且分析

目标

  1. base 当前/未来语音大模型中文开源语音大模型计划 #2097 + xxx llm, 构造Audio+LLM的语音语言打模型,unify all speech task + speech multi-round chat ability
  2. 积累语音所有任务的数据以及构造audio instruct/prompt数据

Action

数据

训练

部署

  • wenet.cpp (speech.cpp+xxxllm.cpp)
  • int4量化,降低带宽需求

目前可行方案,

Metadata

Metadata

Assignees

No one assigned

    Type

    No type

    Projects

    No projects

    Milestone

    No milestone

    Relationships

    None yet

    Development

    No branches or pull requests

    Issue actions