活久见开云体育,太乙真东说念主给讲论文了噻!
咳咳,各位说念友且听我一番絮聒。
老说念我闭关数日,所得一篇妙诀,即是此Llasa之法。此术上个月一出,国际仙长们无不瞠目咋舌,直呼" HOLY SHIT "!
热度最高时,曾在 huggingface 上的"丹药热度榜"上排第六。
咳咳,书回正传。
如上激勉围不雅的禁止由香港科技大学等连合推出,它考证语音合成模子,也不错解任 Scaling Law,即膨大筹办资源、语音合见效果不错更好。
它中枢建议了一个语音合成的简便框架 Llasa,该框架汲取单层 VQ 编解码器和单个 Transformer 架构,和圭臬 LLM 保合手一致。
斟酌团队提供了 TTS 模子(1B、3B、8B)、编解码器的 checkpoint 以及窥察代码。
一气呵成 TTS 系统
连年来,基于 Transformer 的大型语言模子(LLM)在当然语言解决领域获得了权臣证实,尤其是通过膨大模子范畴和窥察数据来擢升性能。
可是,现时的 TTS 系统时常需要多阶段模子(举例在 LLM 后使用扩散模子),这使得在窥察或推理阶段膨大筹办资源变得复杂。
本斟酌建议了一种单阶段 TTS 框架Llasa,旨在简化这一历程,同期探索窥察技能和推理技能膨大对语音合成的影响。
它基于 Llama 模子,汲取单 Transformer 架构,伙同了一个想象精致的语音分词器(tokenizer),大概将语音波形编码为闹翻的语音象征,并解码回高质地音频。
该框架的中枢在于将语音和文本象征连合建模,通过揣摸下一个语音象征来生谚语音。
关节组件:
语音分词器(Xcodec2):将语音波形编码为闹翻象征,同期保留语音的语义和声学信息。
Transformer 模子:基于 Llama 脱手化,学习文本和语音象征的连合分辩。
考证 Scaling Law 窥察技能膨大(Scaling Train-time Compute)
斟酌者通过膨大模子范畴和窥察数据范畴来斟酌其对语音合成性能的影响。
实验标明,加多模子参数(从 1B 到 8B)和窥察数据量(从 80k 小时到 250k 小时)不错权臣提高语音的当然度、韵律准确性和心绪抒发能力。
关节发现:
文智力略能力:更大的模子和更多的数据大概更好地融会复漫笔本(如诗歌、心绪文本)。数据越多,连有数字,复合词也能辨其真意。
零样本学习能力:膨大窥察资源大概权臣提高模子对未见言语东说念主的语音克隆能力。
推理技能膨大(Scaling Inference-time Compute)
斟酌还探索了在推理阶段通过加多筹办资源(举例使用语音融会模子当作考证器)来优化生谚语音的质地。实验标明,推理技能膨大不错权臣提高语音的心绪抒发、音色一致性和现实准确性。
关节步伐:
历程奖励模子(PRM):通过缓缓优化生成历程来提高语音质地。
输出奖励模子(ORM):通过评估最毕生成的语音来聘任最优输出。
实验禁止
语音分词器性能:建议的 Xcodec2 在多个方向上优于现存分词器,十分是在低比特率下的语音重建质地。
TTS 性能:Llasa 在 LibriSpeech、Seed-TTS-Eval 和 ESD 数据集上达到了伊始进的性能,尤其是在心绪雷同性、音色雷同性和零样本学习能力方面。
推理技能膨大效果:通过 PRM 和 ORM 步伐,推理技能膨大权臣提高了语音合成的质地,尤其是在复杂任务中。
"开源渡世"
咳咳,太乙真东说念主再行上线:
老说念已将丹方(窥察代码)、丹药(模子权重)公之于世,广邀三界修士共参:
秘方参照:Llasa: Scaling Train-Time and Inference-Time Compute for Llama-based Speech Synthesis
论文连气儿:https://arxiv.org/abs/2502.04128
Llasa 窥察代码 https://github.com/zhenye234/LLaSA_training
Codec 窥察 https://github.com/zhenye234/X-Codec-2.0
Llasa test-time-scaling 代码 https://github.com/zhenye234/LLaSA_inference
模子权重 : https://huggingface.co/collections/HKUSTAudio/llasa-679b87dbd06ac556cc0e0f44
各位说念友若有心得,不妨留言论说念,老说念自当逐一解惑!
— 完 —
学术投稿请于使命日发邮件到:
ai@qbitai.com
标题注明【投稿】,告诉咱们:
你是谁,从哪来,投稿现实
附上论文 / 方式主页连气儿,以及联系面貌哦
咱们会(尽量)实时回应你
一键存眷 � � 点亮星标
科技前沿证实逐日见
一键三连「点赞」「转发」「留意心」
接待在驳斥区留住你的念念法!开云体育