💥 Gate广场活动: #PTB创作大赛# 💥
在 Gate广场发布与 PTB、CandyDrop 第77期或 Launchpool 活动 相关的原创内容,即有机会瓜分 5,000 PTB 奖励!
CandyDrop 第77期:CandyDrop x PTB 👉 https://www.gate.com/zh/announcements/article/46922
PTB Launchpool 火热进行中: 👉https://www.gate.com/zh/announcements/article/46934
📅 活动时间:2025年9月10日 12:00 – 9月14日24:00 UTC +8
📌 参与方式:
发布原创内容,主题需与 PTB、CandyDrop 或 Launchpool 相关
内容不少于 80 字
帖子添加话题: #PTB创作大赛#
附上 CandyDrop 或 Launchpool 参与截图
🏆 奖励设置:
🥇 一等奖(1名):2,000 PTB
🥈 二等奖(3名):800 PTB/人
🥉 三等奖(2名):300 PTB/人
📄 注意事项:
内容必须原创,禁止抄袭或刷量
获奖者需完成 Gate 广场身份认证
活动最终解释权归 Gate 所有
国产语音对话大模型来了:李开复零一万物参与,中英双语多模态,开源可商用
来源:量子位
首个中英双语的语音对话开源大模型来了!
这几天,一篇关于语音-文本多模态大模型的论文出现在arXiv上,署名公司中出现了李开复旗下大模型公司01.ai——零一万物的名字。
支持文本语音输入,手机也可玩
据研究人员表示,LLaSM是第一个支持中英文双语语音-文本多模态对话的开源可商用对话模型。
那么,就来看看它的语音文本输入和中英双语能力如何。
首先来个中英文化碰撞,让它用英文评价一下李白:
可以看出,模型思考一会后给出了非常中立的评价,也具备大模型的基本“端水常识”(手动狗头)
我们试着用语音输入“给我推荐一个菜谱吧”:
可以看到模型准确地输出了一个“茄子芝士”的菜谱,就是不知道好不好吃。
不过,我们在尝试的时候也发现,这个模型有时候会出bug。
例如有时候它并不能很好地“听懂人话”。
要求输出中英混合的内容,它会假装看不懂并输出英文:
不过分开的话,它的中英文表述能力还是不错的。
那么,这样的模型究竟是怎么实现的呢?
做了个什么新模型?
从试玩来看,LLaSM主要有两个特点:一个是支持中英输入,另一个是语音文本双输入。
要做到这两点,分别需要在架构和训练数据上做一些调整。
架构上,LLaSM将当前的语音识别模型和大语言模型做了个整合。
LLaSM由三个部分构成,分别包括自动语音识别模型Whisper、模态适配器和大模型LLaMA。
其中,Whisper负责接收原始语音输入,并输出语音特征的向量表示;模态适配器负责对齐语音和文本嵌入;LLaMA则负责理解语音和文本输入的指令,并生成回复。
训练数据上,研究人员整理出了一个包含19.9万个对话和50.8万个语音-文本样本的数据集LLaSM-Audio-Instructions。
而在50.8万个语音-文本样本中,有8万个中文语音样本,42.8万个英文语音样本。
研究人员主要基于WizardLM、ShareGPT和GPT-4-LLM等数据集,通过文本转语音技术,给这些数据集生成语音包,同时过滤掉无效对话。
不过,论文暂时没有对比它和其他语音模型或文本模型的输出效果。
作者介绍
这篇论文来自LinkSoul.AI、北京大学和零一万物。
共同一作Yu Shu和Siwei Dong均来自LinkSoul.AI,此前曾经在北京智源人工智能研究院工作。
LinkSoul.AI是一家AI初创公司,之前推出过首个开源Llama 2的中文语言大模型。
Demo地址: