突破“輪次對(duì)話”模式 Soul技術(shù)升級(jí)讓AI交流更具“活人感”
作為聚焦年輕用戶社交需求的平臺(tái),Soul App近日正式升級(jí)自研端到端全雙工語(yǔ)音通話大模型,通過技術(shù)突破,讓AI自主決定說(shuō)話時(shí)機(jī),打破傳統(tǒng)“輪次對(duì)話”模式,為用戶帶來(lái)更自然、沉浸的人機(jī)交互體驗(yàn)。此次升級(jí)不僅是Soul在AI社交領(lǐng)域的又一探索,更彰顯了其以技術(shù)賦能情感連接的持續(xù)努力。
新模型摒棄了傳統(tǒng)語(yǔ)音交互中依賴的 VAD(話音激活檢測(cè))機(jī)制與延遲控制邏輯,打破行業(yè)中普遍存在的“輪次對(duì)話”模式,賦予 AI 自主決策對(duì)話節(jié)奏的能力。AI 可實(shí)現(xiàn)主動(dòng)打破沉默、適時(shí)打斷用戶、邊聽邊說(shuō)、時(shí)間語(yǔ)義感知、并行發(fā)言討論等。同時(shí),模型具備多維度感知(包括時(shí)間感知、環(huán)境感知、事件感知等),口語(yǔ)化表達(dá)(如語(yǔ)氣詞、結(jié)巴、明顯情緒起伏),音色復(fù)刻等能力,讓 AI 更具“真人感”,支持打造更沉浸、類現(xiàn)實(shí)交互的語(yǔ)音互動(dòng)新體驗(yàn)。
為了盡可能保證全雙工對(duì)話模型的基礎(chǔ)對(duì)話能力,避免模型“降智”,新模型采用了雙 LLMs 的結(jié)構(gòu)。由負(fù)責(zé)對(duì)話理解與生成的Dialogue Model和處理語(yǔ)音生成的Speech Model協(xié)同工作,實(shí)現(xiàn)跨模態(tài)信息的完整傳遞。通過精準(zhǔn)建模“說(shuō)話時(shí)機(jī)”與“沉默持續(xù)時(shí)間”,AI獲得了自主決策對(duì)話節(jié)奏的能力,讓AI的“真人感”大幅提升。
在社交陪伴場(chǎng)景中,Soul的AI能力展現(xiàn)出顯著創(chuàng)新:不僅能通過情緒起伏、語(yǔ)氣詞等細(xì)節(jié)傳遞鮮明情感,還能深度整合人設(shè)與上下文,構(gòu)建連貫的“數(shù)字人格”故事線。此外,除了一對(duì)一的情感傾訴,目前Soul團(tuán)隊(duì)還在探索多人語(yǔ)音中的話題引導(dǎo),讓AI能自然融入,成為用戶社交關(guān)系網(wǎng)絡(luò)的重要補(bǔ)充。
通過技術(shù)創(chuàng)新打破人機(jī)交互的邊界,Soul正不斷豐富著社交場(chǎng)景的可能性,讓AI真正成為傳遞情緒價(jià)值、增強(qiáng)用戶歸屬感的重要力量。此次全雙工語(yǔ)音模型的升級(jí),進(jìn)一步推動(dòng)了人機(jī)互動(dòng)向“情感與信息雙向交流”演進(jìn)。未來(lái),Soul還將探索多人交互場(chǎng)景的技術(shù)應(yīng)用。