Google「情境式字幕 Expressive Captions」從英文走向多語系的挑戰
在 Google Pixel 今年六月更新中,宣布了升級「情境式字幕 Expressive Captions 」的功能,這是一個比「即時字幕」更人性化的版本。
Google 官網是這樣介紹的 “Now captions come with all the feelings on everything live, from TV and social to video messages” 不僅要如實傳達對話內容,還表現了情感語氣、語境提示,甚至音效氛圍,讓觀者即使在沒有聲音的情境下,也能完整地感受到故事張力。
舉例來說,在一場激烈的足球攻防賽直播中球評激動地評論著,傳統即時英文字幕可能只會寫出:
“That’s amazing!”
“Goal!”
而Expressive Captions會偵測到高昂的情緒而寫成
“THAT’S AMAZING!”
“GOOOOOOOOAL!”
一看就知道這場賽事多麽厲害!
身為一位致力於打造無障礙體驗的產品設計師,這個功能讓我眼睛為之一亮,用 Pixel 手機測試了之後,我也看了開發團隊Director Angana Ghosh 的幕後訪談,我的感想是這不是只有在炫技展示如何用AI偵測轉換語氣,
而是它代表了我們一直以來希望提升無障礙設計的層次:從「功能性協助」邁向「情感層次的共融」。
在 Pixel 2019 年推出 Android 系統性內建即時英文字幕功能前,我就已經一直找各種即時英文字幕工具來幫助我開英文會議,深刻體會到系統層級的無障礙功能可以深刻提升使用者的體驗。這次的「情境式字幕」更進一步讓聽力障礙者有機會感受到內容中的情緒起伏與共鳴,共感時刻。
測試了英文的足球轉播賽之後,我開始想到中文的問題:
「英文很容易用大寫、重複字母來達成強調語氣,但是情境式字幕要怎麼跨語言到中文、日文等等不是字母的語系?」
無獨有偶,這正是 Angana 在訪談中提到的最大挑戰之一。
於是我就做了些研究和發想,這篇文章會分兩個部分:
- 「情境式字幕」的技術基礎與目前現況
- 它在多語情境中所面臨的文化與設計挑戰,尤其是針對非字母語言的觀察與思考
註:Expressive Captions 這個詞直譯可能是「表意式/表達式字幕」,但我更傾向稱它為「情感字幕」或「情境式字幕」—傳達語氣、情緒、甚至背景音等氛圍,讓使用者真正「感覺」到內容的意圖,本文會用「情感字幕」作為主要稱呼。
第一部分:讓情緒也能被「看到」的技術基礎
情境式字幕是以 Google 原本的 Live Caption 為基礎,補上傳統字幕中缺少的「情緒、語氣與語境」。這項功能的開發團隊非常酷,邀請了劇場工作者、語言治療師,以及聽損社群成員共同參與,去分析現有字幕系統忽略了哪些關鍵聲音資訊。
主要功能:
2024年12月初期版本包含三大重點:
- 語音強度辨識:當講話非常激動時,字幕會自動轉成 全大寫字母(ALL CAPS)例:原本是「I can’t believe it!」,當語氣激動時會變成「I CAN’T BELIEVE IT!」
- 語氣聲捕捉:像是嘆氣、驚呼等非語言聲音,會以 [sighs]、[gasps] 等形式標註例:[嘆氣] 或 [倒抽一口氣],幫助觀眾理解說話者的情緒反應
- 背景聲說明:像是音樂或環境聲也會顯示在字幕中例:[快節奏音樂播放中]、[電話鈴聲響起]

技術架構簡介:
這個系統會分析聲音的頻率組成來進行以下任務:
- 辨識非語音的聲響與背景音
- 將語音內容轉換為具有情緒表現的字幕
- 完全在裝置本地運算,不需傳送到雲端,連飛航模式也能使用
雖然是以無障礙為出發點,但變成了對任何人、任何情境都很實用的功能,身處通勤捷運環境、非母語閱聽、提升了「閱讀字幕」的臨場感,這代表了 Google 對包容性設計的承諾。
第二部分:跨語言設計的文化挑戰
隨著英文版本推出後,隨之而來的是跨語系拓展的挑戰,而如同 Angana 在訪談中所說的:「要做到跨語系支援真的很難」。
挑戰不只是翻譯。像「嘆氣」這種聲音在多數文化中大致相通,但怎麼用文字表達「強調的語氣」,卻深深根植於語言結構與文化習慣中。
中文、許多語言語言本來就沒有「大小寫」的區分,那該怎麼傳達「激動語氣」呢?
我觀察和研究人們在中英文對話、社群媒體、通訊軟體時,如何自然地表達情緒、閱讀彼此用數位方式表達的情感,一些分享或能作為未來多語系字幕設計的參考資料,也希望有更多讀者參與討論。
中文—依靠「視覺節奏」來表情達意
從日常的中文數位對話觀察,我發現幾種常見又自然的強調方式:
- 標點重複:像「太好了!!!」、「真的假的?!」句尾連續標點是最常見的表達情緒張力的用法
- 象聲重複字:例如「啊啊啊」、「嗚嗚嗚」等來表達聲音爆發的重複狀聲字,有點類似英文的 Ahhhhh的用法
- 字與字之間加空格:像「這 也 太 誇 張 了 吧」,類似模仿我們強調語氣時逐字慢說一樣
- 波浪線(~)的使用:例如「真的好好吃喔~~」,來表示語氣拉長或撒嬌語氣,非常常見於非正式對話中
日文
日文在表達情緒時有種獨特的節奏感,跟中文有類似的用法
- 傍點(圏点):傳統日文和中文文本強調使用字符旁邊的小點,雖然在數位平台不常見,但仍是一種特有的強調方式。
- 標點重複:例如「すごい!!!」(好厲害!!)來展現興奮情緒,類似中文,但符號使用習慣不同
韓文
韓文用法也非常直覺:
- 標點重複:「정말요??」(真的嗎??)來表示驚訝或質疑
- 加點分隔強調:像「진.짜.개.힘.들.다.」(真的.超.難.受),透過每個音節中間加點,傳達一字一句說出口的強調感
從文化中尋找靈感:情境式字幕多國語言的可能性
我對於日文與韓文的了解只限於紙上的研究,所以會更希望能夠有懂得多語系的人分享在生活中獲取的靈感。但從文化發展來看,每個語言都已經自然而然地發展出一套能在文字中表達情緒的方式。把「情境式字幕」擴展到其他語系的難度,不只在於技術,更是文化上的深層轉譯。
不同文化中的「高強度語音」
不同語言對「激動語氣」的判斷標準不同。英文裡的吼叫,可能只是某些語言的正常語調。這意味著每個語言都需要有重新訓練的模型,才能正確辨識本地語境中的「情緒強度」。
貼近自然的視覺提示
字幕要設計得貼近語言使用者的直覺,需要依照各語系原本的文字表現習慣,設計自然、符合該文化慣用標示方式,而非一體適用的翻譯。
平衡資訊與可讀性
情境式字幕在表達之餘仍不能過於搶戲而犧牲可讀性。資訊層級的設計要讓重點明確又不干擾主內容。
跨媒體的靈感來源
如果我們超越傳統字幕慣例思考,很多次文化已經用各種方式來「傳遞脈絡」。像是漫畫會用加大字體、速度線、字型變化來強調情緒;而直播平台的「滾動彈幕」功能則大量運用空格、符號、特殊排版來展現情緒流動。這些基於媒體表現手法產生的效果,未必能直接應用到字幕機制中,但也不失為產品開發上能夠作為參照的靈感。
展望未來:從輔助工具走向沉浸式體驗
Google 這次將情境式字幕建構在系統層級上,引領了無障礙設計的趨勢,從事後弭平鴻溝,變成原生體驗的一部分。除了期待未來推出更多語言版本,我也期待它能跟整體應用生態系更深度整合。現在字幕通常是「疊在畫面上」,有時會遮到內容。若未來能設計成會自動避開重要區域、甚至根據應用內容做互動式變化,那就不只是「不干擾」,而是「增強」了使用者體驗。
很期待下一個版本更新,Google會帶來更多源於自然的、跨文化的無障礙體驗。