計畫成果

促進聽覺障礙者多面向溝通的新世代科技

返回
empty

壹、計畫背景

身心障礙者權利公約(The Convention on the Rights of Persons with Disabilities, CRPD)的精神在於保障並促進身心障礙者的權利與平等、自由,應致力提供無障礙/可及性環境以促進其融入社會。聯合國2030年永續發展目標(Sustainable Development Goals, SDGs)也強調要確保弱勢族群可以平等地接受各層級教育與職業訓練、為所有人,包含身心障礙者提供安全、非暴力及有效的學習環境,並增進所有人,包括身心障礙者的社會、經濟與政治包容性。

聽覺障礙者因為溝通問題,不易融入社會。他們受限於聽力損失,無法聽清楚對方說的話(語音接收),也很可能無法清楚地說話(說話清晰度)造成溝通上的困難。雖然助聽器與人工電子耳已經大幅改善聽障者的語音接受和說話清晰度,但仍有許多聽覺障礙者無法順利與周圍的人順利溝通。口語能力受限時,也會連帶影響其閱讀能力,特別是重度以上的聽障者很可能是功能性文盲的高危險群。因為口語能力受限,在生活中經常面對溝通中斷的窘境,再加上聽障者對於需要心智理論的對話,如諷刺、幽默等較不易了解,其人際互動也面臨挑戰。針對上述阻礙聽障者融入社會的溝通問題,本計畫整合了四個子計畫,希望協助聽障者溝通無礙。以下表1簡要說明各子計畫的重點目標。

表1各子計畫的目標面向與年度目標

貳、研發成品功能與成效

本計畫整合四項子計畫成果,涵蓋即時溝通、語音表達、閱讀理解與社交互動等關鍵面向。首先,研發結合高精度語音辨識、噪音消除與音源定位之混合實境語音接收智慧眼鏡,使聽障者能於真實情境中即時接收語音文字資訊,大幅提升溝通效率與互動體驗。其次,透過構音App即時語音轉換技術,在保留個人音色的前提下,顯著提升語音清晰度與可懂度,有效改善重度構音障礙的表現。第三,結合大型語言模型與生成式影像技術,開發符合聽障者閱讀特性的易讀圖文App,透過多元輸入與輸出模式,降低閱讀認知負荷,實證結果顯示可大幅提升文本適讀性。最後,透過互動式 VR 影片與生成式 AI 虛擬人溝通對話教案,建構可重複練習溝通情境的學習環境,協助聽障學生學習溝通修復策略並促進心智理論發展,提升同儕與家人的理解。

整體而言,本計畫成果已透過多項實證測試與使用者回饋驗證其成效,整體科技接受度高,具備良好實務應用價值與市場推廣潛力。透過成果整合與推廣活動,本計畫擴大社會影響力,實踐資訊平權與無障礙社會之核心目標。

參、計畫影響效益

本計畫整合人工智慧、混合實境與生成式科技,針對聽覺障礙者在溝通、閱讀與社會互動上之實際需求,發展具高度實用性的輔助科技,其成果已發表於多場國內外重要學術研討會與期刊,展現跨領域研究能量與學術影響力。在技術創新方面,成功研發可於複雜噪音環境下即時運作之混合實境語音接收系統、具自適應能力之語音清晰度提升模型、結合大型語言模型與生成式影像之易讀圖文應用程式,以及 VR 與生成式 AI 虛擬人溝通訓練平台,突破既有輔具在準確性與即時性上的限制。在經濟與社會效益上,本計畫有效提升聽障者之溝通效率與社會參與,降低人力輔助與教材製作成本,具備發展高科技輔具與數位內容產業之潛力,並可擴展應用至其他低閱讀能力或表達困難族群。整體成果呼應 CRPD 與 SDGs 精神,促進資訊平權與無障礙社會之實踐,同時培育具跨域整合能力之專業人才,展現長期且深遠的社會影響力。

肆、與公民團體合作情況

除了與合作團體深入互動,參與台中市聾人協會中秋活動、新竹聲暉聖誕活動等,也與政府單位連結、合作、推廣,例如勞動部雲嘉南職務再設計、國立台灣圖書館、國立台灣文學館、台北市政府、新北市政府等。

新世代科技:串連全台聽障服務網絡

伍、截止至目前之計畫成果

子計畫一

目前已順利將智慧溝通輔助系統的硬體與軟體初步整合並通過測試,透過深度學習類神經網路進行即時語音辨識,結合麥克風陣列波束形成降噪技術,即使於高噪聲環境中仍可穩定輸出即時文本,驗證系統設計之可行性與發展潛力。考量現行混合實境設備價格高昂、不利聽覺障礙者普及使用,本計畫以「平價化」為核心目標,導入國內佐臻科技已商轉之智慧眼鏡開發平台,並與其工程團隊聯合開發,以有效降低開發成本。另外,透過焦點團體訪談與問卷調查(n=29),多數聽覺障礙者高度肯定本裝置對日常生活之即時改善效益,具高度實用性與迫切需求,並表達持續使用與推薦意願,顯示本系統具實際社會影響與推廣價值。

表2 子計畫一聽障者試用調查結果

子計畫二

本計畫導入了模糊理論(Fuzzy Theory)結合門控卷積神經網路(Gated CNN),開發出創新的 FG-CNN 架構。本計畫運用廣義鐘形隸屬函數定義了輕度、中度、重度及極重度四種嚴重程度的模糊集合,讓模型能針對不同程度的構音障礙動態調整特徵提取策略,解決了過往模型難以適應個體差異的問題。此外,架構中整合了 Fuzzy Pooling與Fuzzy CNN 機制,有效處理語音特徵中的不確定性並抑制環境雜訊,不僅保留了說話者的語音特徵,更在處理高變異性的構音異常語音時展現出優異的魯棒性(Robustness)。我們將原始語音、過往研究Articulate GAN、本研究FG-CNN進行比較,如圖1所示,FG-CNN 在自動語音辨識(ASR)準確率上有顯著提升,特別是在重度與極重度構音障礙的情境下,辨識準確率分別提升了12.19%與8.11%。在主觀聽測方面,清晰度、自然度、內容理解度以1~5 分評估,調查結果整理如表3,FG-CNN 在各項指標的表現皆優於Articulate GAN,顯示受試者高度認同FG-CNN。

圖1 不同模型條件於各嚴重程度下之ASR準確率比較

表3子計畫二聽障者試用調查結果

子計畫三

完成易讀圖文版APP研發,以 10 篇文章邀請 4 位語文科教師進行文章重點分析比對,結果顯示 APP 所輸出之文章重點與專家判斷一致,具有內容效度。後續依文章長度與內容密度動態調整,同時提升分析與輸出效率。為利於多用途使用,APP以多方式輸出,包括長文摘要、長文簡化、重點標記、簡化標記、段落圖文、四格圖文等功能,提升閱讀親近性。經焦點團體訪談,聽覺障礙者普遍認為 APP 具高度實用性並願意推薦他人,期望強化不同閱讀程度者之適讀性。為此,團隊進一步依教育部常用字與國教課綱識字量等條件輸出易讀文本,符合 CRPD 合理調整精神。透過設備更新與技術升級,易讀圖文APP 已可更快速分析長篇文本並生成適切圖像,有效提升聽障者閱讀理解與資訊掌握效率。

子計畫三易讀圖文版第一年至2024年元月17日,網站測試人次總計1375人次,第二年至2025年12月8日,網站測試人次總計88744人次。易讀圖文版的使用調查結果,在實用性方面,手語者、口語者兩群體分別達4.71、4.53分(五點量表),推薦度達4.50、4.63分,顯示使用者認為應用程式具有實用性,也極為推薦。

子計畫四

本計畫透過焦點團體訪談掌握聽障學生於校園與家庭中的溝通困境與需求,據此設計10個溝通情境腳本,並完成5部360度VR互動影片及16套生成式AI虛擬人溝通教案。截至2026年1月12日,360度影片於YouTube累積1,507次觀看。依使用者試用調查的36份互動式影片與362份生成式AI 虛擬人溝通對話教案問卷,結果顯示整體接受度高,具實務應用價值。

表4子計畫四使用者試用調查結果

非預期成果部分

本計畫原訂課程與演講之觸及率目標為 400 人次,截至 2025 年 10 月 15 日止,實際推動之相關推廣活動已辦理 58 場次,累計參與人數達 3,431 人,成效顯著,遠超原訂目標。計畫執行期間,亦持續接獲各單位邀請計畫團隊進行課程分享與成果推廣,顯示本計畫具高度實務價值與社會影響力。此外,本計畫成果亦獲多家媒體肯定與報導(請見表5的3個連結範例),進一步提升計畫能見度與公共影響力。整體而言,四個子計畫均按照原計畫進度進行,甚至有的超前。

表5  媒體報導推廣連結之範例(link:觀傳媒台南新聞網公視手語新聞

六、計畫執行結束後永續機制

本計畫針對不同特質與需求之聽覺障礙族群,設計四項子計畫,分別提供具基本閱讀能力之重聽或全聾者、口語表達清晰度不足者、長文閱讀困難者及學齡聽障學生,並具擴散至成人族群之潛力。計畫結束前半年於全台北中南東舉辦實體成果體驗推廣活動,線上持續網路社群推播(https://youtu.be/POp7NbvAirI?si=N6fU9ylVZIrsfvSM)、邀請20位溝通訓練專業人員導入教學、結合館場參訪驗證溝通策略應用成效,擴大實務影響力。永續機制方面,將建置專屬網站(https://fcuauto-hcl.jp.ngrok.io/techbridge.hearing/),提供多元諮詢管道(電話、線上、社群、即時訊息等),並成立跨專業諮詢團隊,定期辦理培訓與工作坊,建立系統化回饋機制,並透過與聽障團體及相關專業組織合作,確保服務持續運作與擴散效益。