機器人發音掰掰 文字MP3專業版多種真人口音一次擁有
文字MP3專業版將應用層面擴及有聲書、影片配音等
為了幫助考試複習的聽書背誦需求、聽更多佛經、為了改善自閉症與視覺障礙族群溝通學習,網際智慧早期曾推出「文字MP3」提供文字轉語音的功能,甚至協助學校特教班製作語音試卷,近年來隨著AI技術的演進,網際智慧重新開發,推出能更高效並產出多樣化內容的「文字MP3專業版」,將應用層面擴及有聲書、影片配音等,成功獲得2022年金塾獎新興技術組秀才。
過去20年來網際智慧一直在發展文字語音相關應用軟體與服務,長期的經驗讓他們發現,TTS文字轉語音的技術雖然發展已久,但仍存在聲音像機器音或是語氣較呆板、聲音品質不佳、台灣口音發音人太少、支援的語言總數量不夠多、後製編輯複雜等問題,導致應用層面受限。
五大特色 有聲書豐富度宛如真人錄音
「文字MP3專業版」包含五大特色,一、除了內建高品質台灣口音發音人「雅芳」、美國口音英文發音人「Beth」,更進一步結合 Azure Cognitive Services雲端服務宛如真人發音的「曉臻、曉雨、雲哲….」等大量發音人聲音;二、結合聲音變音技術,可變化多種不同音色,創造出更多元聲音來錄製聲音內容;三、操作介面像編輯Word一樣簡單,貼上文章即可瞬間轉wav或mp3音檔;四、內容後製不需搭配其它軟體或複雜的音頻編輯器,即可進一步選取部分文字或對話段落,設定不同發音人朗讀、調整朗讀快慢、聲音高低、修正發音、自訂發音、插入真人錄音,甚至加入背景配音;五、可唸複雜文本內容如:Rich Text格式、表格內文字,大幅增加聲音的豐富度,進一步將服務擴及三大新應用層面,包含有聲書製作、語音試卷、Youtube或各類影片配音。
高品質低成本有聲書其中有聲書的利用為最大宗,過去有聲書利用真人錄製,往往錄音加修正就需要長達兩個月的時間,耗時又耗力,網際智慧總經理晁旭光表示,近年來隨著市場的變動,許多出版社對錄製有聲書的需求大幅提升,希望能用新科技在短時間錄製出高品質低成本的作品。根據統計,109年申請有聲書ISBN出版品僅個位數,110年已竄升到40家出版機構出版多達442種有聲書,顯示有聲書在出版市場的潛力,目前已與10多間出版社接洽。
此外,由於「文字MP3專業版」擴充運用Azure Cognitive Services雲端服務,可隨時進一步使用微軟的神經網路語音合成服務,快速擴充支援世界各國143 多種語言和變體中的 448 種語音,提供企業產品介紹、教育訓練等影片語言多樣化。 對於這次榮獲2022年金塾獎新興技術組秀才,晁旭光認為,相較於其他新產品,「文字MP3專業版」是透過市場分析進行重新定位並運用敏捷開發的產品,對於研發工程師、產品經理都是蠻大的挑戰,他表示,金塾獎的舉辦是許多創新軟體開發的動力,這次獲獎也讓網際智慧有更大的動力做更多的產品,未來也將持續推出一系列「文字MP3」的相關產品,希望中小企業處能將產業細分舉辦更多的獎項,鼓勵產業開發。
文字MP3專業版詳細介紹