網友評分: 5分
微軟神經網絡語音合成工具是一款專為語音合成所推出的輔助軟件。它適用于配音、講解、說書、廣告等場景,還有各種語音種類、風格、語速、語調等你調整,讓你可以合成出更加完美的語音,免費下載。
已累計支持129種語言,330多種神經網絡聲音,是迄今為止做的最自然、最貼近人聲的語音合成技術。
1. 開發理由
雖然語音合成技術很早就有,唯一的缺點就是很少有面向普通人的可視化操作工具,一方面開發這種工具變現困難,另一方面這些可視化工具以往依賴于最底層的C類編程語言,不過都2022年了,許多跨端技術的出現,比如fluent、webview2等,使得以往全棧開發者都可以降維開發桌面跨端app。這也是我開發這套工具的技術基礎。
本次開發借助wails工具,實現了go后端+vue前端合并開發,最終體積只有3.6Mb,里面包含15種音頻預覽。這種組合開發,既可以全前端wasm實現,也可以用go實現,自由度非常高。除此之外,微軟亞洲研究院也詳細介紹了fastspech模型和相關文獻資料,對科研工作者的故事和背景做了詳細報道,反觀國內互聯網企業,涉及技術性的東西從來只是強堆概念,微軟亞洲研究院在這方面做的就很開放和自由,帶給閱讀者更多啟發。
2. 為什么做paper2gui?
當今世界,技術再牛,如果沒有簡單的可視化操作入口,只能塵封。價值來源于廣泛的使用,挖掘那些論文里被塵封的潛在價值,就是半年前我創建paper2gui的初衷,讓更人工智能產物更簡單直接的面向普通大眾。
3. 反內耗后的研究思路
在書寫代碼的風格里,類yaml格式最符合人腦,也最受歡迎,比如python、pug、stylus,在項目范疇上,通用倉庫更容易獲得青睞,比如antfu大佬寫的unplugin系列遠比unocss受歡迎,后者頂多只能做到類tailwindcss這樣的分流主線,有著創始人意味,而unplugin系列包羅萬象,這種兼容性極強的工具,就會成為類vue或vite,成為萬千喜愛的大眾項目。
國內很多新手眼界很窄,從來不想想跨領域的事情,只覺得眼下就是一切,一葉障目很危險的。像我,不僅廣泛瀏覽和思考全球優秀的UI設計,同時也全棧開發一些網頁,還有降維操作的桌面app,實時查看GitHub感興趣的倉庫代碼變更,從源頭理清開發者思路,雖然不能主動提出科研問題,卻可以按月實現一個自己的小靈感。越是前沿、越是國際化的東西,實際上最終都是通用的,讓你感受到的痛點和爽點,在程序領域總有類似的群體感覺,所以日常更新迭代就可以逐步趨向大同。
假如你持久跟隨在這些頂尖開發者的邏輯,漸漸的你就有了他們視角之外的想法,從而提出改進意見或者干脆自己提個pull。在追逐nuxt3的更新里,我認識了國內antfu大佬,老外怒贊他一個人頂十個,精力無限靈感無限,更重要的是人家樂意為開源服務。在追逐ncnn項目時,我認識了nihui這樣的大佬,雖然不像antfu那樣高產,但確實把論文變成普通人使用的工具上有很突破,本次的微軟神經網絡語音合成,讓我認識了Xu Tan譚旭這樣的國內人工語音合成領域的高手。追逐這些頂尖高手的過程,很有趣,見識也大漲,不懼怕失敗,也不懼怕錯誤,面對全新的想法付出實踐時,如果沒有99%的失敗,證明的你的工作毫無創意。這也是我連續數月不斷挑戰多個領域,每月一個新品的現實行動,高產出,高實踐,高挫折,同樣帶給我無限的喜悅、興奮和自豪。
標簽: 微軟