關於語音轉文字,大部分想起接觸過的會是在聊天軟件中出現。除此之外,語音轉文字還有許多應用場景。對此,本文將以國內市場為支點,以全球市場視為目標,探尋語音轉寫產品的諸多可能性。推薦對語音轉文字市場感興趣的小夥伴閱讀。與以往從國內市場角度的分析不同,本文將以國內市場為支點,以全球市場視為目標,探尋語音轉寫產品的諸多可能性。本文說的語音轉寫,聚焦於面向C端用戶的帶語音轉文字功能的產品,不包括企業服務中的智能客服、Fintech、車載語音、智慧醫療場景下的泛語音轉寫。一、名詞解釋語音轉寫:使用將音視頻信息轉化成文本信息的一種服務。實時轉寫,即流式上傳-同步獲取,可將不限時長的音頻流實時識別為文字,並返回帶有時間戳的文字流;一般用於直播實時播放字幕、實時會議記錄;也可以配合機器翻譯,實現同傳功能非實時轉寫,即已錄制音頻文件上傳-異步獲取,非實時語音轉寫將長段音頻數據轉換成文本數據,可用於影視字幕制作、會議訪談記錄轉寫、智能客服錄音質檢等場景。ASR:指自動語音識別技術(Automatic Speech Recognition),是一種將人的語音轉換為文本的技術。NLP:自然語言處理(Natural Language Processing,NLP)是利用計算機對自然語言文本進行理解、處理,並提取文本語義的過程。二、如何介紹清楚語音轉寫筆者的安排是這樣的:語音轉寫的基本定義和概念科普,幫助讀者和筆者同頻;語音轉寫所在的前置背景,這是它發展的前提;語音轉寫的市場規模,這決定瞭它是否值得被研究;語音轉寫的產業鏈,這可以幫我們從合作視角看我們關註點所在的位置;語音轉寫的競爭格局,這裡是重點,用競爭視角從行業玩傢身上直觀感受語音轉寫的用戶-場景-需求和商業模式,並且筆者不僅會縱向對比國內不同語音轉寫產品,也會橫向對比國內外語音轉寫產品的區別,最後通過詳細拆解Notta這款明星PLG產品作為行業經典案例,希望帶來啟發;語音轉寫的發展趨勢,這裡主要是通過展示相關創業公司來闡述其可能的發展路徑;語音轉寫的綜合評價,總結筆者對於語音轉寫行業的認知。三、語音轉寫發展的前置條件這事能成,主要有賴於三點,因為語音轉寫是有三個步驟組成的:輸入得更多,說明場景更多,市場需求更多;轉碼得更快,說明成本更低,使用沒有障礙;輸出得更準,說明結果需要更少的修改加工,結果更滿意。這三點如何發生瞭改變:1. 輸入方面:無紙化程度極大提高,大部分的數據都是以數字化形式存儲理論上,隻要是人與人之間發生的信息的傳遞,都是有數字化的需要的,主要是以非結構化數據的形式:比如開會講話的內容,是多人之間相互的信息傳遞,需要沉淀成會議紀要;比如老師講課的內容,是一個人單方面向多個人的信息傳遞,需要沉淀成學習筆記;比如采訪對話的內容,是一個人和另一個人的信息傳遞,需要沉淀成實錄文檔;……這些沉淀的信息肯定不能以手寫稿作為載體,而是要以文本形式存儲:手寫稿存儲成本太高,紙多瞭你總會弄丟吧,時間長瞭紙總會壞吧,要記的內容多瞭,我得隨時準備各種各樣尺寸的紙,以備不時之需;傳輸更麻煩,手寫稿隻有作者自己能看懂,況且一次隻能給一人看,這還不如印刷術發明前的人類社會呢,信息的傳輸效率限制瞭世界的發展。在未來,協作越來越多,人與人發生信息傳遞的場景就越來越多,越來越多的信息需要被數字化記錄沉淀。這是電子信息技術帶來的結構性變化。2. 轉碼方面:ASR性能提升,帶來瞭轉錄的實時響應單純的無紙化,隻能催生速記員、打字員,比誰能快速輸出文本信息,這個活又臟又累還貴,可重復性可替代性極強,簡直就是人工智能的最佳瞄準對象。輸入輸出本身就很麻煩,1個小時的音頻,人寫需要2個小時,語音轉錄隻需要5分鐘。3. 輸出方面:其他語音技術的提升,帶來瞭結果的可靠性為什麼說其他,因為這些主要還是依附於語音轉文字這個技術之上對結果進行的優化。人聲分離,一種區分不同人聲音的技術,可以通過聲音來辨別某人的身份。一旦檢測到一個人的發言,系統就會為該發言者創建一個聲紋配置文件,從而分辨同一個人其他所有的語音;多語種識別,對混雜的語言環境進行區分,識別多人對話;環境降噪,對嘈雜的說話環境進行過濾,區分哪個是關鍵人在說話哪個隻是環境音;語言降噪,人在說話時畢竟不像寫作那麼嚴肅,期間夾雜著大量的口語和語氣詞甚至疊詞,需要對文本進行精簡提煉,增強可讀性,這屬於NLP范疇。……四、語音轉寫行業發展這個過程並非一帆風順,語音轉寫行業也是歷經瞭四個發展階段的。第一階段在1990年-2010年,主要是人工服務,即通過人工實現錄寫服務。這個期間的產品形態,是以專業人工服務或外包方式服務客戶。第二階段在2010年-2015年,轉寫進入互聯網化,這個階段引入瞭機器服務,讓機器助力轉寫,這種服務的產品形態主要是以網頁和客戶端小工具等方式實現。第三階段在2015年-2017年,轉寫進入移動化,這個階段引入人工智能和ASR技術,實現更高精準度的語音識別和語義理解,這種產品形態更加多元化,以APP、網頁、智能硬件等方式展開。第四階段在2017年至今,也是當前的階段,轉寫進入人機耦合階段,是人工智能與人工服務相融合的時刻,產品形態上仍然是以APP、網頁、硬件等方式,但機器與人工進一步融合。這是從技術角度去理解行業發展,其實其應用形式遠不止於此。五、產業規模語音轉寫行業的盤子到底多大?先看一組行業數據,根據艾瑞咨詢的報告,2021年中國智能語音撰寫市場規模約為10億元,預計2026年市場規模將達到38億。如果要估算全球市場,用這個數據乘以5即可得到大致結果。從產品形態來看,智能轉寫產品主要包括Saas類產品與本地化部署解決方案兩大類。這個市場的特點就是,基數不算大,10億量級,但是增長率相當可觀,會有很多的增量出現,因為過去是大語種、大企業的需求,未來將會蔓延到更多的小語種、方言、小企業和傳統企業,甚至是國企。(國企是這類Saas服務的重點服務對象)下圖是2022年中國智能語音產品成熟度曲線,可以看出語音轉寫技術以及逐漸進入成熟穩定期。總之,語音轉寫的核心是ASR,從技術發展曲線來看,是語音技術最成熟的一項技術瞭。ASR的準確率每年都在增長。六、市場特征1. 供給>需求,由需求驅動語音轉文字,本質是提供瞭一種軟件服務,解決瞭信息沉淀的效率問題。當轉錄還是人工服務時,行業是由供給驅動的,因為轉錄員是有限的,而且價格昂貴。當機器取代人工轉錄時,已然變成瞭一個成熟行業,此時行業變成瞭由需求驅動。既然是需求驅動,其需求來源決定瞭市場的規模和增速。可見的趨勢是,在線會議的比例會越來越高,即使已經進入後疫情時代,但是企業逐步適應瞭在線會議,隨著未來跨區域團隊協作場景的增加,會有更多團隊利用好在線會議。網課會越來越多,網課不僅僅是指初高中學校的網課,更多的是職業教育的網課,當今的成年人在上各種各樣的技能課程,典型的如公務員課程、考研課程。2. 準入門檻不高,同質化明顯ASR技術已經非常成熟瞭,各種廠商可以提供穩定的API和SDK,供市場進行不同程度的使用,因此行業的準入門檻不高,很多玩傢都可以加入進來,提供相似的服務。國內市場,去百度搜索語音轉文字,會有數十種提供類似服務的網站。國外市場更卷,在Google搜索audio to text,會有十幾種同質化的網站。一些差異化也隻在一些細節上,比如區分說話人、專業領域的詞庫、不同的價格策略。可以說,單純的語音轉文字功能,靠轉錄的字數或時長付費,實在玩不出新花樣。3. 市場多樣,贏傢難以通吃受前兩點影響,這個市場由需求驅動,且總是會有新入場者。如果用戶一旦沒有轉文字需求,是不會使用的,畢竟每次使用都是要錢的。這個模式在中國市場面臨一個問題,國內用戶不喜歡這種“pay for every use”的方式,所以會想盡辦法去找一些免費試用的替代品。因而很難出現一個贏傢壟斷整個市場,簡言之,這是一個開放競爭的市場,各種新興企業試圖圍繞著語音轉文字提供更多的附加價值。下圖是國內提供直接語音轉文字工具的長尾廠商部分名單(不完全統計,也不包括帶語音轉文字功能的產品比如輸入法、微信、剪映等):如果覺得多,不妨再來看看美國市場,仍然是不完全統計:相信讀者可以直觀感受到這個行業的“卷”度。七、商業模式語音轉寫的商業模式是比較清晰的,分三種:賣軟件服務,賣硬件,賣定制化。1. 軟件服務在線API——廠商提供接口數據在服務端進行,特點是靈活性強、效率高,按使用次數或者使用時長進行收費。離線SDK——廠商提供核心算法模塊,數據在客戶端進行,開放性、軟件開發兼容。私有雲——廠商提供私有雲平臺定制化服務,可以滿足客戶定制化需求,安全性強。2. 硬件廠商提供語音采集等終端硬件,有效采集語音數據,實現語音采播編審存一體化。3. 集成解決方案廠商提供場景及行業定制化解決方案,開發智慧媒體解決方案,滿足不同行業個性化需求。八、產業鏈從技術源頭到消費端分產業鏈上中下遊。1. 上遊主要是由一些科技大廠來主導,它們是整個AI行業最底層服務提供者。阿裡雲、騰訊雲、百度開放平臺、訊飛開放平臺都是比較不錯的基礎平臺。語音識別和自然語言處理均為智能語音轉寫的關鍵技術,為解決資源浪費項目之間缺少共享等問題,基於AI平臺開放NLP的方案應運而生。2. 中遊主要是AI技術的提供者,按照各自業務特征分為四類:(1)通俗意義的智能語音廠商比如專門提供智能語音服務的訊飛聽見、靈雲聽語。(2)獨樹一幟的AI公司雲知聲、思必馳、商湯、依圖。(3)互聯網巨頭阿裡雲、百度雲、騰訊雲、華為雲。(4)邊緣廠商搜狗(原來算,現在被收購就不算瞭)、迅捷、金舟,等等。3. 下遊這就是真正被消費者使用的場景瞭。(1)多人討論比如公司裡的會議:1 V 1溝通,比如采訪、電話銷售、客服。1 V N輸出,比如課堂、演講、直播、大會。(2)媒體創作比如視頻網站的字幕生成和視頻創作者的字幕文件。產品形態上,既有訊飛聽見這種直接提供轉寫服務的產品,也有輸入法、微信、飛書妙記這種嵌入語音轉寫的產品。九、競爭格局1. 國內競爭這裡隻針對面向C端市場的轉寫產品做競爭格局分析。典型的語音轉寫代表產品:訊飛聽見。訊飛聽見是科大訊飛旗下的一款主打語音轉寫的產品服務,得益於訊飛在語音領域的深耕,訊飛聽見憑借高精度轉寫能力占據瞭中高端市場,如果點開它的網站,可以看到機器快轉和人工精轉兩種服務配合,滿足瞭商務這類對轉寫有高標準的嚴肅場景。之前說過,對優秀語音轉寫能力的定義就是要快和準,快不用說瞭,1小時音頻最快5分鐘出稿,相比於人類速記員絕對是五十倍的提升,準這方面,機器水平已經達到97.5%,並且支持多國語言和方言,外加許多專業領域詞匯。唯一不太親民的地方是:貴。2個半小時轉錄收費50元,如果不是特別需要,或者急用,一般不會輕易購買。它的競品有很多,這類產品的商業模式都比較清晰,主要解決用戶轉文字的需要。用戶為轉文字效果付費,因此看重的是轉文字的準確率,那在某些方面當然就不能顧及到,比如“數據孤島”問題,用戶轉文字後需要導出變成其他格式,至於這些轉文字的數據結果如何使用取決於用戶的實際用途,這就不要求什麼用戶留存瞭。這個模式在中國市場並不討巧,國內用戶並不都接受這種“pay for every use”的方式,所以會想盡辦法去找一些免費試用的替代品或者是會員制的收費軟件。因此這類產品的高質量用戶多為有穩定需求和付費能力的創作者、企業用戶。訊飛聽見作為行業頭部廠商,肯定是不希望做一個“用完即走”的產品的,如前所述,需要用到轉寫服務的場景有會議、演講、課堂、采訪、字幕創作等。符合高頻、用戶量大、付費能力強一定是企業用戶的會議場景。因此訊飛聽見選擇切入瞭“在線會議”市場,希望通過轉寫打通會議創建——預約——會議轉寫——會議紀要的全鏈路場景,這樣轉寫結果就不是一座數據孤島,而是以會議記錄的形式成為企業辦公的基礎設施。說完以轉文字為核心的寬泛型產品後,下面介紹第二種,以在線會議為核心,附帶語音轉文字的產品。典型代表:騰訊會議、飛書妙記、釘釘閃記。釘釘閃記提供瞭會議實時轉寫和音視頻轉寫的功能,幫助員工沉淀工作信息,快速定位到關鍵信息有助於做決策和制定計劃。對於轉寫結果,不僅做到非常細致的分段,而且還支持編輯和高亮的功能。飛書妙記除瞭基礎的轉寫和編輯功能外,還提供瞭關鍵詞提取的功能,幫助員工快速捕捉定位相關術語來縱覽整篇內容。會議協作產品有著天然的優勢,因為企業協同辦公是一個穩定的流量入口,會議轉文字隻是一個附加價值,重點在於轉文字後的團隊協作,將會議紀要轉換成團隊具體的決策和知識,在團隊內部共享。話說回來,訊飛聽見從語音轉寫擴展到在線會議,難道是因為覬覦在線會議市場份額而插一腳的麼?2. 海外競爭NO,我們將眼光放到國外。國外的轉寫市場發展比國內更早,最成熟的當然是美國。如果說科大訊飛在海外的counterpart是Nuance,那訊飛聽見在海外的counterpart是Otter,而不是siri和Alexa,這是一款基於人工智能和深度學習的語音識別產品。總部位於加利福尼亞州洛斯阿爾托斯,也是AI驅動的協作筆記和生產力提升應用程序提供商。2020年Otter.ai獲得來自日本移動運營商NTT Docomo的1000萬美元融資,並且宣佈與Zoom加強合作關系,為Zoom會議啟動實時字幕,並且在疫情期間實現瞭指數級增長(收入同比增長10倍)。Otter.ai提供瞭一個AI驅動的協作筆記記錄和生產力提升應用程序,可與Zoom和Google Meet等視頻會議平臺以及電話和其他語音通信配合使用。Otter Voice Meeting Notes應用程序使用專有的人工智能實時生成安全、可共享、可搜索的豐富筆記,這些筆記結合瞭音頻、轉錄、說話者身份、內嵌照片和關鍵短語。該應用程序在230多個國傢/地區使用,現已錄制瞭超過1億次會議,涵蓋瞭30億分鐘。Otter的做法反映出瞭國內外市場一大區別。國外企業在線辦公三巨頭Google Meet、ZOOM、Microsoft Teams。大多數會議新產品都是圍繞著這三傢作為基礎設施提供附加服務。Otter也不例外。最後介紹一款產品,Notta,它為語音轉寫市場拓寬瞭思路,原因有二:它在海外激烈的語音轉寫紅海市場憑借差異化的體驗成功獲得一席之地。它在海外市場找到瞭高價值市場,盈利情況相當可觀。語音轉寫作為一項成熟技術,門檻是不高的,行業頭部廠商和普通廠商的轉寫精確度相差都是百分之幾,對很多用戶來說夠用就行,因此相互之間的替代性比較強。一個普通的語音轉寫新玩傢,想要獲得一些份額,有幾種方式:SEO,讓一些小白用戶首次就接觸到這個產品,這些用戶用習慣瞭大概率不會離開;免費低價策略,在有基礎的語音轉文字能力後,就靠免費來獲得一些低價值用戶,因為這些用戶是被頭部廠商的付費漏鬥給剩下的,這些用戶付費意願幾乎沒有的,用你就是圖免費,但你不可能永遠免費,當你恢復收費的那一天,也是白嫖用戶離你而去的時刻;提供除轉寫外的附加價值,可以打破“數據孤島”,用戶為附加價值付費。Notta就選擇瞭第三種。十、典型案例下面介紹Notta,一款中國企業出海日本市場的語音轉文字產品。這款產品主打的仍然是語音轉文字,隻是對於轉文字後提供瞭更多的附加價值,為用戶的工作學習場景打造瞭完整的閉環體驗:多場景輸入——多語種轉文字——編輯校對——筆記輸出——分類管理——導出1. 多場景輸入用戶會以何種方式輸入音頻文件,就有多少種場景:直接獲得音頻文件——音頻導入錄下當前環境中的聲音——環境實時轉錄錄下當前屏幕上的聲音——Chrome瀏覽器插件開會時錄下在線會議——Notta Bot會議實時轉錄音頻導入和實時錄制是很通用的功能瞭,這裡著重介紹Chrome插件和Notta Bot。(1)Notta Add-in插件的需求主要來源於很多有用的資料是網站的在線視頻裡的,如果想把在線視頻轉文字需要用戶想辦法提取出音視頻,要麼是用戶用手機對著電腦外音錄一遍再導入轉錄,要麼是懂點技術的用戶提取出網站的音視頻源文件,這樣做無疑是提高用戶的使用門檻和成本。Chrome插件可以很好地解決這個問題,插件本身就是極具定制化的,用戶在播放在線音視頻時可以打開插件錄制,播放完後就可以得到完整的轉錄文件,消除瞭導入門檻,效率大大提升。(2)Notta BotNotta Bot是一個會議錄制功能,用戶在一些不需要發言的網絡研討會、開放性的會議可以使用 Notta Bot 定時參會,空閑時候回顧音頻和文本。公司例會和客戶會議可以通過 Notta Bot 記錄文檔,推送到 Notion 留存。目前 Notta Bot 已經支持 Zoom/Google Meet/Microsoft Teams,還可以同步自己的日歷,實現自動參會。2. 多語種轉文字Notta針對的是海外市場,因此需要滿足大量不同地域的語言要求,因此語言支持方面也是 Notta 的優勢,Notta 集成 Google、AMI、微軟、思必馳等多傢引擎服務商,支持中文(簡體、繁體、粵語)、英語、日語等多達幾十種語言,還包含多種口音,如印度英語、澳大利亞英語等,系統會根據不同的語言智能匹配不同的引擎,綜合語言和口音達到100種。3. 編輯校對首先,和訊飛聽見的轉錄結果偏向閱讀的整段展示不同,Notta將轉錄文本切得很細,每段/每句後都直接附上瞭原聲語音切片,如果用戶需要對文本以編輯校對。比如對相關術語近義詞可能造成歧義的,切得細的相對容易進行二次校驗,這就讓用戶在轉寫完成後不會立刻導出,而是在Notta上完成編輯工作。4. 筆記輸出對於轉錄結果,用戶可以添加圖片,將文本筆記變成富文本筆記。進一步地,通過給筆記打上標簽添加便簽內容,幫助用戶從原文中提取關鍵信息形成決策和計劃(默認標簽有Key Poiont、To-do、Project),非常契合實際的工作學習場景。5. 分類管理不同於“用完即走”的語音轉錄工具,Notta爭取讓用戶留在產品內,用戶如果有長期的轉錄文件需求,文件的分類管理是大問題,畢竟如果每次都要導出到本地,遇到多設備辦公或者協作時會很不方便。因此Notta承擔瞭筆記內容的存儲空間,支持將轉寫文檔建組歸檔,從語音轉錄工具變成瞭文檔辦公平臺。6. 導出完成轉寫和編輯之後,Notta 在導出文本時還具備良好的兼容性。Notta 除瞭支持實時錄音轉寫,還支持音頻、視頻的主流格式導入轉寫,我們在網上下載的音頻視頻文件無需轉換格式可直接導入 Notta 中獲取轉寫文字,並可導出多種格式的文本檔案,如 PDF、DOCX、SRT 等格式。Notta的創始人也是原來摩拜單車的聯合創始人,幾個合夥人也是有不錯的創業經驗,所以在語音轉寫紅海市場裡的打法也比較值得品味。Notta一開始就確定瞭“PLG+訂閱付費”的盈利模式,因為經過驗證,這種模式是最適合海外SaaS產品的自增長,Notta早期也是有在中國市場上架投放的,但是發現中國市場的訂閱付費情況非常糟糕,簡單說就是白嫖居多,因此後面因為各種原因就暫時不投放瞭。(Notta作為一傢創業公司,避免重復造輪子,集成瞭 Google、AMI、微軟、思必馳等多傢引擎服務商,被白嫖真架不住)Notta在海外的投放自然也是瞄準發達國傢,因為發達國傢的付費意願的確高,養活瞭很多SaaS公司,在眾多地區的投放效果對比時,發現日本的投入產出結果是最好的。Notta經歷瞭從單一場景切入的工具,到口碑傳播和商業化,再到服務企業客戶的完整過程,主要有三個階段:(1)第一階段Notta最早作為移動端工具APP,先是上瞭APP Store,然後上瞭Google Play,2020年7月份的時候,整個移動端下載量突然一天增加瞭兩萬,沖上瞭日本地區效率榜Top3。當時團隊以為是被黑客攻擊瞭導致下載量特別多,直到過瞭大概兩三天才發現Notta是被日本的電視臺一個早間新聞節目報道瞭,一個日本年輕動畫配音演員分享瞭日本人生活中要用到的幾個效率APP,於是就在日本小火瞭一把,之後Notta在蘋果市場表現得非常好,用戶搜一些關鍵詞就可以看到這款APP,Notta發現日本市場在用戶增速、營收、付費意願都是相當不錯的,團隊開始發力日本市場。直到2022年5月份的時候上瞭企業版,隨著功能逐漸豐滿開始有企業級別的客戶去付費。在隻有App的時候,Notta發現傳統媒體的PR效果非常好。這個階段Notta也嘗試過國內安卓市場,後來發現付費還是不行。在上線Web版SaaS產品後,用戶開始在社媒上自發討論Notta,評價Notta為他們生活帶來瞭便利,甚至有用戶稱“Notta應該獲得諾貝爾和平獎”。產品的口碑開始建立瞭,也符合公司的預期——一定要做品牌,要讓用戶總是搜索到好的評價和內容,通過“洗腦式”的好評來影響用戶最終的決策。(2)第二階段本地化運營,這個時候,團隊發現60%的流量都來自搜索引擎,因此營銷精力主要放在SEO(搜索引擎優化)。本地的內容同學和兼職寫手基本上一周能產出與產品、場景或效率相關的二十多篇文章,通過這些文章在搜索引擎不斷優化關鍵詞,本質是內容營銷。當SEO月環比或周環比增長放慢的時候才考慮配合買量。(3)第三階段PLG典范,自下而上效應最終幫助產品進入企業級客戶,當時基於用戶需求做瞭一個跨平臺自動參會的功能,也為產品帶來瞭一小波爆發。比較典型的企業客戶是日本的八千代工程(工業、汽車零部件供應商)。而這筆大單的起源是一名員工最早購買瞭一個賬戶,公司先是有一個市場顧問在用的過程中覺得很好用,然後團隊幾個人開始在用,之後他們覺得自己每次買會員還要找公司報銷,覺得很麻煩,於是就推到本公司的數字化業務推進部門的 leader,經過幾次遠程會議後該公司幫1000多名員工購買瞭Notta 500多個賬戶一年的服務,這是Notta第一個大客戶,整個銷售過程比較順利,是純在線的方式。從馬後炮的角度看,日本市場表現顯著的原因有三:(1)日本市場的老齡化趨勢下,勞動力是極度稀缺資源在日本有這樣一個段子,150個崗位,卻隻有100個人來應聘,因此日本企業對於人效的關註持續上升,日本的經濟勞動省(相當於國傢的人力資源部)提瞭一個建議,讓日本企業能夠以數字化的方式去擁抱未來。希望利用AI帶來的自動化工作方式來去提高人效,剛好 Notta這款產品符合這個場景,因而整體導入是比較順利的。(2)日本嚴肅的職場文化日本職員隻要開會,一般都會寫一個特別詳細的會議紀要,或者有一個專門的職位去做這樣的事情。Notta這款產品剛好符合日本這種當地文化,那麼導入的過程也會比較順利。(3)日語相比於中英文,歸根結底屬於小市場,競爭不激烈美國早期的那些獨角獸公司或者一些SaaS公司,它早期並不會關註日本市場,這也是給瞭Notta一個好的入場機會。像Otter這樣的AI公司在北美的增長是很快的,目前有幾千萬美金的收入量級,但是Otter始終沒有做日語引擎,這給瞭Notta團隊一個窗口期,讓Notta能夠在日本迅速把市場覆蓋度鋪廣,目前為止在移動端的效率榜Notta已經進到前10名,在Notta網頁端每個月已經有將近100萬UV。由於是發達市場,而且提供瞭如此豐富的功能,Notta的客單價相比於競爭對手絕對是第一梯隊的,Notta實行訂閱制,對於免費用戶,Notta每個月會贈送120min的轉寫時長,付費用戶可以不僅可以有無限時長,還可以使用各種附加功能,比如更多的導入格式、文字校對、隱藏時間戳等。年費平均下來要比月費要便宜(下圖是年費換算),單月付費大概是100元人民幣的價格,相當於在訊飛聽見上轉寫6個小時的文件,這樣看來整體性價比是高的。目前Notta在日本這個軟件領域似乎很傳統的市場,又是在語音轉錄這個並不特殊的賽道,不到3年就做到月入30萬美金,算上ARR已達到360萬美金瞭。由於出海產品都會面臨很強的本地運營問題,因此針對PLG模式最發達的美國市場,Notta團隊選擇重新開發一款會議效率產品Airgram,拿下Product Hunt頭條,順勢拿下瞭1000萬美金的A輪融資。從Notta團隊的思路可以看到,語音轉寫產品想在超級紅海市場脫穎而出,遵循幾個邏輯:小工具盡快找到核心價值用戶,或者國外常說的ICP(Ideal Customer Profile,理想客戶畫像),讓客戶推著產品向前,Notta一開始就是非常重視盈利閉環的,而不是提供同質化的免費低價服務,因為那隻會吸引低價值白嫖黨;不重復造輪子,關註自己的核心業務,善用三方工具和能力,快速將產品做到及格,盡早投入市場進行驗證;非常重視內容營銷,在海外要真正並持久獲得高質量的用戶,需要給產品持續講一個打動人心的故事,這點普通公司離海外一流SaaS公司的差距很明顯。十一、語音轉寫發展趨勢既然談到發展趨勢,就不局限在C端應用市場瞭,而是放眼全球的各個領域1. 從大語種逐漸蔓延到小語種中美互聯網發展是最快的,其次就是東南亞、印度,這些地區經濟發展緊隨中國,互聯網滲透率也越來越高,基礎設施越來越完善,必然會產生許多新需求,對這些市場是新需求,其實對於中美已經是被驗證很多次的市場瞭,因此貫徹“Copy to them”的策略,就語音轉寫而言,東南亞、印度這些地區很明顯的社會特征就是民族多、語言繁多,識字率不高。雖然印度是一個完整的主權國傢,但其實際的社會統一性是遠不如中國的,印度語言的特點,一是語言種類多,二是各個語種使用人口非常不均衡。其中印地語母語者最多,而英語最通行。印度有個稱號叫“語言博物館”,足見其語言狀況之多樣。大體上,北印度人主要講印歐語系下的印度-雅利安語支的各個語種,如印地語、烏爾都語;南印度人則多操著達羅毗荼語系下的各語言,如泰米爾語、泰盧固語等。印度語言從大的層面的分類,有很明顯的南北差異和東西差異。精確點講,按照2001年人口普查結果,在印度作為母語使用的語言數量有1635種,單是使用人口在百萬以上的語言就有29種。在眾多本土語言中,以印地語為母語的人約占印度總人口的40%,這些人集中分佈在北印度,而以其他語言為母語的人口均不足10%。不過在南印度,英語和南印本土語言更加通行。印地語的基本盤,很明顯就是恒河流域的中上遊部分。因此,在互聯網高速發展的印度,有瞭印度矽谷之稱的加爾各答,催生出各種智能語音相關的初創公司,以及其他外來企業針對印度市場的語音本土化產品。而東南亞是由11個國傢組成的,人口6億左右,除瞭新加坡這樣的發達國傢,大部分都是發展中國傢,它們不僅民族語言繁多,而且還有國界分割,而市場經濟又將他們深度捆綁在一起,因此也是新興的語言市場。(1)Fano labs中國香港的初創公司,Fano Labs,成立於2015年,專註於語音識別(ASR)及自然語言處理(NLP)等人工智能前沿技術的研發與應用。目前,公司的語音識別解決方案支持普通話、英語、泰語、印尼語等多個語種,以及四川話、廣東話等各類方言。其主要業務是為金融合規和客戶服務等場景提供語音識別技術服務。Fano Labs 的核心競爭力是多語種環境識別,即在幾種語言混雜情況下的語音識別。比如,在香港企業中,中粵英混雜使用的情況較為常見,印度企業面臨著印度語和英文混合的問題,即便在新加坡,雖然大部分企業講英文,但日常溝通也會摻雜一些中文和馬來語。隨著多語種混合的趨勢愈發明顯,傳統語言分析技術已疲於應付。Fano Labs 的語言分析技術能夠自動檢測錄音中的不同語種,即使同一個說話者在多種語言切換也能被準確識別。(值得一提的是,香港有一個獨特的優勢,就是這個國際化的大都市匯聚瞭世界各地的人,我們在香港也能輕松地找到其他國傢的 native speaker,通過他們的反饋,我們得以把技術打磨得更好,借助香港這個跳板,出海到其他國傢。)(2)Vokal在過去的十年中,印度的互聯網市場以及相關業務都專註於服務習慣於使用英語的用戶身上。但下一代互聯網用戶渴望的是不用打字的非英語內容、交流以及購物。事實上,大多數印度互聯網用戶都習慣於使用印度語瀏覽網頁,而這一數字預計在兩年內達到 5 億。谷歌的統計數據也能為印度下一代互聯網用戶行為的變化提供一些線索:印度的語音搜索量同比增長瞭 270%,同時,95% 的視頻內容消費都是本地語言。預計未來幾年內,印度的互聯網用戶數量將超過 6.5 億,新用戶將全部來自於印度二、三線城市以及農村地區。Vokal 的應用下載量超過 50 萬,人們可以用印地語在上面提出並回答問題,而現在 Vokal 已經新推出瞭 10 多種語言選項。Radhakrishna 說,“你必須進行多種嘗試,不斷完善自己的商業模式。市場在不斷地發展,以英語為中心的受眾群體並不能代表整個市場的用戶。”盡管互聯網在發展,新互聯網用戶的行為也與之前不同。他們通過互聯網下載並分享的內容更多瞭,但卻不能用自己的語言進行公開提問並得到答案。同時,爭取這些新互聯網用戶的也並不隻有本土企業。中國的創業公司,尤其是那些提供本地語言選項並專註於視頻內容的企業,正被廣大用戶選擇。筆者認為,歸根結底還是印度整個國傢的識字率不高,一些低線城市的人口不擅長打字更不擅長英文,因此用自己會的語言進行語音搜索代替打字搜索是非常符合當地實際情況的,即語音產品的本土化,給瞭像Vokal這樣的公司很大的增長空間。當然這也會帶來一個疑惑,為什麼Google這樣的巨頭這麼早進入印度市場,卻沒有深度進駐這個領域,還是那句話,不是不能做,是巨頭看不上。訓練一個小語種模型無論從資金還是時間上都不便宜,更何況早期的印度智能手機滲透率還不高,很多基礎設施跟不上,因此做這些小語種的確是投入大產出小。2. 從單純的語音轉寫延伸到整個鏈路無論是出海產品Notta、Airgram,還是美國本土的Otter以及一系列帶語音轉寫功能的產品,都是圍繞著企業在線會議作為立足點拓展,前有會議預約和創建,中間有會議機器人,後有會議紀要的總結和同步,旨在提高企業的人效,減少會議導致的人力資源不必要的浪費,美國企業每年由於開會帶來的人力資源浪費達到企業開銷的1%。這個思路不難理解,企業開會的目的是同步信息,其結果是形成具體決策,決策最終會指導團隊行動。會議過程轉文字的好處在於,會議音視頻是線性的數據,用戶隻能根據時間線快進後退來獲得信息,而轉文字後就變成可縱覽的信息,用戶可以在文字中迅速捕捉關鍵信息,不需要操作時間線,更不需要把原話重聽一遍。轉文字後,將關鍵信息提取出來,就是團隊的決策依據和知識庫,這些不應該是保存在決策者的大腦或者某個本地設備,而是要共享給整個團隊,讓團隊參與討論和決策執行。同樣的,對於學生來說,語音轉文字可以很好地在課後對老師的講課內容有很好地概括和提取,並且將其進一步知識化,補充更多內容使其豐富化,單純的轉錄文稿是低價值的,隻有便捷的編輯和提取才可以讓學生把產品當成一個學習助手而非用完即走的轉錄工具。3. 從語音轉寫結果中提取線索這個不僅僅是對語音轉寫能力有要求,更多是搭配語義分析一齊提取有效信息,多用於銷售管理、客戶管理、商務會話比如當銷售和客戶溝通後,溝通數據會自動同步並且系統對數據進行分析,讓更多銷售能夠從聊天數據中獲益,從而更好地指導銷售行為。比如公司商務人員去外面會談後,其會談內容會被完整同步給團隊,讓整個團隊包括負責人能夠接觸到一手的商務數據,結合商務人員提供的信息得出更加科學的決策。比如企業開會的最終的落地結果是會議紀要,轉文字隻是第一步,更重要的是在文字中提取出會議重點內容,否則仍然需要參會者的二次加工。至於醫療場景,由於醫療是個嚴肅的話題,一旦技術轉錄出錯會釀出大禍,因此這塊還有很長一段路要走。十二、行業總結語音轉寫行業的衡量標準前文已經闡明瞭,不僅又快又準,也需要方便存儲調取使用,並且最終目的是對決策產生影響。因此,行業上遊玩傢作為基礎設施的搭建者,努力提升算法性能,采集更多數據,幫助語音轉文字以及其他技術不斷提升,突破臨界值。行業中遊玩傢努力嵌入更多企業、組織、機構,幫助它們提升數字化程度,將更多的信息知識化沉淀化。行業下遊玩傢,離消費端最近,準入門檻低,參與者非常多,不乏努力避免同質化的競爭者,隻有找到用戶實際場景中的核心痛點,提高效率,創造更多附加價值才可以獲得更高的利潤。需要語音轉寫的場景有很多而且流程區別很大,使很多新的入場者有發揮的空間,比如:專為小語種市場提供專業的語音轉寫;針對某一個市場進行本土化的產品設計和運營,仍可以依靠高客單價建立商業閉環;通過語音轉寫拓展到整個鏈路的服務,和巨頭的基礎服務打通,打破數據孤島;從語音轉文字的結果中提取更多關鍵信息和線索,幫助用戶做決策。語音轉文字作為一個成熟行業,光靠技術競爭很難拉開差距,更關鍵的是比拼產品體驗和運營策略。本文由 @WIPO 原創發佈於人人都是產品經理,未經許可,禁止轉載題圖來自 Unsplash,基於CC0協議該文觀點僅代表作者本人,人人都是產品經理平臺僅提供信息存儲空間服務。