【ITBEAR科技資訊】3月3日消息,近日,ChatGPT發布了基于Whisper大模型的語音轉文字API,旨在幫助用戶更加高效地將語音轉錄成文字,并支持多種語言的轉錄和翻譯。
Whisper API的收費非常低廉,每分鐘只要0.006美元,即人民幣約為4分錢,相信會對語音相關企業產生很大的影響。
據ITBEAR科技資訊了解,盡管Whisper API支持幾十種語言的轉錄和翻譯,但不同語言的轉錄準確率差別很大。Whisper large-v2模型在西班牙語、英語、意大利語、德語等語言的單詞錯誤率都能控制在5%以內,這樣的轉錄后只需要用戶簡單修改就可以得到完美的轉錄結果。
然而,在中文轉錄方面,Whisper的錯誤率相比其他語言要高得多。v1模型的錯誤率為19.6%,v2略微提高到14.7%,這對于用戶來說確實是一些麻煩。這一問題可能與中文本身的特點有關,例如中文的同音字和多音字,以及口音和方言的差異。中文語料的覆蓋率相對較低,也可能對模型的訓練效果造成了影響。