ITBear旗下自媒體矩陣:

                                                                    重構版式還原系統 WPS團隊:讓產品多走一步,用戶少走一步

                                                                       時間:2023-03-03 11:10:49 來源:互聯網編輯:芳華 發表評論無障礙通道

                                                                    “紙質合同用WPS轉文檔太哇塞了!表格、簽名、公章也能轉出來?!?/p>

                                                                    “各類統計表要電子版上報,在WPS轉后,隨手排下就能用?!?/p>

                                                                    “基本保持原本的排版設計,值得擁有~”

                                                                    2022年下半年,不少用戶在社交媒體點贊WPS,都因驚喜發現:圖片轉docx、xlsx格式文檔的效果變得更準確和精細。

                                                                    在用戶看不到的另一面,WPS版式還原功能“悄悄”完成了引擎更新。WPS全新的文檔識別與理解引擎,開始了它的工作。

                                                                    它被研發團隊稱之為文檔AI技術的“瑞士軍刀”,專解版式還原、內容提取、圖像處理的疑難雜癥。升級以來,相關功能使用口碑猛漲,反饋率下降75%多;項目的核心技術榮獲了珠海市產業核心和關鍵技術大獎,VIE(視覺信息提取)技術部分方案參加了2022年CSIG圖形挑戰賽獲得了小票賽道的冠軍和總決賽雙冠軍……

                                                                    為什么金山辦公要做這套引擎?又是如何做到的?我們采訪到了金山辦公技術總監熊龍飛,聽他聊聊,WPS文檔識別與理解引擎的“前世今生”,以及給未來辦公帶來的可能。

                                                                    反饋居高不下,決心重構引擎

                                                                    問:目前,WPS版式還原能達到什么樣的效果?

                                                                    熊龍飛:

                                                                    你可以認為,基本人類肉眼能識別的,這套引擎都能識別和還原。

                                                                    比如領導要你從一沓紙質表格里,核對出數據。用手機輕輕一拍,就能轉成可編輯的xlsx或docx文檔;比如揉皺丟進垃圾桶的紙,捋一下,用WPS就能識別。

                                                                    甚至,我們還精細到字體屬性的還原,如字體顏色、是否加粗、是否斜體、什么字體。

                                                                    問:做版式還原,是基于怎樣的洞察?

                                                                    熊龍飛:

                                                                    WPS每月都會統計用戶反饋排行,前幾年,版式還原相關的功能投訴量居高不下,如圖片轉表格亂碼、圖片轉docx耗時非常久等等。而老的引擎因為歷史包袱問題,已經很難改動了,而金山辦公很重視用戶的體驗,于是公司高層下定決心,要重構一套文字理解和識別引擎,對相關功能進行一次顯著性的體驗提升。

                                                                    問:這意味著一切從頭再來,要投入大量人力、時間、資金,為什么團隊堅持這么做?

                                                                    熊龍飛:

                                                                    一開始我們心里也沒底。2019年初CV(計算機視覺)團隊只有2、3人,而版式還原這種規模的項目預估要投入幾倍人力。短期甚至看不到產出,項目可能會持續一到兩年,甚至更久。

                                                                    但當時AI中臺的負責人姚冬非常堅定,認為作為一個辦公軟件公司,尤其是把文檔處理當作核心業務的公司,一定要把版式還原效果提上去,如果我們不做,其他公司更不會愿意投入這么大物力和人力及時間成本去做這件事,用戶將長久忍受這個領域的痛點。

                                                                    后來我們決定啟動項目,而且不僅要做,還要奔著行業頂尖水平去做。之所以這樣說,一方面來源于我們既往的項目經歷,我們當時已經做了業內頂尖水平的彎曲矯正能力、最早期的本地OCR(光學字符識別)能力以及很多具有功能亮點的CV項目。另一方面,當時經過幾個月的調研,我們發現,金山辦公無論是AI的技術儲備還是對文檔領域排版、版式、格式的技術和經驗積累,做這個事情都是具有優勢的,所以雖然我們知道這個項目有難度,但心底里還是有信心的。

                                                                    新技術&領域積累,啃下版式還原硬骨頭

                                                                    問:研發過程中最大挑戰是什么?

                                                                    熊龍飛:

                                                                    在2019年起步時最大的挑戰是,老的方案我們已決定徹底放棄,那么意味著從0開始構建我們預期的系統,而且我們是希望通過AI技術進行徹底重構的,當時這個領域除了一些論文鮮有其他參考。

                                                                    方案花了幾個月構思,起步時的幾個核心算法也是從頭進行驗證的。所以我們整體把任務分拆成了多個階段,首先實現了最基礎的圖文渲染排版的檢測和識別問題,再加大排版復雜度,做了復雜排版的版式分析和識別。再擴大不同類型,例如公文類、試卷類和CAD類型。等整套系統具備完善的模塊和流程后,我們當時已經能夠解決掉相對標準的PDF的識別和轉化問題了。

                                                                    這些過程可能只花了我們一年左右的研發時間,后邊的兩年多才是真正的煉獄模式,因為我們要解決更復雜的場景,例如污染、變形、拍照、自由排版、PPT、甚至帶折痕的老舊文件場景。這些問題不僅對于企業是難題,連國內頂級高校以及學術界都還在死磕這些極端場景,所以復雜場景和極端場景的問題解決是我們面臨的最大挑戰。但好在我們把大任務進行了拆分,做了很多里程碑目標,每個階段都有相應的產出,使得團隊的成員沒有懼怕,最后硬是把這塊硬骨頭給啃下來了。而且隨著啃這塊硬骨頭,我們的團隊在三年多的時間從幾個人發展到了幾十個人,也算是邊打硬仗邊成長了。以致于我們收獲了一支抗壓能力、戰斗力和輸出很強的團隊。

                                                                    問:目前的方案是怎樣的?

                                                                    熊龍飛:

                                                                    版式還原項目的復雜度極高,這套系統有超過20個深度學習模型、100多個算法模塊、幾十萬行代碼。任何一個小模塊拎出來,都是完整的AI項目。這些模型作為零部件組裝在一起,會存在很多兼容性和嫁接問題,這么多模塊和流程的中間件工具的串聯和組合,調度層的設計難度可想而知。

                                                                    現在要轉一張圖片,先由前處理模塊進行處理。有彎曲就矯正,有污染就把它變干凈,以便更好識別、理解。然后就開始檢測元素,有哪些LOGO、文字,都檢測出來。檢測完之后,由VIE進行信息的關系組合以及內容識別和提取,把拆散的元素重新組織成帶版式信息的描述,最終可導出為docx、xlsx等用戶想要的格式。

                                                                    問:團隊有怎樣的技術創新?

                                                                    熊龍飛:

                                                                    因為做版式還原的公司比較少,也沒有公司將相應的技術做公開,所以任何做這個領域的公司或團隊都會面臨著一切從頭來的挑戰。

                                                                    這樣也會使得伴隨著項目進展,會產生很多技術創新。例如,我們團隊用了多個深度學習模型來解決以往通過傳統圖像算法處理的問題,可以提高檢測和識別效果。也有很多模型內我們嵌入了傳統算法的思路,讓模型得到魔改而獲得更好的性能。

                                                                    除了自身的研發創新之外,我們還通過高校合作,引入了學界比較新的技術思路。例如我們與高校合作應用了近年來業內比較火的一項技術——VIE(視覺信息提取)。

                                                                    純靠OCR,只能識別這個字,卻不知字的關聯性、邏輯性。通過VIE技術,段落關系得以理解,這對于復雜排版的文檔識別會更加精準,比如發票、小票信息抽取等。舉個例子,一張發票里面,“合”字和“計”字離得很遠,以前識別的時候,就把他們判斷為兩個詞。在VIE技術下,就知道他們屬于一個詞組。

                                                                    問:金山辦公做版式還原這件事,有什么優勢?

                                                                    熊龍飛:

                                                                    常規的識別方式,就是把文字進行提取,最多做一下圖片和印章等對象的檢測,然后組合在一起。但我們可以做的更多,更精細。例如段落排版,我們可以做得更復雜和精準。

                                                                    因為除了結合AI技術做的段落分析,我們公司還有30多年豐富的段落排版、文檔的版式背后的底層邏輯的技術積累。公司另一個老板朱熠鍔在文檔領域已經做了非常多年,對文檔底層技術有深刻的理解,可以由淺入深跟我們講明白技術邏輯。就算有些技術他不是最專業的,他也能告訴我們應該咨詢哪一位或者哪幾位領域專家。這種專業指導讓我們不用自己苦苦查閱文檔學習和摸索。

                                                                    另外,在輸出常見的辦公軟件格式上,其他公司如果沒做過這類軟件,不好理解docx、xlsx、PDF等格式的底層邏輯和規范,更不用說有現成可用的文檔渲染toolkits可以使用,而我們就只需要向朱總反饋一下相關需求,朱總很快就能在公司內協調到相關團隊給我們支持。如果我們自己做這后半程(具體格式的文檔輸出),那知識的容積以及開發量就太可怕了。

                                                                    技術多走一步,用戶少走一步

                                                                    問:對CV團隊來說,最好的技術是什么樣的?

                                                                    熊龍飛:

                                                                    作為技術開發,比起刷數據指標,我們更在意整體方案是否優雅,效果是否讓用戶滿意。我們對產品有類似于蘋果公司的做事追求,大道至簡。其實說起來容易,做起來很難,因為有時表面看起來越簡單的界面,背后需要做的基礎技術越多。我們會把極致的技術解決方案藏到交互后面,通過更好的算法和策略,盡可能讓用戶使用起來更簡單。我們堅信:產品跟技術多走一步,用戶就可以少走一步。

                                                                    問:CV團隊是一支什么樣的團隊?工作氛圍如何?

                                                                    熊龍飛:

                                                                    我們鼓勵創新,希望團隊每個人都大膽提出自己的想法,而不是變成一個執行命令的機器。

                                                                    比如,某次上級否定了你的想法,你想證明是對的,可以給你20%的時間去驗證,80%的時間留給常規工作。最后沒有結果,說明方向錯了;如果證明了自己,會贏得整個團隊的認可。

                                                                    但我們不會靠加班去“卷”。6點后有人還在工作,我們會主動詢問,是不是工作沒規劃好?每天加班到9點,大腦陷入疲憊狀態,已經沒有效率了。下班一定要釋放出來,去休息、去玩、去閱讀?,F在大家很愿意在上班時專注投入,摸魚少了,反而交付的質量變高了。

                                                                    問:團隊下一步規劃是怎樣的?未來有哪些應用場景?

                                                                    熊龍飛:

                                                                    未來,我們會繼續在文檔智能領域深挖,逐漸實現從感知智能到認知智能的能力覆蓋。

                                                                    什么叫感知和認知?肉眼上看到幾句話,知道是哪些字,屬于感知。但里面描述這段話是什么含義,上下文之間什么關系,就屬于認知智能。

                                                                    人有思考能力,能去找事物的關聯性。通過VIE技術,這套系統也具備這樣的能力。

                                                                    未來,用戶或許可以在WPS實現這樣的場景:導入一個沒有目錄的PDF,系統可以直接生成大綱,歸納每一章節里的主要內容;掃描了很多文件,系統可以幫你分類、歸納……

                                                                    我們希望通過 AI 或CV 技術,讓文檔識別和處理更智能一點,讓用戶使用起來更暢通、更絲滑,讓用戶通過WPS能夠實現更智能的辦公,讓辦公更輕松,讓人們多一些時間和精力思考,以追求更充實和幸福的生活。


                                                                    舉報 0 收藏 0 打賞 0評論 0
                                                                     
                                                                     
                                                                    更多>同類資訊
                                                                    全站最新
                                                                    熱門內容
                                                                    網站首頁  |  關于我們  |  聯系方式  |  版權聲明  |  網站留言  |  RSS訂閱  |  違規舉報  |  開放轉載  |  滾動資訊  |  English Version
                                                                    關閉
                                                                    ITBear微信賬號

                                                                    微信掃一掃
                                                                    加微信拉群
                                                                    電動汽車群
                                                                    科技數碼群

                                                                     
                                                                    亚洲乱亚洲乱无码