以保真性高和時效性強的語音識別技術開始進入我們的工作和生活了,而曾經也是目前正在廣泛運用的人工速錄技能,怎么樣了?微軟公司2017年8月21日宣布,由他們研發的對話式語音識別系統的出錯率已降至5.1%,創下目前為止的最好效果。而國內的專業速錄師以每分鐘不低于220字的速度,進行語音信息采集時,準確率達到了98%,即出錯率低于2.0%,遠遠領先于5.1%的人工智能語音識別系統。
在人工智能迅猛發展的今天,由此引出一個話題,語音識別技術會替代人工速錄技能嗎?我們的回答是:現在不可能,并且永遠不可能!
其一,從理論上看,這是“技術”與“技能”的重大分野。
語音識別是由大數據和云計算支撐的一門新興的語言的識別和錄入的快捷方式,不論研發者或營銷商,將其吹噓得神乎其神,在其根本性上,都是隨著人工智能的興起而產生的一門技術。就像人工智能永遠不可能代替大腦智能一樣,機器識別也不可能替代人工識別,因為他只是人類開發的一種技術而已。對此,西南政法大學前任校長、四川大學法學院教授、博士生導師龍宗智教授認為,技術只能為人服務,而不能倒過來人為技術服務。
成都某法院黃姓法官認為,在庭審現場,且不管語音識別的出錯率,假設一切方言均能識別,那么庭審現場的一切聲音都將轉換為文字,實際庭審過程中很多信息(如與案件本身無關的題外話,或是臟話)都將成為庭審記錄的文稿,這勢必加大庭后校對的繁瑣、整理的難度。一切技術是為人服務的,新的技術只有在提升工作效率降低對人的工作要求的情況下才能被廣泛應用和推廣。
而人工速錄則不同了,首先,速錄師是鮮活的人,他有著人所具有的主觀能動性,他能隨時和及時的把控、調控和應對、處理不同的語言環境和語音場景。其次,人工速錄師是經過專門的培訓的,有一定的文化底蘊和較強的文字能力,加上配備有專業的速錄機,他所起作用就不僅是被動地“實錄”,而且是主動的“整理”。由此可見,語音識別的“技術”是事先移植的,而人工速錄的“技能”是后天生長的。
其二,從運用時看,這是“工場”與“社會”的重大分工。
以技術見長的語音識別,更適合做“有技術含量”的工作,如生產流水線、商業服務點、事務辦理處、人機對話時、無人駕駛車、遠程醫療中等等“工場”性質的領域。因為,它符合這些行業所要求的高效、準確、及時、簡便的標準。而人工速錄除了這些領域和行業外,還更適合具有人文色彩的社會性質的工作,如司法庭審、文秘記錄、行政會務、新聞采訪、網絡直播等領域和行業。
因為,速錄是由具備相當的信息辨別、采集和記憶能力及語言文字理解、組織、應用、整理等能力的人員,運用速錄軟件和速錄機對語音或文本信息進行實時采集,整理。對于近期熱議的語音識別軟件淘汰速錄技術的話題,我們需理性看待,中國的語言博大精深,同音字、同形字太多,另外方言是語音識別軟件很難逾越的障礙,加之專業術語、英文詞匯,廣東腔的普通話,上海腔的普通話,限制了語音識別軟件的使用。(中國速錄愛好者網)
就拿語音識別和人工速錄在司法庭審中的作用來說吧,人們更多的是看到,它一字不漏的真實性,立竿見影的及時性,現場轉換的高效性。其實,這個所謂的“真實性”,是包括了不少的我們不需要的“廢話”“臟話”,甚至“錯話”的;這個所謂及時性,只供現場瀏覽而沒有實際意義的;這個所謂的“高效性”,是需要事后書記員整理梳理的,高效也成了低效了。
在法庭上司法官和當事人都應當自然表現,用自己的語言、自己的表達方式在法庭上展開互動,演出一幕幕的活劇,這才是真實而有效的訴訟展開。這就必然出現人工智能難以完全識別的情況,尤其是訴訟當事人的語言。從目前的試驗看,智能語音識別技術對于法庭上話不多、用語比較規范,且注意適應語音識別要求的法官,其識別率相對較高,但對于當事人、證人的自然陳述,其識別率較低。現在還沒有發現世界上有哪個法庭能夠用人工智能識別代替書記員工作的。還有面對庭審中當事人或者證人表現出的非語言“情態信息”,例如演示的動作、憤怒的表情、哭泣的聲音等,語音識別技術則失去了“用武之地”。
其三,從效果中看,這是“實錄”與“整理”的重大分歧。
如前所述,從錄入的效果看,語音識別和人工速錄在出錯率上,分別是2.0%和5.1%,其效果已經涇渭分明了。任何形式或性質的口頭語言的書面化“記錄”,如果僅有“原封不動”的記錄,是無法實現文本意義的。前年四川省某重要會議現場,一名速錄師按要求做會議全程記錄,要求將領導的講話原文一字不落地記錄下來。會后打印成文稿交給領導審閱時,領導看完稿子十分生氣,“即使我講話水平不高,你也不能這樣記吧!”因為記錄人沒有去掉講話中的口語痕跡,更沒有對講話做必要的整理。這說明,同樣保證真實和快速的前提下,語音識別的“實錄”和人工速錄的“整理”,在實際工作中產生的效果可謂天壤之別。
首先,盡管今天的語音識別技術相比5年前,準確率已經提高了20%以上,但仍然有一些不易解決的技術難題,如噪音環境下的語音識別、方言問題、同音字和近音字的理解,這些對于計算機而言是難以分辨的,而對于現場的速錄師輕而易舉就明白了。四川大學法學專家韓旭教授認為,智能語音識別技術在庭審中的應用固然有助于提高庭審記錄的效率,但是它不能完全代替書記員的工作。如果一味依賴“機器”,庭審結束了還需要整理“實錄”,反而加重了工作量。還有,在真實的政務活動、商業談判和網絡直播中,智能識別沒法做到這些更為靈活智慧的變通,在語音識別完成之后,還是需要進行后期的二次加工、人工校對,這會導致運行成本上升。而速錄工作其實是復雜、復合的多線程工作模式,我們常常講速錄師是復合型人才,在一個會議速錄工作中,涉及到會前、會中、會后,以及客戶的具體要求,根據具體要求,速錄師會采取完全不同的工作準備和工作方法,這樣只會大大地提高工作效率。
其次,語音識別技術對于內容是否準確、是否完整、是否語義清晰、是否排版有序還完全無法駕馭,這勢必增加商業應用的難度,這也是擺在人工智能面前一個巨大的絆腳石。因此,在本身的技術特征之下的商業形態尚有一定的缺陷,是否真正有商業、能否真正商業化,還是一個未知數。當速錄師可以一步到位完成所有工作和所有客戶要求的時候,語音識別還在單線程地解決某一個客戶的痛點,客戶是會用腳投票的,因為客戶需要的是一個整體解決方案,交給你,你幫我解決所有的煩惱,而不是其中一個煩惱。因此,目前來講,從速錄行業的客戶人群所需要的服務和語音識別的服務要求,本身在存在巨大差異的情況之下,兩者之間并沒有一個非此即彼的競爭關系。
綜上所述,對于近期熱議的語音識別軟件淘汰速錄技術的話題,我們需理性看待。人工速錄,不僅是運用技術手段的,而且是從事技能工作的;不僅是做好工場加工的員工,而且是具有社會能力的人才;不僅是滿足實錄要求的,而且是進行整理規范的。他是具備相當的信息辨別、采集和記憶能力及語言文字理解、組織、應用、整理等能力的人員,運用速錄軟件和速錄機對語音或文本信息進行實時采集,整理。來源:中國速錄愛好者網