久久四虎_校园春色亚洲色图_成人福利在线观看_好吊色一区二区三区_国产欧美日韩在线播放_大肉大捧一进一出好爽mba_亚洲成a人无码_五月天综合在线_91亚洲国产成人精品一区_涩涩涩在线视频

大數據時代,語言服務行業將何去何從?_世聯翻譯公司

首頁 > 新聞中心 > 翻譯公司資訊 >

大數據時代,語言服務行業將何去何從?

為使大數據生成的數字內容有效,需要針對不同渠道將其進行轉換,以用于各種用途和其他市場的本地化。這是一個對于所有譯員來說都充滿機會的領域。
參加任何一個會議你都能發現常見的行業術語流行語多了一些不一樣的東西——“大數據”。還會聽到數字化數據大規模增長的消息、某領域知識庫增長速度驚人、公司如何來管理和詮釋來勢洶洶的數據等。迅速增長的內容包括結構化數據庫、應用程序代碼、圖像、視頻文件和文本。可能還會聽說機器學習和大數據如何使軟件更靈敏、更能滿足客戶需求。
我們談論的數據有多大?數字內容、代碼和結構化數據已經非常龐大,但仍以驚人的速度24小時不停增長著。每一天,世界上就生成2.5兆字節的數據。這些數據來源很多,包括文件、社交媒體、電子采購交易記錄和手機GPS信號。據估計,每日新增的數據將使全球信息資源庫的信息從2015年的7.9澤字節(7.9×1021字節)增加到2025年的176澤字節。別忘了1澤字節等于1,000,000,000,000,000,000,000字節,這是一個令人費解的數字,并且這個總數還不包括每天交流的大量內容。
不論創建的內容是什么,其容量之大都給翻譯和本地化帶來巨大且未實現的潛能。這對語言行業來說意味著什么,對人工翻譯和機器翻譯又意味著什么?
何為大數據?其重要性何在?
我們談論的大數據指的是獲取大量數據和使用軟件工具來識別以前未被發現的模式、趨勢、相關性和關聯的新方法。如果你在網上買了一本書,是因為在線零售商告訴你,與你有類似瀏覽歷史的顧客都喜歡這本書,那么你就已經是大數據分析的受益者了。
過去幾十年里,商業、政府和日常生活的數字化使這種做法成為可能。這些信息存儲在巨大的數據庫中,數據庫中有結構化數據,以及大大小小的文檔資料。我們每天用更多的數據來喂養這只正在不斷成長的“野獸”。雖然所有機構都依賴數據來運行,但只有少量機構利用數據更好地理解其所在領域人們的行為、偏好和趨勢,這種機構數量雖少,卻呈現出增長態勢。機構利用這些數據作出的分析,可以更好地決定如何推銷產品、幫助客戶、提高運營效率,或者作出其他偉大構想。
他們是怎么做的?使結構化數據和文本富有多樣性并不不容易。對于高度結構化的數據,則使用專門處理大數據的軟件從大型全網上數據庫中提取。然后,分析師采用新一代的商業智能和文本分析工具,將這些原始數據轉換成可用的信息和可操作的內容。他們可能會將交易數據與服務器日志,點擊流數據,社交媒體內容、客戶電子郵件文本,傳感器數據和電話記錄結合起來,再提取出數據分析。他們提取分析數據時,也使用高級分析工具,包括統計分析、數據和內容挖掘、預測分析和文本分析。傳統的商業智能和現代數據可視化軟件可幫助分析師以人類可讀的形式呈現出他們的發現。
語言行業實際上是首個對大數據應用表現出興趣的領域之一。早期的主流應用就有谷歌和微軟推出的統計機器翻譯(SMT)。2011年卡門森斯顧問公司(CSA)在一份機器翻譯(MT)發展趨勢報告中指出,這些基于統計的方法都是大數據在MT領域的應用,因為它們必須用到大量的雙語數據。例如,它們會將英文源文件與人工翻譯后的俄文文件進行比對。
簡單來說,SMT可以通過將源文件中的零和一與譯文中的相關信息進行對比,找出其中的相關性和翻譯模式。換句話說,計算機強大的處理能力可將文件與其譯文進行拆分,然后分析其中的翻譯模式并預測未存儲文本的譯文。這種分析大大加快了語言支持的速度,而不是像從前MT那樣要依靠語言專家團隊來創建語法,把它們整理成翻譯規則,創建雙語詞典,之后還要不斷地在發現問題后作出修改以及添加規則。
2011年CSA在一份報告中預測專家在處理更多的語言種類和大量的多語言內容時,會使用這些基于數學的大數據算法來解決不同語言之間的溝通與營銷問題,這已經成為事實。
過去幾年里,基于大數據分析的MT使用頻率早已超過了第一代基于規則的解決方案。Google翻譯吸引了大量的用戶,這證明其操作簡單、易于領會,從某種程度上說,也是MT輸出的質量得到提高的結果。盡管學術研究表明BLEU7(雙語評估替代技術)等流行的質量評估系統已經有了提高,但這種提高并不是簡單的累加,在不同語言和不同可譯內容類型(例如常規文本、音頻、視頻和社交媒體)之間,翻譯結果也會出現較大的差異。因此,能提升翻譯質量的數據很少,除非用戶對翻譯質量沒有很高的期待。
像Amazon Web Services和Microsoft這樣基于云計算并能無限使用的算法能為這些大數據實踐提供支持。隨著數以億計的設備(如傳感器、嵌入式控制器、可穿戴設備、健康檢查器以及尚未發明的小部件)接入互聯網,這類獲取和分析方式將會繼續發展成為“物聯網”。
為使大數據生成的數字內容有效,需要針對不同渠道,將其進行轉換,以用于各種用途和其他市場的本地化。企業和政府規劃人員早已了解到只用一種語言提供所有數字化信息是不夠的。他們的任務是盡可能多地使用數據來支持重要人群的用戶體驗。否則就不可能吸引并留住國內外的多元文化受眾。
只需考慮翻譯的必要要求,使其在轉換成另一種語言時能夠面向更廣泛的受眾。據估計,要提供14種語言才能滿足世界上90%經濟活躍人口的需求,但大多數網站最多只支持六種語言或地區。許多公司的產品和文件本地化工作都很滯后?谧g活動更是受到限制。
隨著各機構產生的數據越來越多,人們也越來越渴望為更多受眾提供產品和服務。近期CSA對于客戶方面受訪者的調查報告顯示,他們計劃在未來三年內將翻譯量增加67%,從平均每年的5.9億字增至9.9億字。這種增長是語言行業現有方式無法滿足的,并且在CSA調查樣本中,買家希望能結合供應商后期編輯內容和原始MT來解決這種增長需求。
大數據在當代的應用,及其在未來的應用
各機構表示,要實現他們增加翻譯量的計劃,會耗盡所有現有譯員和短期內會進入該領域的譯員的精力。
為了滿足日益增長的翻譯需求,各機構紛紛采取措施提高譯員和機器翻譯的生產力,以解決翻譯量和周轉時間的挑戰,以及多種目標語言處理和預算有限的問題。公司對人工翻譯和后期編輯MT進行投資,以應用于重要的業務內容,如比較固定的產品和營銷材料。例如,消費者要依靠大批數量不斷增長的翻譯提供商,使用機器翻譯對源材料進行預處理,然后語言專家再對輸出材料進行人工編輯。一小部分客戶組織也將未經編輯的機器翻譯輸出材料直接用于商業領域,比如“常見問題”和“知識庫”。
除了使用機器翻譯一些有限的商務文本外,一些消費者也開始使用機器翻譯處理一些用戶生成的內容,例如過去一些機構不愿翻譯的產品評估、酒店評論和論壇討論等。但CSA的研究顯示,線上消費者和商業買家都喜歡翻譯用戶評論,即使這些評論都已經翻譯過了。
為何大數據的數量與翻譯消費者和提供商有關
大數據代表了大量的數字,但翻譯行業的數據對于大數據來說簡直是冰山一角。我們只需看看書面單詞以及它們與每天生成的2.5兆字節數據有什么關系就知道了。
盡管當今的目標是使人類更加具有生產力,以節約時間和金錢,但全球的在線內容遠遠無法適用于所有語言。從多年的研究和咨詢中可知,是否投資翻譯、本地化和口譯的討論都必須先審查可用的數據。
CSA決定調查本地化行業面臨的眾多挑戰,從翻譯內容的角度看,從所有可譯數據中找出應該翻譯什么。我們決定從某一天的數字內容輸出開始,確定應該翻譯什么,如果整個語言行業只處理這些內容并且沒有積壓的數據,那么到底應該翻譯什么。
什么是數據?數據就是每天數字化所創建的一切,包括從文檔到SQL數據,從遙測技術到數字多媒體技術。我們先將這個假設應用于外包服務的支出。據估計,多種形式的翻譯——包括人工翻譯、譯后編輯、轉錄以及網站全球化和以文本為中心的本地化翻譯在381億美元的語言服務和技術市場中占264億美元。
然后,我們算出單詞每日花費的金額。我們將26.4億美元平均分在365天里,估計翻譯行業日值7200萬美元。若假設每個字20美分,則預計專業譯員每天處理近3.62億個詞。然后,我們將每個詞轉換成9.71個字符,即相當于七十億字節的雙字節字符。(請注意,某些語言較其他語言平均每個字的字符較少)。
最后,我們將其與日常創建的內容量進行比較。當我們將2.5兆字節除以語言服務提供商產生的目標語言內容的數量時,預計翻譯公司每天只能處理全部創建內容的0.00000000009%。然而,我們可以保守估計,絕大多數的數據將永遠不會被翻譯——要么材料不可譯,要么翻譯此類材料沒有意義。
但是今天有些沒有翻譯的東西(如用戶評論和社交媒體帖子),隨著企業努力提高客戶體驗,將來也會被翻譯。即使排除那些極小比例的日常字節,外包內容的翻譯量仍然遠低于每天創建內容的1%。別忘了我們討論的是僅僅一天內的翻譯缺口。這并不包括尚未翻譯的積壓內容。
該假設的結果表明,若內容被完全翻譯,通常在網上只會被翻譯成六種語言(在其他地方則更少)。這遠遠低于國內外交流和商業中重要的網上語言總數。
當然,還有許多影響計算的其他變量和因素。例如,應該翻譯卻沒有翻譯的,以及現有內容的許多部分。但能確定的是有大量內容永遠不會被翻譯或本地化。這不僅對技術公司而言是機會,對語言行業而言也是如此。
大數據對語言行業而言意味著什么
我們討論的大數據和翻譯需求為語言行業展現了機會,但是許多譯員由此擔心MT的廣泛應用會剝奪了他們的工作機會。我們的研究估計,譯員實際上會因MT而失去一些較低價值的工作,但在可預見的將來,譯員的總體工作量將以穩定的速度增長。
如果我們還考慮擴展譯后編輯——可以肯定,這是一個有爭議的話題——相對于當下對未來譯員的依賴,譯后編輯更加依賴專業人才。因此,如果要跟上需求,譯員們需要利用大數據來提高生產率。一些人將更進一步成為可以構建、訓練和改進MT引擎的專家。
在生產力方面,我們看到今天的大數據是基于統計的MT引擎,可用來補充其他MT模型的譯后編輯過程。與MT的連接可用于CAT工具,如Kilgray memoQ、Memsource Cloud和SDL Trados Studio。同時,像Lilt這樣的創業公司也使用類似CAT的工具中的MT輸出加速人工翻譯進程。軟件開發人員也向我們表明,他們正在評估大數據機器學習技術,以改進術語、翻譯記憶庫、消歧,以及對其他各種內容的創建、本地化和任務審校。簡而言之,大數據將改進譯員使用的大多數軟件工具。隨著MT技術的發展,口譯員也將受益匪淺。
大數據對語言專家而言意味著什么?正如他們看到的翻譯記憶庫和術語管理一樣,語言專家將能使用另一種工具。由于這種軟件會對源內容的分析進行改進,最終買方和代理方的雇主都希望他們使用這種軟件提高工作效率。
我們2016年針對語言服務提供商的調查發現,49%的受訪者已經承認將MT譯后編輯作為其服務。早在2012年,我們的研究就顯示,21%的自由職業者都使用過這項技術。
有些人將舍棄傳統的翻譯公司結構,成為大數據專家。他們將創建行業和領域專用記憶庫并收集、分析和翻譯內容。語言專業人員與數據應用程序合作利用相關結果“豐富”有用元數據(如主題分類、名稱和實體分類等)的內容策略傾向正在出現。這種傾向將使本地化人員能夠創造特殊的市場價值。有些將采取下一步措施進入全球主流營銷,增加他們的投資組合服務,如跨國商業智能,以幫助公司更好地了解其市場,或跨語言語義和情緒分析,以消除多語言的消費者和商業買家的多語言內容。
大數據大大增加了內容量。同時,基于大數據科學的自動化內容豐富和分析工具將能夠訓練更復雜的工具,幫助人們翻譯不斷增長的內容,并使機器能夠縮小生成的內容與實際翻譯內容之間的差距。毫無疑問,一些語言專家會將這些基于大數據的創新視為威脅。而另一些人則會將這種進步看成是一種機遇,它可以幫助確定源內容的意義,增強其他工具的有用性,以此提高生產率。
雖然這還沒有發生,但我們推測,由這些現象推動的MT可以消除譯員的“隱身衣”,給予他們更大的認可和更高的地位。即使機器翻譯的比例大于人工翻譯的比例,人工翻譯的數量也絕對會增加,例如生命科學等領域。反過來,人工翻譯的感知價值可能會增加。這是為什么呢?因為當采用人工翻譯時,則意味著這項工作非常非常重要。這跟會計差不多。軟件可以處理日常事務,但是當出現問題或事情至關重要時,還是需要資深會計來進行處理。
由于語際交流變得透明化,我們預測出現高價值交易(即需要筆譯譯員和口譯譯員)的情況將會增多,而不是減少。如果提供商費用增加,并且公司使用MT來滿足較大比例的語言需求,則會使譯員受益,因為他們付出了很大的代價來支持客戶體驗和其他高價值互動的最重要內容。
世聯翻譯-讓世界自由溝通!專業的全球語言翻譯供應商,上海翻譯公司專業品牌。絲路沿線56種語言一站式翻譯與技術解決方案,專業英語翻譯日語翻譯等文檔翻譯、同傳口譯、視頻翻譯、出國外派服務,加速您的全球交付。 世聯翻譯公司在北京、上海、深圳等國際交往城市設有翻譯基地,業務覆蓋全國城市。每天有近百萬字節的信息和貿易通過世聯走向全球!積累了大量政商用戶數據,翻譯人才庫數據,多語種語料庫大數據。世聯品牌和服務品質已得到政務防務和國際組織、跨國公司和大中型企業等近萬用戶的認可。