五月激情开心网,五月天激情社区,国产a级域名,婷婷激情综合,深爱五月激情网,第四色网址

人工智能搶救瀕危滿語的研究與探索

時間:2022-11-08 15:12:12

引言:易發表網憑借豐富的文秘實踐,為您精心挑選了一篇人工智能搶救瀕危滿語的研究與探索范例。如需獲取更多原創內容,可隨時聯系我們的客服老師。

人工智能搶救瀕危滿語的研究與探索

一、瀕危滿語的調查與研究概況

我國民族眾多,歷史上各民族頻繁交往交流,深入融合發展,是中華民族共同體的參與者和創造者。語言是人類特有的社會交際工具,每一種語言都存儲著族群的源流歷史、民族特征等,通過語言的使用,獨具特色的文化代代相傳,延續不絕[1]。滿語既是滿族歷史上使用的語言,也是清代東北各民族的共同語,具有豐富的歷史、文化內涵,在清代的政治、社會、文化以及各民族交往交流交融中發揮了重要的作用。東北地區大量的歷史傳說、民間故事、薩滿祭祀、頌辭贊歌都是由滿語承載的,人們口口相傳,生生不息。特別是《尼山薩滿》《薩大人傳》等國家級非物質文化遺產———滿族說部等民間說唱文學,一直以氏族傳承、血緣傳承、薩滿傳承的方式口口相傳,代代傳誦,是中華民族優秀文化的重要組成部分[2]。此外,滿語還在滿文檔案翻譯、清代各民族交往交流等研究方面具有重要的作用,大量的滿族歷史文化和滿文檔案清晰展現了東北各民族與漢、蒙古等民族間交往交流,融合發展,共創中華民族共同體的光輝歷程,通過滿語與滿文檔案的相互印證,再現當時的語言和社會特點,為相關研究提供豐富的史料和佐證,保障清史、滿族史以及東北邊疆史等研究更加準確客觀詳盡。在新的歷史條件下,探索運用人工智能搶救和保護瀕危滿語,對于深入挖掘滿族歷史文化,探索滿通古斯諸族參與中華民族多元一體構成和發展規律,服務民族交往交流實踐,深化民族團結,筑牢中華民族共同體意識等研究,具有重要的意義。滿語與歷史上的女真語一樣,都是隨著王朝的興衰而變化的。清王朝興起后,滿語曾一度興盛大江南北,享有極高的政治地位。辛亥革命后,滿語退出了歷史的舞臺。當前,滿文早已廢棄,僅有少數專家學者能夠使用,滿語也處于瀕臨消亡的邊緣。2009年,聯合國教科文組織將滿語列入了“極度瀕臨滅絕”語言的行列,2013年據有關媒體報道,真正懂滿語的已不足百人,精通者不足10人[3]。時至今日,情況將更加嚴峻,僅有黑龍江的極少數高齡滿族老人尚能使用,如不加快搶救和加大保護力度,原生態的滿語將在這些老人百年之后徹底消亡。國內關于滿語的調查與研究肇始于20世紀50年代,面對滿語瀕臨消亡的危機,學術界加緊了搶救性調查和資料收集的步伐,形成了一大批研究成果,推動了滿語保護與研究的深入進行。其中,金啟琮對黑龍江省富裕縣三家子的歷史、文化以及滿語進行了較為系統的調查和描寫[4];王慶豐對黑河大五家子的滿語進行了系統調查,對語音、詞匯等情況進行了研究[5];趙杰還對泰來縣依布氣滿族村的滿語進行了系統的調查和研究,對相關問題進行了分析[6];這些代表性的成果,對于摸清滿語分布狀況、了解滿語語言結構特點起到了重要的作用。針對滿語日益瀕危的現狀,搜集滿語錄音錄像語料、建立語料庫成為研究的熱點,2018年,趙阿平主持的國家社會科學基金重大項目“中國滿通古斯語言語料數據庫建設及研究”獲得立項,擬通過搜集瀕危滿語、赫哲語等口語語料,建立相應的語料庫,推動瀕危滿通古斯語的保護進程。[7]。此外,關于滿語語音的實驗研究也成為當前研究的新動向,其中,尹鐵超、張力對滿語元音a的音值進行了研究[8],李兵、胡偉對大五家子滿語詞重音分布情況進行了聲學分析[9],王娣首次對黑河地區滿語元音進行系統實驗研究[10],這些成果為搶救瀕危滿語提供了理論探索和數據支持。當前,滿語的智能化研究尚處于起步階段,一些學者和科研機構對滿語的數字化保護、語言復制等方面展開了探索。其中,祖漪清等人以科大訊飛多語種文語轉換系統MTTS為平臺,提出了用語言復制的方法記錄錫伯語的思路,具有較強的針對性和可操作性[11];黃志強、李德新結合數字化保護有關理論、做法,對三家子滿語資源整合利用、保護傳承等問題進行了探討[12];祖漪清、趙廣立提出了利用人工智能技術研究瀕危語言、方言的語音結構、語言結構,實現對一種語言的完整“復制”[13];2019年,科大訊飛研究人員還遠赴黑龍江畔的四季屯,探訪滿語母語者何世環老人,采集滿語語音數據,通過AI技術合成了清晰自然的滿語語音[14],為運用人工智能搶救瀕危滿語的實踐進行了積極的嘗試。在國外,由于滿語不是研究的熱點,相關的成果不是很多,但在其他瀕危語言保護方面取得了突出成績。其中,美國谷歌公司的瀕危語言項目(ELP),利用現代技術通過記錄、保存和教育,為關注語言瀕危的組織和個人服務[15]。澳大利亞研發了智能學習機器人,幫助土著兒童學習他們的語言,既能記錄孩子們的語言技能,又可以協助老師追蹤學習進度;新西蘭開發了毛利語學習程序,不僅能回復信息,還能過濾語法錯誤[16]。這些研究為依靠科技力量搶救瀕危滿語開拓了思路,拓寬了視野,展示出了新的研究動態和方向。

二、運用人工智能搶救瀕危滿語

目前,依賴大規模語料庫的語音識別和合成是比較成熟的技術,但對低資源語言而言,由于語料不夠充足,語音識別性能會明顯下降,語音合成效果也將受到影響。滿語是一種瀕危的語言,面臨著語言資源不足、語料獲取困難、發音規則缺乏等困難,是當前研究的難點,本文依托滿語田野調查語料,參考相關研究成果,對滿語的語音識別與合成進行了探索。在研究中,首先,對滿語的形態結構和音節進行了分析,建立標注規則;然后,依托田野調查語料建立語料庫,對滿語的語音識別、滿語轉國際音標進行了研究,設計田野調查模型;最后;運用隱馬爾可夫模型合成了滿語短語語音,期望能夠為瀕危滿語的搶救與保護提供一些參考。一是形態結構分析。滿語是粘著型語言,有6個元音、25個輔音和10個專門拼寫漢語借詞的字母,自左向右行款直寫,單詞中所處位置不同,字母的書寫形式也不同[17]。本文運用穆麟德夫轉寫方案,對滿文文本進行矯正、統計和研究。滿語具有豐富的形態變化,詞干的各類接綴形態表示圍繞詞干的不同語法意義。根據滿語形態變化,對滿語的體詞類(名詞、形容詞、數量詞、代詞),動詞類(普通動詞、助動詞)等附加成分進行構型分析,找到詞干和詞綴的漢語意義。滿語以音節為發音單位,詞匯由一個或幾個音節構成(V代表元音,C代表輔音),書面語主要有元音(V)、元音+輔音(VC)、輔音+元音(CV)、輔音+元音+輔音(CVC)、輔音+元音+元音(CVV)等音節類型[18]。口語的音節與此類似。通過形態結構和音節分析,掌握滿語語音特點,并結合滿語的元音和諧規律,將相同特性的詞綴統一起來,便于運用國際音標標注。在人名、地名的音譯上,運用《清漢對音字式》《滿語姓氏詞典》《滿文地名詞典》《六部成語詞典》等工具書,創建滿漢人名、地名、官職名稱等詞典以及標注規則。二是建立語料庫。語料既是開展滿語智能化研究的基礎,也是語音識別和語音合成的主要材料。我們根據滿語特點,設計了滿語文本語料,選擇黑龍江富裕縣三家子屯滿語母語者為發音合作人,得到原生態的滿語錄音語料。同時,還從黑龍江孫吳縣四季屯何世環、富裕縣三家子陶青蘭和孟憲孝等田野調查語料中,選擇了詞匯、短語、句子等發音詞匯,涵蓋了日常交往、生產生活、時令節氣、故事傳說等內容,作為研究的語音語料,對這些語料用音頻處理軟件進行切分,同時檢查所獲語料的質量,做好語料清洗工作,不合格的及時刪除和替換。語料保存的采樣率為16kHz,采樣精度為16位,命名方式為發音人+語料順序,保存為單聲道格式,以此為基礎數據,建立滿語語料庫。在語料的標注方面,其一,完成書面語語料的拉丁轉寫,運用praat軟件進行國際音標和漢語標注,對無書面語對應的方言詞匯,運用漢語和國際音標進行單獨標注;其二,將轉寫和國際音標標注后的語料譯成所對應的發音音素,通過音素、音節和韻律等層次的標注,確定詞匯、短語、句子之間關系和邊界;其三,對標注后的語料進行人工校對,做好檢查和糾正;其四,將標注后語料分為預備語料、訓練語料及測試語料等三個部分,根據用途和語音編號分組,保存到語料庫相應的目錄下。三是語音識別。語音識別可以實現語音到文本的轉換,其中,識別算法是核心和基礎,目前主要的算法模型有模板匹配、隱馬爾可夫和神經網絡等,隱馬爾可夫模型(HMM)由于功能強大,穩定性好得到了廣泛的應用。運用隱馬爾可夫模型時要首先提取參數,對模型進行訓練和數據轉換,而后將提取的參數訓練為算法模型,以此對實驗數據進行識別。語音識別主要包括語音的訓練和識別兩個階段,本文根據滿語特點,運用隱馬爾可夫模型(HMM),通過編寫腳本程序實現訓練數據的孤立詞識別,主要由五個步驟組成:第一步是語料處理,對滿語語料庫單音節語料進行特征分析、預處理,對訓練語料進行同音分類,檢測語音端點并打好時間標注,得到識別材料;第二步是提取語音特征,為了提升識別效果,可分別選取不同的特征參數、HMM狀態數、MFCC系數等進行實驗,對參數進行人工調節,獲得最佳的參數組合,對訓練數據提取MFCC特征參數;第三步是模型訓練,運用MFCC參數建模,修改完善HTK軟件包,用于提取語音特征,訓練聲學模型,建立識別樣本模型庫;第四步是模式匹配,對待識別語音進行預處理并提取特征參數,用訓練好的模型匹配未作標記的待識別語音,得到識別結果;第五步是人工校驗,對識別結果進行人工校驗,提高識別的準確性。四是國際音標轉錄。滿文實質上是一種拼音文字,語音和文字互相對應,有著一定的規律可循,可以依據相關規則實現從文本到國際音標的轉換。目前,學界已有藏語[19]和維吾爾語[20]的研究成果,但滿語的相關研究尚未發現。經過設計和處理,可以將滿語和國際音標對應起來,每個滿語字母對應相應的國際音標字符,本文以此設計了簡單的滿語—國際音標轉錄模型,實現滿語到國際音標的轉錄功能,有三個模塊組成:其一,音節處理模塊。主要解決詞內音節與相鄰音節的關系,運用模塊對滿語詞匯的音節拆分,分為五種常用音節類型,再將各音節拆分為元音和輔音,不常用的音節比照五種常用音節進行。其二,音標轉換模塊。通過滿語轉國際音標算法,將滿語和國際音標的字符進行匹配,循環讀取字符直至結束,通過轉換算法,將滿語詞匯轉換為國際音標,實現滿語文本到國際音標的詞匯級轉換。其三,校對修正模塊。設計自動校對模塊,實現轉換結果自動校對,同時運用人工進行再次校對和完善,刪除錯誤的內容,增加國際音標附加符號等。本文運用語料庫的實驗數據,通過滿語詞匯進行轉錄實驗,準確率達到了70%以上,提高了工作效率。五是田野調查模型。田野調查的基本工作是聽音記音,聽辨識別調查語料,用國際音標做好記錄,使聲音文件成為書面符號,以供學術研究使用。由于田野調查語料較多,記音任務繁重,容易產生人為謬誤,影響調查和研究效果。當前,語音識別在漢語普通話等方面得到了廣泛的應用,田野調查輔助系統相關研究也有了一定的進展,例如,劉航宇對基于HTK的計算機輔助田野調查系統進行了研究,在語音數據量充足的情況下,識別率可以達到80%左右[21]。充分借鑒相關研究成果,探索依托HTK技術開發滿語計算機輔助田野調查系統,是具有一定研究可行性的。本文在滿語語音識別和國際音標轉錄等研究基礎上,設計了滿語計算機輔助田野調查模型,以此實現田野調查語料詞匯轉換。模型由兩個模塊組成:其一,語音識別模塊。將單音節看作孤立詞,搭建識別模型,進行標注和識別。運用工具提取整理后實驗語料的參數特征,進行模型訓練,識別實驗語料。其二,自動標注模塊。改進相關算法,運用標注數據訓練識別模型,完成待處理語料的標注,實現由語音到文本的轉換。標注完成后,再進行人工校對和翻譯,并附漢語譯文和滿文轉寫對照。實驗表明,模型能夠有效縮短記音和轉寫時間,提高了工作效率,但人工校對和漢語譯文所用時間較多,需要在下一步的研究中進行改進和完善。六是語音合成。語音合成能夠將文本轉換為語音,主要有基于波形拼接、統計參數、深度神經網絡等形式,其中基于拼接的語音合成,由于效果不夠穩定、語音庫構建周期長等原因,應用不夠廣泛。人們在研究中發現,基于隱馬爾可夫模型(HMM)的語音合成技術性能成熟穩定,在各個領域得到了廣泛的運用。趙建東等人結合蒙古語特性,設計了上下文屬性集以及相應的用于模型聚類的屬性問題集,實現了基于HMM的蒙古語語音合成[22]。當前,語音合成的研究和應用主要集中在漢語、英語等語言上,成果較多,技術成熟,應用廣泛,而一些非通用語言的研究成果則相對較少,其中,趙立鉉、楊鑒提出了基于BERT預訓練語言模型的印尼語語音合成系統,也可用于其他低資源語言[23]。本文參考相關研究成果,以語料庫原生態滿語語料為訓練數據,完成了文本標注,運用基于HMM的語音合成技術,合成了簡單的滿語語音。實現步驟為:其一,數據的預處理,分析處理語音數據,提取相關參數,采用HMM建模;其二,訓練模型,對隱馬爾可夫模型進行初始化,完成元音和輔音、上下文模型訓練等工作,得到訓練模型和決策樹;其三,分析和轉換文本,對相關的文本數據進行分析,完成文本的序列轉換等工作;其四,語音的合成,通過訓練模型處理實驗數據,運用合成器合成滿語語音,主要是短語語音。合成的語音與真實的滿語發音相比,自然度和表現力不足,韻律節奏不夠自然,音質不夠高,但尚能辨別語義,說明該研究具有一定的可行性,可以此為基礎開展后續研究。

三、啟示和建議

通過本文的研究,我們深深地感到,瀕危滿語的搶救和保護是一項系統工程,不僅需要相關的專家學者、科研院所的積極參與,更需要加強人才培養,拓寬研究視野,改進研究方法,大力借助現代信息科技發展成果,為瀕危滿語煥發出新生命提供智力支持。一是培養專業人才。瀕危語言的搶救和保護,是語言學、民族學、計算機科學等學科的綜合,對研究者的知識結構、研究方法和手段提出了新的更高的要求。在具體研究中,相關數據的收集與處理、語料的翻譯與標注、軟件的設計與研發等都是專業性很強的工作,既需要懂滿語的少數民族語言專業人才的參與,又需要熟悉計算機科學技術,特別是精通計算軟件的人才通力合作,但現實情況是,有的滿語文研究者不懂計算機技術,而計算機專業的人才不懂滿語文,很多時間和工作都用在了溝通和交流之中,既懂滿語言文化又懂計算機技術的人才非常缺乏,在一定程度上影響了研究的深入開展。為此,要加大相關的人才培養力度,大力培養既懂滿語文又懂計算機技術的復合型人才,重視現代數字和科學技術與滿語文基礎工作的結合,面向未來培養學以致用的綜合型人才[24]。可依托有關高校和科研機構,加強計算機科學、信息科學、語言學、滿族語言歷史文化等專業教育,培養出一批有技術、能操作、懂滿語的復合型研究人才,深化人工智能的研究和應用,結合實際研發相關軟件,提高瀕危滿語調查研究和搶救性保護的質量和效率。二是規范研究標準。當前,關于滿語的調查記錄和存檔標準不一,規范不夠明確詳細,可操作性不夠強,一些語言調查和研究的成果不能及時交流和共享。應針對滿語研究的現狀,抓緊制定相關工作規范,統一技術標準,對調查記錄內容及方法,語料處理及語檔、數據庫建設,記錄研究的成果形式等進行技術規范。可以參考借鑒李錦芳關于中國瀕危語言認定及保護研究的工作規范[25],按照國家語保工程規范和語料庫建設與加工要求,制定滿語語料庫建設標準,明確工作目標、原則方法、技術標準、存儲格式等內容,按照規范做好瀕危滿語的調查和研究等工作。加強語料處理的數字化力度,制定語料采集、整理、分類以及轉寫、翻譯、標注等技術標準和工作流程,為采集和處理語料提供參考和指導。制定語料庫建設規范,按照標準格式進行錄音錄像,收集元數據,建立滿語語音語料數據庫,經技術處理后的語料要及時入庫,分門別類建檔存儲,以便永久保存。三是加快搶救速度。運用計算機和人工智能技術做好語言調查和研究工作,加強調查和搶救力度,按照國家語保標準繪制滿語電子地圖,提供人口數量、語言分布、使用現狀、瀕危程度等信息,依托語音識別技術研發和完善田野調查軟件,通過人工轉錄模型轉錄原生態滿語語料,實現國際音標的自動記音、轉寫和標注,減少人工工作量,提高調查效率。加快聲學實驗和智能化研究步伐,運用相關軟件提取聲學參數,審辨確定音值,分析研究聲學規律,形成滿語語音聲學數據庫,為開展智能化研究提供理論和數據支持。參考借鑒國內外其他瀕危語言研究成果,依托滿語語音語料數據庫,開發滿語在線教學以及學習平臺,增強學習的互動性和趣味性,提高學習效率。加強語言學與人工智能的協作,對滿語語料進行精細標注,深入全面地研究語句的焦點、韻律和語篇等的語言學問題[26]。運用語音合成技術,以原生態滿語語音為訓練數據,基于隱馬爾可夫模型合成滿語語音,調整發音速度、韻律等信息,使合成語音更加真實自然,更具“人性化”,并及時充實到滿語口語語料庫之中,為瀕危滿語的科研教學、滿族口傳文化的研究開發等提供語料資源。四是建立語言博物館。瀕危語言消亡后很難再進行調查補充,相關的原始語料非常珍貴,不可復得。當前,一些早期的滿語調查語料保存在研究者個人手中,僅供學術研究使用,開發利用的深度不夠,沒有成為社會共享資源,造成資源浪費。因此,可以參照夏威夷大學語言建檔與保存計劃等國內外瀕危語言建檔保護實踐[27]。建立瀕危滿語網上博物館,對田野調查語料和學術成果進行整合,在完成語音存檔、記錄和保留滿語的“鮮活形態”的基礎上,還要做好語料的再加工工作,研發轉錄軟件,進行國際音標記音、轉寫,形成瀕危滿語的數字材料,并對所蘊含的歷史文化信息進行深入研究,客觀地再現滿語的真實面貌。同時,滿語的學習者可以根據規定的格式和要求,通過網絡平臺上傳錄音錄像資料,充實語料館藏;相關專家學者可依托網上博物館開展滿語田野調查,獲取語料,同時對上傳的語料進行轉寫、翻譯和標注,形成能共享可用的語料數據,實現滿語與滿族口傳文化的永久留存和典藏。我認為上述舉措都應抓緊實施,刻不容緩。

作者:王娣 單位:黑龍江省社會科學院 歷史研究所

優秀范文
相關期刊
相關文章
友情鏈接
主站蜘蛛池模板: 色婷婷久久综合中文网站 | 四虎永久免费在线观看 | 欧美影视一区二区三区 | 深爱激情小说 | 国产精品亚洲综合一区在线观看 | 久久最近最新中文字幕大全 | 五月婷婷久 | 成年啪啪网站免费播放看 | 情之债 电视剧完整版25集 | 国产片a国产片免费看视频 国产拍在线 | 免费毛片视频网站 | 国产免费播放一区二区 | 久久成人国产精品二三区 | 青青草国产97免久久费观看 | 欧美一区2区 | 国产美女在线观看 | 午夜精品久久久 | 激情五月婷婷网 | 桃花视频在线观看高清版mv | 色在线视频网站 | 青青视频国产在线播放 | 青草青草视频2免费观看 | 国产激情一区二区三区 | 成人污视频在线观看 | 国产免费一区二区三区在线观看 | 欧美精品一二区 | 免费一区区三区四区 | 男人的天堂久久香蕉国产 | 77777影视视频在线观看 | 国产一区二区三区久久 | 色涩五月 | 久久久精品中文字幕 | 成人青草亚洲国产 | 97视频免费在线 | 国产视频第二页 | 色视频一区二区三区 | 麻豆成人免费视频 | 欧美色网络 | 啊嗯啊羞羞免费视频 | 一区二区三区四区精品视频 | 五月婷婷激情小说 |