日本關(guān)西學(xué)院大學(xué) 于 康
【編者按】學(xué)會(huì)制作語料庫,可以隨時(shí)根據(jù)各種需要進(jìn)行檢索,瞬時(shí)獲取大量的例句。這不僅有利于日語學(xué)習(xí),也有助于教師備課和從事日語研究。日本關(guān)西學(xué)院大學(xué)博士生導(dǎo)師于康教授自制的“YUKANG語料庫”(1億3千萬字)早已為大家所熟知。從本期起,我們將連載于康教授親自執(zhí)筆的新專題“自制語料庫”,循序漸進(jìn)地講解如何自制語料庫和使用語料庫,以滿足大家的迫切要求。
語料庫指的是儲(chǔ)存各種類型文章的大型文字倉庫。這個(gè)倉庫可以根據(jù)需要對(duì)倉庫里儲(chǔ)存的信息進(jìn)行各種各樣的檢索。比如,只要在檢索欄內(nèi)輸入「走る」,并指定與「を」搭配,電腦就會(huì)自動(dòng)從語料庫里把所有有關(guān)的例句全部調(diào)出來。
過去收集例句的時(shí)候,通常都是通過目視檢索的方法,從小說、報(bào)刊等文章中將例句抄錄下來。比如,收集2010年一年的『毎日新聞』中「走る」的全部例句,就需要一條一條地從報(bào)紙上摘錄下來,這不僅需要花費(fèi)大量的時(shí)間,而且還往往容易出現(xiàn)遺漏。如果有了語料庫,就可以在數(shù)秒鐘或數(shù)分鐘之內(nèi)完成檢索和收集例句的工作,而且還不容易出現(xiàn)遺漏和錯(cuò)誤。
盡管制作語料庫一直是日語專業(yè)的大學(xué)生、研究生和教師的一個(gè)迫切的愿望,但是,由于受經(jīng)費(fèi)和技術(shù)要求的限制,制作語料庫一直只是少數(shù)一部分人的特權(quán)?,F(xiàn)在日本很多研究單位和學(xué)者免費(fèi)提供制作語料庫的有關(guān)軟件,這些軟件大部分都可以從有關(guān)網(wǎng)站上下載下來,只要將這些軟件按照需要組合起來使用,并掌握一定的制作技術(shù),就可以自己動(dòng)手制作語料庫了。
學(xué)會(huì)制作和使用語料庫,不僅有助于提高運(yùn)用日語的能力,還有助于尋找畢業(yè)論文或研究論文的研究課題。只要按照每期介紹的制作步驟做下去,就可以逐步掌握語料庫的制作和使用方法。
制作語料庫對(duì)電腦的配置要求并不很高,只要滿足①裝有正版 Windows?XP 或 Windows?7、②CPU為Atom,或Celeron,或Core、③內(nèi)存為1GB以上這些基本條件即可。不過,中文版的Windows?XP或Windows?7偶爾會(huì)出現(xiàn)亂碼和少數(shù)不兼容的情況,有條件的最好安裝日文版正版的Windows?XP 或 Windows?7。如果電腦不是正版的Windows?XP或Windows?7,常常會(huì)在一些重要環(huán)節(jié)上出問題,影響正常操作。
制作語料庫還需要一個(gè)基礎(chǔ)軟件Java,一般市場(chǎng)銷售的電腦都會(huì)配有這個(gè)軟件。這可以點(diǎn)擊控制面板,進(jìn)行確認(rèn)。如果找不到Java,可以從網(wǎng)上直接下載,下載網(wǎng)站為:http://www.java.com/ja/download/。
制作語料庫有3個(gè)基本軟件,它們分別是:
①「秀丸(ひでまる)」、②「えだまめ」、③「ひまわり」。
「秀丸」是用來保存語料的軟件,這個(gè)軟件將各種渠道收集來的語料轉(zhuǎn)換為文本文件(.txt),是處理語料的第一道必不可少的程序。比如,要將「ボランティアのように現(xiàn)地に直接足を運(yùn)ばなくても、普段の生活の中でできる支援策がある。被災(zāi)した地域の産品を買うことだ?!惯@個(gè)語料放進(jìn)語料庫中去,首先必須將這段語料用文本文件形式保存才行。這是因?yàn)橹谱髡Z料庫的軟件只識(shí)別文本文件,而拒絕接受Word或其他形式保存的文件?!感阃琛篃o需任何特別的設(shè)置就可以自動(dòng)保存為文本文件。
用「秀丸」保存的語料是不能直接放進(jìn)語料庫中去的,還需要一道轉(zhuǎn)換手續(xù),即將文本文件的形式轉(zhuǎn)換為語料庫專用文件的形式。這道手續(xù)是語料進(jìn)入語料庫的一個(gè)通行證,如果忽略了這道手續(xù),語料便會(huì)被拒絕在語料庫門外。獲得這個(gè)通行證的辦法是使用「えだまめ」來轉(zhuǎn)換文件的形式。
上述這兩道程序結(jié)束后,就可以制作語料庫了。制作語料庫的軟件叫做「ひまわり」,用這個(gè)軟件對(duì)「えだまめ」轉(zhuǎn)換過來的文件進(jìn)行處理后,語料庫就算做成了。
①下載并安裝「秀丸」
在日文版的Yahoo JAPAN或Google的檢索框中輸入「秀丸」,并進(jìn)行檢索,點(diǎn)擊檢索結(jié)果中的「秀まるおのホームページ(サイトー企畫)-秀丸エディタ」,進(jìn)入「秀まるおのホームページ」,點(diǎn)擊「hm804_signed.exe(日本語版)」,下載「秀丸」。下載成功后,點(diǎn)擊保存在文檔中的「hm804_signed.exe」,安裝「秀丸」。安裝成功后,會(huì)在桌面上或“開始”中出現(xiàn)「秀丸」的標(biāo)記,點(diǎn)擊「秀丸」標(biāo)記,出現(xiàn)「秀丸」的界面,安裝成功。
②下載并安裝「えだまめ」
在日文版的Yahoo JAPAN或Google的檢索框中輸入「edamameコーパス」,并進(jìn)行檢索,點(diǎn)擊檢索結(jié)果中的「『ひまわり』支援ツール/えだまめ/使い方/2-言語データベースと...」,進(jìn)入網(wǎng)頁,點(diǎn)擊第二行中的「えだまめ」,出現(xiàn)「『ひまわり』支援ツール/えだまめ」的界面,下載「edamame_v21.zip」。下載成功后,先點(diǎn)擊保存在文檔中的「edamame_v21」,進(jìn)行解壓縮,然后再點(diǎn)擊解壓縮后「edamame_v21」中的「edamame_v21.hta」,出現(xiàn)「えだまめ」的界面,安裝成功。
③下載并安裝「ひまわり」
在日文版的Yahoo JAPAN或Google的檢索框中輸入「ひまわり コーパス」,并進(jìn)行檢索,點(diǎn)擊檢索結(jié)果中的「全文検索システム『ひまわり』-言語データベースとソフトウェア」,進(jìn)入網(wǎng)頁,點(diǎn)擊「ver.1.3 β 05(2011-02-16)...開発版」,下載「ひまわり」。下載成功后,先點(diǎn)擊保存在文檔中的「himawari_1_3b05」,進(jìn)行解壓縮,然后再點(diǎn)擊解壓縮后「himawari_1_3b05」中的有向日葵圖標(biāo)的「himawari」,出現(xiàn)「全文検索システムひまわり-[『太陽コーパス』(サンプル)]」的界面,安裝成功。
制作語料庫,需要下載和安裝3個(gè)軟件:①「秀丸(ひでまる)」、②「えだまめ」、③「ひまわり」。如果安裝成功后打不開「えだまめ」或「ひまわり」,可能是因?yàn)殡娔X沒有安裝Java,或Java沒有下載成功,此時(shí)需要重新安裝Java。