網友評分: 5.8分
AntConc 是一款專業強大的語料庫檢索軟件。軟件擁有索引,詞表生成,主題詞計算,搭配和詞族提取等多種功能,能夠非常有效的進行文本分析。適用于語料庫語言學、翻譯學、外語教學等領域的研究者。
使用多個工具的批處理文本文檔
這些可以像快速的單詞計數器一樣簡單到詳細的語言分析工具。ANTCONC在兩者之間取得良好的平衡,并允許用戶同時加載和處理多個文本文檔。該程序與大多數標準文本文檔格式兼容,包括TXTS、HTMLs和XMLS。
這個工具的一個有趣的特點是加載整個文件夾,除了單個文件的能力。這使得人們可以快速地完成檔案和文檔目錄的工作。一旦加載了兩個或多個文件,用戶就可以處理各種各樣的工具。
基于詞頻的簡單圖形顯示
總之,可以使用七個實用程序來分析源文檔,包括協調模塊、文件查看器和集群工具。與他們一起,可以搜索常用詞和短語的文檔。使用條形碼類型的繪圖,甚至可以查看公共項目的位置,在主機文本文件內。
一個顯著且更具擴散性的工具是“集群/N-gram”模塊。有了它,可以搜索語料庫的N長度集群。這是一種有用的方法,用于檢測在所有源文件中使用的相似但不相同的單詞。一旦滿足他們的分析,用戶可以將所有結果導出到文本、Excel和HTML格式。
模糊檢索:
?。?)一個單詞的多種變化形式的檢索;
?。?)多個單詞的逐一檢索;
(3)單詞的前綴或后綴檢索;
(4)某種長度或某個長度范圍(長度就是字母數量)的單詞的檢索;
?。?)某種單詞組合模式或句型的檢索。
“豎線”,也就是“|”,在正則表達式(模糊檢索)中的意思是“或者”,因此某個詞或某兩三個詞的屈折形式的檢索,可以用下面的表達法(首先勾上“regex”這個選項喲):
但是,如果你要檢索的單詞也往往成為其他單詞的一部分的話,上面的做法就會出現嚴重偏差,例如你想要檢索off,這個詞就容易出現在其他單詞的開始或中間位置:
因此,必須指定在“off”的前后必須有一個空格,而空格在正則表達式中就是“\s”,也就是“反斜線與字母s”,這里的字母s就是space(“空格”)這個英語單詞。
英語單詞的主要形式是多個字母所組成,雖然也有一些單詞是字母與數字構成,或者是“純數字”構成。所以,絕大多數情況下,純粹字母構成的單詞是我們關注的對象。
用正則表達式來表達一個字母,就是“[a-zA-Z]”,這里的方括號就是表示方括號里面的所有內容只是一個字符而已,a-z就是所有的小寫字母中的某一個,A-Z就是所有的大寫字母中的某一個,而[a-zA-Z]就表示“一個大寫或小寫字母”。那么,英語單詞的開始和結束有什么特征呢?最主要的特征就是前后都有一個空格,而空格的正則表達式就是“\s”,也就是反斜線后面有一個字母s。所以,要檢索“4個字母組成的單詞”就是下面的表達,即“\s[a-zA-Z]{4}\s”:
要檢索“4個或5個或6個字母組成的單詞”就是下面的表達,即“\s[a-zA-Z]{4,6}\s”:
要檢索“6個或更多字母組成的單詞”就是下面的表達:
要檢索ful結尾的單詞,就是(表達式中的“+”表示至少1個的意思):
要檢索ful或less結尾的單詞,就是:
要檢索“un”為前綴的單詞,就是:
要檢索“the * of”這種結構,這里的*表示某個單詞,就用“\sthe\s[a-zA-Z]+\sof\s”:
要檢索“the * * * of”這種結構,這里的3個*表示3個單詞,就用“\sthe\s([a-zA-Z]+\s){3}of\s”,這里的圓括號就表示把圓括號里面的內容重復多次,重復的次數在后面的{}里面用數字進行指定:
要檢索“ed結尾的動詞與ly結尾的副詞的搭配”,就用“\s[a-zA-Z]+ed\s[a-zA-Z]+ly\s”: