WordStat 2022 版有哪些新功能?
我們很高興推出 WordStat 2022。從 WordStat 9 到新版本 WordStat 2022(以及新版本號方案)意味著更快地引入每年發布一次的新功能,而不是每 2 或 3 年發布一次,并且很可能甚至每年不止一次。
新的 WordStat 2022 實現了幾個重要的功能,雖然沒有以前的主要版本那么多,但我們認為它們具有重要意義,特別是對于開發分類模型、分類法或詞典。
1. 高度優化的主題建模與因素分析
在 WordStat 2022 中,我們實施了一個新的多線程因素分析例程,比以前的版本快 65 倍。這意味著現在可以在不到一分鐘的時間內解決需要一個小時計算的大型問題。我們還能夠將因素分析容量增加到 10,000 個單詞(之前版本為 3,000 個)。
我們自己的研究工作表明,與依賴 LDA 和神經網絡技術的主題建模技術相比,使用因子分析的主題建模產生的主題解決方案更加連貫和多樣化(Peladeau & Davoodi,2018 年;Peladeau,2022 年)。它還具有穩定性的額外好處,每次都會產生相同的結果。然而,它的主要不便一直是它的速度和容量。這使我們在 WordStat 8 中實現了一個使用非負矩陣分解(或 NMF)的特殊主題提取例程。這種技術可以更快地產生結果,這些結果與使用因子分析獲得的結果非常相似。然而,它的概率實現會導致每次運行的結果略有不同,這讓一些研究人員感到有些不安。重要的是要注意,計算機科學中幾乎所有其他流行的主題建模技術產生的主題解決方案甚至比我們自定義的 NMF 實現更不穩定。那些尋求zui佳和穩定的主題解決方案的人可能會喜歡新的因素分析主題建模例程的速度和容量大大提高。
2.改進了頻率頁面上的建議
WordStat 早期版本中的“建議”面板顯示同義詞庫可用的語言的同義詞、反義詞和相關詞。它還提供了以相同首字母開頭的單詞,使人們能夠識別一些拼寫錯誤以及相關的單詞。一個新的關聯詞部分現在從文本語料庫中檢索與頻率表中所選詞在語義、句法和統計上相關的其他詞。這個新功能應該適用于任何語言。默認情況下,條目將按相關性降序排列。同義詞、反義詞和相關詞也會按照相關性降序排列,便于識別合適的建議。人們仍然能夠按字母順序或頻率降序對這些條目進行排序。此外,一個新的頻率過濾選項可以讓人們過濾掉低頻建議,讓人們專注于更頻繁的建議。
由于這種提取相關詞和排序建議的新方法與語言無關,因此對于分析沒有詞庫的語言的人來說尤其有用。然而,我們發現,即使有這樣的語言資源,基于單詞上下文使用的額外建議,以及根據相關性對現有同義詞和相關單詞進行排序,也應該極大地促進適當項目的識別。
3. 短語提取例程的新建議選項卡。
重疊面板已替換為建議面板,除了重疊短語外,還顯示與短語頻率表中所選行在語義、句法或統計上相關的短語。此功能也與語言無關。
4. 命名實體識別的改進。
命名實體識別頁面中添加了一個新的相關面板。選擇單個命名實體將帶來相關的命名實體,以及屬于同一類(人、地點、組織等)的命名實體。選擇一個特定類別的多個示例(例如,多個城市)也將檢索屬于該類別的更多項目。上下文菜單還允許將任何項目移動到分類詞典或排除列表中。還可以對選定的建議執行上下文中的關鍵字搜索。
5. 上下文關鍵詞表中上下文詞的突出顯示。
在評估分類詞典中的詞或候選詞時,通常需要查看在目標詞或短語出現的上下文中是否存在其他關鍵字。一種新的突出顯示功能允許人們指定要在單詞的周圍上下文中查找的單詞和短語列表。當從主題建?;驑錉顖D中調用 KWIC 列表時,或者在評估包含多個條目的內容類別中的項目時,會自動填充此列表。
6.根據頻率或距原點的距離過濾對應圖中的項目。
超過幾百個項目的對應圖可能會在圖的中心(原點)創建一大堆重疊的項目。添加了一個新的滑塊控件以隱藏不太頻繁或接近此原點的項目。除非有人想確定一個自變量的所有類的共同點,否則zui
有趣的項目是那些遠離原點的項目,因為它們是不同類的特征。過濾掉這些項目可以讓人們更容易地識別不同的項目。
7.改進關鍵字檢索
關鍵字搜索的結果現在按相關性降序排列,同時考慮匹配項的頻率和種類與檢索到的文本段的長度的關系。新的頻率列也可用于僅按頻率排序。
8. 通過連接計算字符串變量
一種新的數據轉換命令允許人們通過連接幾個現有變量(數字、字符串、日期等)的值以及鍵入的文本來計算字符串變量。這樣的過程也可用于用常量字符串值初始化字符串變量。
9.持久對比圖設置
這些比較圖表的圖表類型和統計數據以及調色板現在鏈接到變量名稱并存儲在項目設置中。這些選項應該跨頁面(頻率、短語、主題建模、樹狀圖等)和會話之間保持不變,從而減少不斷重新調整這些選項的需要。
軟件鏈接:
//www.uone-tech.cn/wordstat.html