溫馨提示:需求數量不同,價格不同。請聯系我們,確認當前新的報價!
WordStat是一個靈活且易于使用的文本分析軟件 - 無論您是需要文本挖掘工具來快速提取主題和趨勢,還是使用新的定量內容分析工具進行仔細和準確的測量。任何需要快速從大量文檔中提取和分析信息的人都可以使用WordStat。此內容分析和文本挖掘軟件可用于許多應用程序,例如開放式響應分析,商業智能,新聞報道的內容分析等。WordStat與SimStat統計數據分析工具-QDA Miner定性數據分析軟件與Stata無縫集成-StataCorp的綜合統計軟件為您提供了其無比的靈活性,可以分析文本并將其內容與結構化信息(包括數字和分類數據)相關聯。
使用文本挖掘瀏覽文檔內容
使用WordStat分析大量非結構化信息。該軟件每分鐘可處理2500萬個單詞,使用聚類,多維縮放,鄰近圖等功能快速提取主題并自動識別模式。
使用瀏覽器模式快速提取含義
使用資源管理器模式快速輕松的從大量文本數據中提取含義,特別是對那些文本挖掘經驗很少的人,只需單擊一下,就可以提取文檔中常用的單詞,短語和突出的主題。
來自許多來源的進口
導入Word,Excel,HTML,XML,SPSS,Stata,NVivo,PDF和圖像。連接并直接從社交媒體,電子郵件,網絡調查平臺和參考管理工具導入。
使用主題建模提取顯著的主題
使用基于單詞,短語和相關單詞(包括拼寫錯誤)的新自動主題提取功能,快速瀏覽非常大型的文本集中重要的主題。
探索連接
探索單詞概念之間的關系,并檢索與特定連接關聯的文本段。
與結構化數據相關的文本
探索非結構化文本與結構化數據(例如日期,數字或分類數據)之間的關系,以識別子組之間的時間趨勢或差異,或使用統計和圖形工具(對應分析,熱圖,氣泡圖等)。
使用字典分類您的文本數據
使用現有詞典實現全文分析自動化,或使用單詞,短語,接近規則等創建您自已的分類模型。
為詞典建筑獲得特有的幫助
使用提取常用短語和技術術語并在文本集合中快速識別拼寫錯誤,同義詞,反義詞和相關單詞的工具,更快的構建詞典。
使用機器學習分類您的文本數據
使用Nave Bayes和K-Nearest Neighbours來開發和優化自動文檔分類模型。
一次單擊即可返回源文件
通過從功能,圖表或圖形返回到文本來驗證或深入分析。您可以使用“關鍵詞檢索”或“上下文中的關鍵字”功能來檢索句子,段落或整個文檔。這在建立分類法或消除詞義歧義時特別有用。您還可以將QDA Miner代碼附加到檢索到的段。
執行定性編碼
將WordStat與新的定性編碼工具(QDA Miner)結合使用,以便在需要時更準確的探索數據或特定文檔或提取的文本段進行更深入的分析。
將非結構化文本轉換為交互式地圖(GIS映射)
將非結構化文本數據與地理信息相關聯,并創建數據點,專題圖和熱點圖的交互式圖表,以及用于將位置名稱,郵政編碼和IP地址轉換為維度和經度的地理編碼Web服務。
自動提取命名實體
自動提取命名的實體,可以使用簡單的拖放操作將其添加到分類字典中。
出口結果
輕松將文本分析結果導出為常見的行業文件格式,例如Excel,SPSS,ASCII,HTML,XML,MS,Word和圖形(例如PNG,BMP和JPEG)。
使用PYTHON腳本轉換文本
使用Python腳本及其全部開放源代碼庫預處理或轉換文本文檔,以便在WordStat中進行分析。
特征:
借助WordStat,數據分析師可以從大量文檔中快速提取有價值的文本分析結果,這些結果包括客戶反饋,電子郵件,開放式回復,采訪記錄,時間報告,法律文檔,博客,網站等。這是WordStat的內容分析和文本挖掘功能的列表:
從許多來源導入
WordStat允許您從許多來源直接導入多語言內容:
導入文檔:Word,PDF,HTML,PowerPoint,RTF,TXT,XPS,ePUB,ODT,WordPerfect。
導入數據文件:Excel,CSV,TSV,Access。
從統計軟件導入:Stata,SPSS
從社交媒體導入:Facebook,Twitter,Raddit,YouTube,RSS
從電子郵件導入:Outlook,Gmail,MBox
從網絡調查中導入:Qualtrics,SurveyMonkey,SurveyGizmo,QuestionPro,Voxco,Triple-S
從參考管理工具中導入:Endnote,Mendeley,Zotero,RIS
導入圖形:BMP,WMF,JPG,GIF,PNG。自動提取與這些圖像相關的任何信息,例如地理位置,標題,描述,作者,評論等,并將其轉換為變量
從XML數據庫導入
ODBC數據庫連接可用
從定性軟件導入項目:NVivo,Atlas.ti,Qdpx文件
導入和分析多語言文檔,包括從右到左的語言
監視特定的文件夾,并自動導入存儲在此文件夾中的文檔和圖像,或監視對原始源文件或聯機服務的更改。
整理數據
多種功能使您可以通過使分析過程簡單明了的方式輕松組織數據:
快速分組,標記,排序,添加,刪除文檔或查找重復項,即:日期,作者或人口統計數據,例如年齡,性別或位置
輕松的對變量進行重新排序,添加,刪除,編輯和重新編碼
根據變量值過濾大小寫
使用資源管理器模式快速提取含義
使用資源管理器模式可以快速,輕松的從大量文本數據中提取含義,這是專門為那些文本挖掘經驗很少的人設計的。
使用主題建模工具,找出常用的單詞,短語并提取文檔中重要的主題。在任何時候,您都可以切換到專家模式,從而可以使用WordStat的功能。
使用文本挖掘瀏覽文檔內容
在幾秒鐘內,探索大量非結構化數據的內容并提取有見地的信息:
提取常用的單詞,短語,表達方式
在單詞或短語上使用聚類或2D和3D多維縮放快速提取主題
使用鄰近圖輕松識別與目標關鍵字同時出現的關鍵字
使用鏈接分析功能探索單詞或概念之間的關系
通過應用關鍵字同時出現條件(在一個案例中,一個句子,一個段落,一個n個單詞的窗口,一個用戶定義的段)以及聚類方法(一階和二階接近度,選擇)來微調分析相似性指標
使用分層聚類,多維縮放,鏈接分析和鄰近圖來探索概念或文檔之間的相似性。
使用主題建模來提取突出的主題
通過將自然語言處理和統計分析(NNMF或因子分析)結合使用,不僅對單詞而且對短語也能使用理想的自動主題提取功能,從大文本集中快速概覽重要額主題和相關單詞(包括拼寫錯誤)。
在層析聚類分析中,一個單詞可能僅出現在一個聚類中,主題建??赡軐е乱粋€單詞與多個主題相關聯,這一特征更現實的表示了某些單詞的多義性以及該單詞的多個上下文單詞用法。
探索聯系
使用網絡圖探索單詞或概念之間的聯系。使用三種布局類型檢測共現的基礎模式和結構:多維縮放,基于力的圖形和圓形布局。
圖是交互式的,可用于探索關系并檢索與特定連接關聯的文本段。
使用文本與結構化數據相關
探索非結構化文本與結構化數據之間的關系:
識別時間趨勢,子組之間的差異,或使用統計和圖形工具(偏差表,對應分析,熱圖,氣泡圖等)評估與等級或其他類型或數字數據的關系。
使用不同的關聯度量的評估單詞出現與名義或有序變量之間的關系:卡方,似然比,Tau-a,Tau-b,Tau-c,對稱Somer's D,非對稱Somers'Dxy和Dyx,Gamma,Person's R,Spearman's
使用字典對文本數據進行分類
使用現有字典實現全文分子自定化,或者創建您自已的單詞和短語分類模型
在字典中,可以實現布爾值(AND,OR,NOT)和接近度規則(NEAR,AFTER,BEFORE),并使用正則表達式公式快速從文本數據中提取特定信息。
字典調節的詞語修飾和詞干支持多種語言,并且自動單詞替換選項使您可以用目標關鍵字替換多個單詞。用戶定義的停用詞列表可用多種語言提供。以避免不必要的常用詞(例如他,她,它等)在分析中使用。
獲得特有的詞典構建幫助
通過提取常用短語和技術術語以及在文本集合中快速識別拼寫錯誤和相關單詞(同義詞,反義詞,全名,同義詞,上位詞,下位詞)的工具,獲得真正特有的計算機協助,以建立分類標準。
使用機器學習自動對文本數據進行分類
使用Nave Bayes和K-Nearest Neighbours開發和優化自動文檔分類模型。用戶可以選擇多種驗證方法:leave-but-one,n-fold cross-validation,split sample。實驗模塊可用于輕松比較預測模型和精細分類模型。
分類模型可以保存到磁盤中,并稍后在QDA Miner中的獨立文檔分類實用程序,命令行程序或編程庫中應用。
一鍵返回原始文檔
通過使用關鍵字檢索或上下文中的關鍵字來檢索句子,段落或整個文檔,從功能,圖表或圖形中返回文本,從而驗證或深入分析。這在建立分類法或消除詞義歧義時特別有用。
檢索到的文本段可以按關鍵字或任何自變量排序。您可以將QDA Miner代碼附加到檢索到的段上,或以表格格式(Excel,CSV等)或文本報告(MS Word,RTF等)將其導出到磁盤。
執行定性編碼
將WordStat與新的定性編碼工具(QDA Miner)結合使用,以便在需要更準確的瀏覽數據或特定穩定或提取的文本段進行更深入的分析。
將非結構化文本轉換為交互式地圖(GIS映射)
將非結構化文本數據與地理信息相關聯,并創建數據點,主題地圖和熱圖的交互式圖表,以及用于將位置名稱,郵政編碼和IP地址轉換為緯度和經度的地理編碼Web服務。
自動提取名稱和拼寫錯誤
自動提取命名實體(名稱,技術術語,產品和公司名稱),可以使用簡單的拖放操作將其添加到分類字典中。
拼寫錯誤和未知單詞會自動提取出來,并與用戶詞典中的現有條目匹配,并且可以迅速添加到詞典中。
匯出結果
將文本分析結果導出為常見的行業文件格式(例如Excel,SPSS,ASCII,HTML,XML,MS Word),流行的統計分析工具(例如SPSS和STATA)以及圖形(例如PNG,BMP和JPEG)。
使用Python腳本轉換文本
使用Python腳本及其全部開放代碼庫來預處理或轉換文本文檔,以便在WordStat中進行分析。
WordStat 2023的新功能:
WordStat 2023的發布,這代表著在將詞義消歧應用于主題模型方面向前邁出了重要一步。我們特有的主題豐富功能經歷了重大改進,引入了幾個新的主題建模功能,以幫助用戶從他們的數據中獲得更深刻的見解。此外,還實施了多項速度優化,使軟件響應速度更快、用戶更友好。
1. 改進主題豐富
WordStat現在向提取的主題添加了更多相關短語,同時還為其他短語提供了改進的建議。此外,它現在在識別假陽性表達或異常方面具有更高的準確性,可以將其合并到主題模型中,以幫助減少與提取的主題無關的上下文相關的單詞的歧義。
2. 主題建模詞云
主題模型表右側的比較面板現在有一個新添加的詞云,直觀地描述了所選主題中排名靠前的詞的相對重要性。此詞云可以自定義、復制到剪貼板或以BMP、PNG或JPEG等標準圖形格式保存到磁盤。
3. 新增集成文本檢索功能
可以啟動主題網格右側的一個新的方便的示例文本面板,以自動顯示與所選主題匹配的句子或段落。這些文本片段按相關性降序排列,主題詞以粗體顯示,便于理解每個主題的本質并識別可用于說明的關鍵示例。這個強的工具使用戶可以更深入地了解他們的數據,并促進更有效地交流他們的發現。
4. 提高頂部富集速度
由于進行了大量的優化工作,主題豐富過程得到了顯著加速,導致性能提高比以前的版本快10到20倍。
5. 瞬時短語提取
利用多核處理的強功能,短語提取現在與主要文本處理無縫集成,使用戶幾乎可以即時訪問結果。例如,在包含超過50,000條客戶評論的數據集上,提取常用的5000個短語現在只需0.4秒即可完成,而之前的版本需要14秒。
技術信息
操作系統:Microsoft Windows XP , 2000 , Vista , Windows 7,8和10
內存:從256MB(XP)到1GB(Vista , Windows 7, 8和10)
磁盤空間:40MB