數據名稱:政府工作報告-原始文本面板數據及詞頻統計
數據范圍:全國31個省份
數據年份:2002-2020年(平衡面板為2007-2020年)
數據來源:地方政府網
數據整理:馬克數據網
數據說明:內含原始文本面板,以及精確模式和全模式兩種情況下的25個詞頻統計面板
更新時間:2021年12月(當前為1.0版)
從地方政府網爬取工作報告原始文件
將報告文本整理為面板數據
利用python的jieba庫進行精確模式分詞
(即:'推薦', '馬克', '數據網')
利用python的jieba庫進行全模式分詞
(即:'推薦', '馬克', '克數', '數據', '數據網')
去除停頓詞
保留兩種模式下的詞頻統計
原始文本 | 農村 | 節能 |
年份 | 環境 | 細顆粒物 |
地區代碼 | 環保 | 氮氧化物 |
地區 | 環境保護 | 氨氮 |
詞頻總量 | 綠色 | 尾氣 |
創新 | 霧霾 | 揚塵 |
創業 | 能耗 | PM10 |
技術 | 減排 | PM2.5 |
高質量 | 低碳 | 二氧化硫 |
鄉村 | 空氣 | 二氧化碳 |
面板結構
數據概覽
注:該數據為馬克社區高級會員-附贈數據