馬克團隊根據各省份政府工作報告文本數據,參考《經濟研究》中陳詩一(2018)、《中國工業經濟》中鄧慧慧(2019)、《中國軟科學》中尹禮匯(2021)三人的做法,利用Python對政府工作報告進行分詞處理,統計了省級政府工作報告中與環境規制相關的關鍵詞的詞頻
參考1:《經濟研究》陳詩一(2018)
參考2:《中國工業經濟》鄧慧慧(2019)
參考3:《中國軟科學》尹禮匯(2021)
年度平均詞頻趨勢
數據名稱: 政府工作報告-環境規制力度
數據范圍:全國31個省份
數據年份:2002-2023年(平衡面板為2007-2023年)
數據來源:地方政府網
數據整理:馬克數據網
數據說明:內含環境規制相關的15個詞頻明細、文本長度、文本詞頻總數
更新時間:2023年3月
二、整理說明從地方政府網爬取工作報告原始文件
將報告文本整理為面板數據
去除停頓詞,利用python的jieba庫進行精確模式和全模式分詞,統計詞頻和
(精確:'推薦', '馬克', '數據網')
(全:'推薦', '馬克', '克數', '數據', '數據網')
保留中英文、數字、標點符號,利用正則表達式統計15個詞頻
保留中英文、數字,統計全文文本總長度
保存文本詞頻總數、15個詞頻明細、文本長度
三、指標說明一共25個指標,如下
行政區劃代碼 | 年份 | 地區 |
所屬地域 | 長江經濟帶 | 文本總長度 |
僅中英文-文本總長度 | 文本總詞頻-全模式 | 文本總詞頻-精確模式 |
環境規制力度詞頻和 | 環境保護 | 環保 |
污染 | 能耗 | 減排 |
排污 | 生態 | 綠色 |
低碳 | 空氣 | 化學需氧量 |
二氧化硫 | 二氧化碳 | PM10 |
PM2.5 |
平衡面板為2007-2023年
數據概覽
注:該數據為馬克社區高級會員-附贈數據