摘 要
自改革開放以來,在黨和政府的正確領導下,我國的經濟發展迅速,人民的 生活水平日漸提高,在滿足物質生活的同時也在追求著精神生活。人們的出行方 式,購物方式,支付方式等發生著天翻地覆的變化,由此帶來的數據激增引起了 相關學者的關注。近些年來,數據挖掘技術在我國火熱進行,機器學習算法在競 賽界熱火朝天,人工智能的發展研究在科技界如日中天。人們歷經忽視數據,關 注數據,重視數據,分析數據,利用數據的歷程,本論文正是依托實驗室項目通 過分析數據獲得相關需求。這幾年,盡管社會大背景發展良好,我們大部分人通 過奮斗都過上了不愁吃不愁穿的生活,但是仍舊存在一部分群體處在貧困之中, 他們需要政府的幫助,社會的救濟來擺脫貧困。由于我國幅員遼闊,人口眾多, 再加上歷史發展原因,我國的貧困人口總數不能清晰給出,貧困人民生活狀況無 法準確評估。盡管我國扶貧事業不斷發展,扶貧體系不斷完善,扶貧力度不斷加 大,但是會出現一些地區年年扶貧年年貧的現象,申請的扶貧資金猶如天女散花 的形式到達貧困戶手中。為了反貧困事業的順利進行,習近平總書記提出了"精 準扶貧"思想。要想扶貧工作有成效,就要重視精準二字。那么如何精準識別貧 困戶成為了首要問題,本論文就是利用數據挖掘技術構建貧困等級評價模型來實 現貧困戶的精準識別。
為了完成精準扶貧數據分析系統,本論文深入研究了數據挖掘的主要分析方 法,特征選擇算法,分類預測技術的過程以及常用的分類算法。經過研究,本論 文提出了一種基于 REAHCOR 特征選擇和 GBDT 的貧困等級評價模型,創新之 處在于 REAHCOR 特征選擇算法。同時介紹了 JavaEE 開發平臺,B/S 架構和相 關框架開發技術。從整體上看,本論文首先介紹了扶貧信息管理的發展現狀和貧 困分類預測研究現狀,然后介紹了相關技術知識,在此基礎上對整個系統的需求, 可行性進行分析,設計精準扶貧數據分析系統的結構和功能,最后依靠系統擁有 的數據加上實驗室優質設備實現了該系統并進行了測試,同時驗證了貧困等級評 價模型的有效性。
關鍵詞:多維貧困,特征選擇,相關性,分類算法,貧困等級評價
Abstract
Since the reform and development, under the correct leadership of the party and the government, China's economy has developed rapidly, and the people's living standard has been improving day by day. While satisfying the material life, they are also pursuing the spiritual life. People's trip mode, shopping mode, and payment mode are changing dramatically. The resulting data explosion has attracted the attention of relevant scholars. In recent years, data mining technology is hot in our country. Machine learning algorithm is hot in the field of competition, and the development of artificial intelligence research is booming in the field of science and technology. People have experienced the process of neglecting data, focusing on data, attaching importance to data, analyzing data, and using data. This paper is based on the laboratory project to obtain relevant needs by analyzing data. In recent years, despite the good development of the social background, most of us have lived a life of not worrying about food and clothing through struggle, but there are still some groups in poverty and they need the help of the government and social relief to get rid of poverty. Due to the vast territory, large population of our country and historical development, the total number of poor people in our country can't be clearly given, and the living conditions of poor people can't be accurately evaluated. Despite the continuous development of poverty alleviation in China, the continuous improvement of the poverty alleviation system, and the continuous increase of poverty alleviation efforts, there will be annual poverty alleviation in some regions, and the poverty alleviation funds applied for will reach the poor households in the form of scattered flowers. In order to carry out the cause of poverty alleviation, general secretary Xi Jinping put forward the idea of "accurate poverty alleviation". To be effective in poverty alleviation, we must pay attention to the word "precision". So how to accurately identify the poor households has become the primary problem. This paper is to use data mining technology to build a poverty level evaluation model to achieve the accurate identification of the poor households.
In order to complete the data analysis system of precision poverty alleviation, this paper studies the main analysis methods of data mining, feature selection algorithm, the process of classification and prediction technology and the commonly used classification algorithm. After research, this paper proposes a poverty level evaluation model based on REAHCOR feature selection and GBDT. The innovation lies in the algorithm of REAHCOR feature selection. At the same time, JavaEE development platform, B/S architecture and related framework development technology are introduced. On the whole, this paper first introduces the development status of poverty alleviation information management and the research status of poverty classification and prediction, then introduces the relevant technical knowledge.On this basis, analyzes the demand and feasibility of the whole system, designs the structure and function of the accurate poverty alleviation data analysis system, and finally realizes the system by relying on the data owned by the system and high-quality laboratory equipment. At the same time, the validity of the model is verified.
Key Words: Multidimensional Poverty, Feature Selection, Correlation, Classification Algorithm, Poverty Level Evaluation
目景
第 1 章 緒論
1.1 研究背景與意義
1.1.1 研究背景
貧困一直以來是困擾各個國家的重要難題之一,也是一個不可回避的問題。 自人類社會誕生,物質需求由此出現,后隨著社會進步,精神需求漸漸衍生。當 物質和精神需求二者出現貧乏窘困之時,貧困就悄然而至。在人類社會的早期, 大自然變幻莫測致使人類受其影響較大,當生存環境略微發生消極變化時,貧窮 就威脅著早期人類的生命健康。后來人類社會不斷進步,人們對自然的把控能力 逐漸增強,但是貧困卻從未遠去。中國共產黨自新中國成立以來對貧困問題的重 視從未減弱,一直想辦法把它徹底解決。起初,恢復和發展經濟成為了黨和政府 提高人民生活水平的一種重要途徑。1978 年改革開放之后,社會面貌幡然一新, 特別是近 30 年,反貧困事業取得了前所未有的成就,令世界驚嘆,"兩不愁" 問題已經得到根本解決。
進入 21 世紀,科學發展觀的引入使人們更加重視資源 優化,繼續實施的扶貧方略轉向縮小發展差距,幫扶農村發展,爭取早日讓農村 貧困人口過上小康生活。在黨和國家領導人的正確號召下,中國的反貧困戰略歷 經幾十年的不斷調整,內容不斷豐富,標準逐漸清晰,目標不斷升級,人民的生 活水平也在蒸蒸日上。習近平總書記在 2013 年第四季度去湖南湘西考察的時候 初次提出了"精準扶貧"的思想(顧小麗,2019),這一思想的提出,使得反貧困 的思路有了更為細致的突破。精準扶貧貴在精準識別,而后精準發力才會有精準 成效。它相對于以前粗獷式的扶貧,有效的解決了扶貧路程漫長,扶貧數據不清, 扶貧資金不到位等現象。2015 年元月份,中共中央總書記習近平在南方一省市 考察時提到,扶貧開發雖然是一項艱巨的任務,但它是我們第一個百年奮斗目標 的重點工作。為了全面實現小康社會,我們必須毫不動搖的走好精準扶貧之路, 要用更加有力有效的措施和行動,深入地實施精準扶貧,精準脫貧。2018 年 2 月,遼寧省辦公廳在《遼寧省支持深度貧困地區脫貧攻堅行動方案》中指出要落 實精準扶貧、深度扶貧。方案中提到 2018 年至 2020 年,遼寧省將加大對深度貧 困縣(市)和貧困村的扶持力度,確保第一個一百年如期解決區域性整體貧困問題。
隨著扶貧工作的深入開展,針對貧困戶的家庭信息、健康狀況、經濟來源和 扶助措施等信息采取建檔立卡方式進行動態管理。該舉措的實施是從傳統紙質資 料記錄管理走向數據挖掘智能電子檔案管理的一個過渡階段。在傳統的扶貧方式 中,難免存在一些弄虛作假的人利用裙帶關系等將本不應在貧困名單中的人員納 入貧困庫。所以精準識別,智能認定貧困人口也將推進扶貧工作的有效實施。為 了落實十九大精神、響應遼寧省精準扶貧的政策,提高精準扶貧的效率及準確度 成為了扶貧工作的重點。在科技潮流的推動下,如何充分的利用互聯網資源來幫 助政策的更好落實變得勢在必行。利用科學技術可以改進扶貧管理的傳統工作方 式,使流程變得更為正規和透明,而且建檔立卡工作的推進也使得扶貧數據更加 全面和完善,如何利用好這些數據發現更多科學規律也變得尤為重要。
1.1.2 研究意義
我國大規模的扶貧開發工作于 1986 年拉開帷幕,經過這么多年的努力,我 國取得了非常不錯的扶貧成就,但是也存在一些比較明顯的問題。比如自新中國 成立以來,對于貧困居民的總人數確定是由國家統計局根據農村住戶調查樣本的 數據推測估算而來,沒有一個統一的明確數據,造成貧困人數不清,貧困戶的具 體情況也不明了,由此也帶來一系列諸如扶貧資金發放合理性欠缺,扶貧效果對 比性不明顯等問題。而精準扶貧是針對不同貧困地域的生存環境和不同貧困戶的 家庭情況,使用因戶施策的方法,對貧困群體進行精準識別并幫扶和管理的一種 思想方式。精準扶貧策略能夠醫治中國人民奔小康的短板之處,搞好精準扶貧, 才能讓全國人民共同過上小康生活。 對于傳統的扶貧方式而言,一方面,人為的統計、識別和數據整理等勢必為 當地工作人員帶來大量繁瑣而又低效的勞動,既不能夠對扶貧對象的相關數據做 到精準操作,也造成了人力、物力和財力的多方面浪費。另一方面,因為透明性 存在欠缺,所以會存在一些人利用關系暗箱操作導致一些應扶未扶的家庭困難戶 出現。另外也存在一些扶富不扶窮,扶貧扶表面,扶貧名單人為的由基層干部推 測估算得出,扶貧資金不到位等現象。這些弄虛作假,監管不到位的行為致使國 家資源浪費,國家貧困問題得不到根本解決。因此設計一款能夠智能識別貧困戶, 并對每戶信息進行電子化歸檔管理和統計的數據分析系統恰逢其時。
近些年來, 建檔立卡工作的有序進行,政府相關部門的監測與統計以及計算機科學技術的迅猛發展,為該系統的籌備和運行提供了數據基礎和技術保障。經過各方調研和匯 總以及結合當地實際情況,數據分析系統不僅可以將當地農戶信息,扶貧成效, 扶貧建議等進行信息化管理,而且可以通過數據挖掘技術,將前者得到的數據進 行貧困等級分類預測。該系統的開發可以更好的輔助扶貧團隊進行精準識別貧困 戶,精準幫扶貧困人群,減少了由扶貧干部推測估算貧困名單造成的部分貧困戶 遺漏或非貧困人員上榜的現象,同時也節省了國家財力資源,使國家相關部門能 更好的分配資金去向。另外,對于貧困戶而言,該系統可以讓扶貧人員清晰的了 解其貧困狀況,能更快捷的得到及時救助;對于相關工作人員而言,該系統不需 要復雜的操作,友好的圖形化界面能使其很快掌握并運用所識來處理問題;對于 扶貧人員而言,該系統能夠準確識別貧困戶,落實扶貧責任人,記錄扶貧過程, 并記錄被幫人員滿意度,可以提高其扶貧工作的效率和記錄扶貧成效。對于當地 政府而言,該系統的研發可以最大程度上降低農村信息化程度弱帶來的一系列問 題,為分析農村特點,了解農民生活現狀等提供的便捷的渠道。另外,該項工程 不僅落實了十九大精神,更是響應了遼寧省精準扶貧的政策,大大提高了扶貧效 率,有利于精準扶貧工作的順利推進。
1.2 國內外研究現狀
1.2.1 扶貧信息管理的發展現狀
古今中外近千百年來一直存在絕對貧困的問題,它成為各國人民心中想要驅 除的灰影。貧困籠罩著地球村,盡快地消除貧困成為了人類共同的心愿和目標。 國外對貧困的研究工作在持續進行,幫扶力度只增不減,也采取了多項措施來解 決貧困。經過多年的演變和發展,目前美國已形成了以保障性福利減貧項目為主, 區域開發政策為輔,政府、企業和社會組織廣泛參與,覆蓋重點區域和重點人群 的綜合減貧政策體系,對于貧困人群的準確識別,則采用現代信息技術手段和家 計調查方式進行申請人資質的確定。英國、法國等通過不斷完善社會保障制度和 建立信息技術平臺來監管幫扶措施的實施來進行大規模的反貧困斗爭,發展中國 家比如巴西有扶貧信息平臺進行社會救助和幫扶(杜鴻飛,2018),印度尼西亞 通過 Badan Pusat Statistika(BPS)平臺工具調查貧困狀況繼而進行貧困救助。雖然 國外對扶貧工作的投入力度不小,但是缺少"精準"的扶貧模式。
中國作為世界大家庭的成員之一,也一直在努力消除貧困。2020 年是脫貧 攻堅決勝之年,盡管新型冠狀病毒肺炎疫情的發生使前進的道路又增加了荊棘, 但是中國人民打贏這場反貧困戰役的決心和信心是堅定不移的。為了等來這場來 之不易的勝利,中國人民付出了一代又一代的努力。從新中國剛成立的初期到改 革開放之前,人民的生活重心一直在溫飽問題上。改革開放之后,經濟得到復蘇, GDP 產值逐步提升,政府的扶貧政策不斷放寬,扶貧的精確度逐漸細致。隨著互 聯網科學技術的迅速發展,利用信息化手段動態扶貧也成為了一種潮流。各大扶 貧相關系統日漸增多,如省級扶貧地理信息系統(吳學偉,2004)、區塊鏈精準 扶貧系統(林鈔,2018)、海南省精準扶貧大數據管理平臺、"地理信息"+精 準扶貧管理系統(潘宸 等,2019)、西寧市精準扶貧信息管理系統、甘谷縣精 準扶貧系統(何永剛,2017)、西雙版納州精準扶貧管理系統、山東省濱州市大 數據+扶貧信息系統等等。各個系統依據當地的實際情況和扶貧記錄需求進行系 統的開發和設計,本系統的開發也參照遼寧省某區的實際情況進行設計實現,并 且能夠對貧困家庭進行智能識別貧困等級。
1.2.2 貧困分類預測的研究現狀
人類社會不斷進步,科技高速發展,但是貧困問題的解決仍是一大難題,各 國政府實施了各種法案來幫助貧困人群脫貧。那么解決該問題的前提是如何把貧 困人口提取出來,只有知道了誰是貧困人口,才能對癥下藥,緩解貧困。目前世 界各地也在積極運用科學手段研究貧困問題,大部分學者或政府把各地劃分的貧 困線作為依據來繼續深入研究,在尋求的參考文獻和相關資料中很多都是從經濟 學或政治學的視野來探討該問題,利用計算機科學技術手段進行扶貧的文獻較 少。近些年來,在"互聯網+"大背景的烘托下,貧困問題的研究開始陸續借助 計算機的優勢進行,貧困分類預測的研究以數據挖掘方式進行,借助機器學習的 方法預測家庭的貧困程度(胡蝶,2019),幫助政府更好的辨識貧困人口,該科 技手段的使用在一定程度上起到了積極作用。 貧困是一個復雜的社會現象,已經成為世界范圍內的一個大問題,當衣食住 行教育等方面無法滿足一個人最基本的生活需求時,他可能陷入了貧困。國外很 多學者對于貧困分類的研究大多基于機器學習算法來預測貧困線以上或以下家 庭。Sarwosri 等(2016)提出 K-均值聚類法評估貧困等級;B.Yu 等(2015)利用 NPP-VIIRS 數據采用線性回歸模型討論了 ALI 值和 IPI 值的關系進而進行貧 困分類;Jean N 等(2016)通過訓練卷積神經網絡結合高分辨率衛星圖像來實現 貧困戶識別;Janelyn A. Talingdan(2019)采用樸素貝葉斯、KNN、決策樹、Logistic 回歸和 ID3 五種算法對貧困戶和非貧困戶進行預測,最后使用 Naive Bayes 分類 器得出了分類效果不錯的模型。這些學術文獻的研究為后續學者繼續深入探討該 問題提供了非常有效的思路。 國內學者最初開始進行貧困分類預測是從高校貧困生積累的數據開始進行 分析,例如謝成楓(2011)將收集到的數據使用累計 logistic 回歸方法把貧困結 果分為不貧困、較為貧困、一般貧困、特別貧困四類;陸桂明等(2019)使用 XGBoost 模型來預測貧困生的分類。
近年來利用數據挖掘方法對貧困人群進行分 類的文獻開始增多。李雪(2008)提出了多層次模糊系統方法進行貧困分類;徐 姝婧等(2019)提出了基于神經網絡模型的方法實現貧困分類;崔璐等(2019) 提出了使用有序多分類回歸模型進行貧困戶貧困程度識別的方法。這些文獻提出 的方法可以有效的解決傳統扶貧方式中存在的漏報,錯報,偽報等現象,但是也 存在一定問題,回歸分析法雖然考慮到了因素間的相互依賴和相互影響關系,但 是實驗次數過于冗繁,模糊系統方法在指標集較大時,會出現超模糊現象,無法 區分隸屬度,神經網絡雖然具有高度自學和自適應能力,但是它黑匣子的性質使 得結果的可解釋性不強,不利于后續的扶貧分析,所以本文提出了一種基于 REAHCOR-GBDT 的貧困等級評價模型,可以很好的結合當地實際數據進行貧困 人口的分類識別。
1.3 論文研究的主要內容
本文旨在實現精準扶貧數據分析系統,該系統可對收集到的農村家庭信息數 據進行錄入,維護,查詢以及統計工作,并以實驗室項目"精準扶貧數據分析系 統"所得數據經過預處理,特征選擇,模型構建等采用數據挖掘方法進行分類預 測家庭貧困等級,做到精準識別而后才能精準施策,減少識別貧困人口中出現的 消極人為干預現象,努力做到"扶真貧"、"真扶貧".為了實現此家庭信息電子化 歸檔管理以及精準識別貧困人口的數據分析系統,本論文主要研究了以下幾個方 面:
。1)首先明確系統開發用途,并對精準扶貧相關工作的流程進行了解,分析與其相關的各類工作,完善系統的功能性需求和非功能性需求,為設計出適合 客戶使用的友好系統做鋪墊。
。2)精準扶貧工作關鍵之首在于精準識別,所以本論文深入研究了貧困分 類算法模型,將它應用于精準扶貧數據分析系統之中。首先通過文獻閱讀,書籍 資料閱讀,廣泛了解之前學者在分類預測方面的研究成果,對于一些經典的分類 評價模型進一步探討,掌握其算法原理,了解其適合應用的場景以及該算法的優 缺點。然后學習近幾年比較火熱的集成學習算法,盡可能全面的熟悉相關算法, 并對可能用于貧困等級評價模型中的算法再進一步分析研究。最后結合本系統的 真實背景,考慮算法的適用性,提出一種基于 REAHCOR 特征選擇和 GBDT 的 貧困等級評價模型算法,經實驗驗證,其穩定性好,靈活性強,分類結果準確率 高。
。3)本論文需要將上述得到的貧困等級評價模型應用在精準扶貧數據分析 系統之中,在考慮到適用的系統架構之外還要設計分類預測常用的一些功能模 塊。另外對于系統的承載力,高擴展性,高響應以及數據安全性之數據的讀寫分 離等方面進行研究和應用。
。4)根據需求,對精準扶貧數據分析系統進行詳細設計和整體架構設計, 用戶接口設計及其他核心類設計,同時對數據庫的設計也不能缺少。在實現該系 統后,使用不同身份的登錄人進行系統測試,對系統功能的實現,系統運行狀況, 服務器抗壓能力以及安全性進行檢驗。
1.4 論文的組織結構
本論文將基于 REAHCOR 特征選擇和 GBDT 的貧困等級評價模型算法與扶 貧管理系統相結合,實現精準扶貧數據分析系統。該系統可以通過數據分析實現 貧困人口的智能識別以及扶貧流程的電子化歸檔管理。包括調查問卷表單的錄 入,村基本信息以及村所屬村民信息,貧困戶的管理,扶貧責任人的日常工作流 程等,使政府更快速方便地掌握農村經濟現狀、農民生活狀態,以及扶貧狀態, 同時依靠數據說話也減少了"扶親不扶貧",漏報,錯報貧困名單等現象的發生。 本論文總共分六章進行論述:
第一章:緒論。作為論文的首章,本部分介紹了精準扶貧數據分析系統的項 目背景,重點介紹了項目意義,深入研究了有關扶貧信息管理的國內外發展現狀以及貧困分類預測的研究現狀,并簡明扼要的介紹了本文主要研究哪些內容,做 了哪些工作。
第二章:相關知識及技術。本章主要介紹了精準扶貧數據分析系統用到了哪 些關鍵技術點,一一對這些技術點進行介紹。首先對數據挖掘技術進行了簡單概 述,然后對扶貧系統中用到的分類預測技術相關知識進行詳細論述,最后對本系 統在開發過程中所需的平臺進行了介紹。
第三章:精準扶貧數據分析系統的需求與分析。介紹了項目背景和項目有哪 些需求,把功能性需求和非功能性需求都考慮在內,明確開發目標的同時分析該 項目實施的可行性,從整體上進行宏觀把控。
第四章:貧困等級評價模型算法研究。本章介紹了利用該系統收集到的農村 數據,進行相關的數據分析,將原始數據進行數據預處理操作,并對常用的特征 選擇算法進行研究,最后經過多方實驗后,最終確定了一種基于 REAHCOR 算 法的新型特征選擇算法用到貧困等級評價模型的研究中。該模型的研究經過多個 模型對比實驗,最終選擇出最優的一種模型使用到精準扶貧數據分析系統中。
第五章:精準扶貧數據分析系統的設計與實現。在前面章節需求分析的確定 和貧困分類模型算法優化的基礎上,本章節對系統進行了設計開發和實現,包括 對系統的總體設計,功能模塊的詳細設計以及數據庫的設計。將系統使用 Java 進行實現之后,對系統進行整體上功能頁面測試,穩定性和可靠性測試。
第六章:總結與展望。對整篇論文進行總體性分析,完成了哪些工作,另外 還需要完善的地方有哪些,并對精準扶貧數據分析系統做進一步開發構想和展 望。
1.5 本章小結
本章主要介紹了精準扶貧數據分析系統研究的背景和意義,對于國內外的研 究狀況也進行了深入分析,包括扶貧管理和貧困分類方面的學術文獻研究,很好 的對項目開發做好前提準備,同時對論文主要的研究內容、需求目標和整體文檔 結構做了介紹,明確的闡述了論文的研究方向,為下文做鋪墊。
第2章相關知識及技術
2.1數據挖掘技術
2.1.1數據挖掘簡介
2.1.2數據挖掘的發 展現狀
2.1.3數據挖掘的主要分析方法 與功能
2.2分類預測技術
2.2.1分類的基本概念和過程
2.2.2常用的分類算法-
2.3 JavaEE平臺的相關技術
2.3. 1 JavaEE 體系結構
2.3.2 B/S 架構
2.3.3 SSM 系統架構
2.4本章小結
第3章精準扶貧數據分析系統的需求與分析
3.1項目背景以及需求目標
3.2功能性需求
3.2.1用戶功能需求
3.2.2系統功能需求
3.3非功能性需求
3.4可行性分析
3.4.1技術可行性
3.4.2經濟可行性
3.4.3開發環境可行性
3.5本章小結
第4章貧困等級評價模型算法研究
4.1 數據預處理方法
4.2特征選擇算法
4.2.1常用特征選擇算法
4.2.2 REAHCOR 算法研究
4.3隨機森林算法的研究---_
4.4 GBDT 算法的研究
4.5模型預測
4.6評價標準
4.7實驗分析
4.8本章小結
第5章精準扶貧數據分析系統的設計與實
5.1精準扶貧數據分析系統的設計
5.1.1 系統總體設計
5.1.2系統功能模塊詳 細設計+
5.1.3 數據庫設計
5.2精準扶貧 數據分析系統的實現與測試
5.2.1系統實現
5.2.2系統測試
5.3 本章小結
第 6 章 總結與展望
6.1 論文總結
在我國,20 世紀 50 年代末,計算機的出現和普及,促使社會對信息數據的 接觸和獲取變得頻繁。隨著社會的進步,信息數據幾何式增長。信息化時代隨之 而來,促使我們在浩如煙海的數據中大顯身手。數據挖掘技術的流行熱度便反映 了這一點。本論文就是利用數據挖掘技術建立模型進行相關需求的開發。開發內 容為精準扶貧方面。提到精準扶貧,這一思想是中國在反貧困斗爭中獨出心栽的 一筆。脫貧攻堅戰的號角聲已經吹起,脫貧攻堅戰役到達最關鍵的時刻,本論文 研究的系統為脫貧工作的開展增添了助推劑。雖說 2020 年的到來,離我們實現 現行標準下農村貧困人口全部脫貧、貧困縣全部脫去貧困帽的日子越來越近,不 過扶貧工作依然在有序進行,防止非貧困人員再次返貧等依舊是反貧困事業過程 中不可忽略的點。本論文開發的系統可以記錄農戶信息,村鎮信息以及將獲得的 數據進行數據挖掘,分析其應用價值。另外,通過貧困等級評價模型可以進行貧 困預測,能夠及時地對農戶進行定位,清晰的得出脫貧人員是否再次返貧的信息, 在政策上不僅積極的落實了十九大精神,更是響應了遼寧省精準扶貧政策,它為 政府部門等相關人員了解農民生活現狀,分析農村特點,精準識別貧困人群等提 供了便捷的渠道,有助于政府部門開展工作,提高扶貧準確度,提升農民幸福感。 為此,本論文主要作了以下工作:
。1)首先,為了更加清晰明確的把握好精準扶貧數據分析系統研究的方向, 本論文的開始篇章便對系統的研究背景和研究意義進行闡述,該系統的開發可以 更好的輔助扶貧團隊進行精準識別貧困戶,精準幫扶貧困人群,提高了扶貧工作 的效率和響應政策號召。接著對國內外的研究現狀進行分析,包括精準扶貧信息 管理的發展現狀以及貧困分類預測的研究現狀,更全面的對項目進行解析,加深 對貧困有關內容的了解,有助于后續章節的進行。
。2)為了更好的實現精準扶貧數據分析系統,在前期做了大量工作。比較 重要的研究內容就是對實現系統所需的相關技術進行深入研究,透徹掌握。本論 文的特色之處在于建立了貧困等級評價模型,它是通過前期采集到的農戶信息數據并基于數據挖掘技術完成的。所以本論文對數據挖掘技術進行了簡單介紹,通 過閱讀大量文獻,總結了數據挖掘目前的發展現狀,并對數據挖掘技術采用的主 要分析方法進行了研究。本文的貧困等級評價模型被定性為分類模型,故本論文 針對常用的分類算法進行了深入學習和研究,并掌握其原理和使用方法。另外, 本實驗項目使用的 Web 系統基于 JavaEE 平臺進行開發,文中對 JavaEE 平臺的 系統結構進行了整體的研究學習,并結合本系統的需求對 B/S 架構和 SSM 系統 框架進行了相關闡述。為精準扶貧數據分析系統的順利開展做好前提準備。
。3)本系統項目開始前,需要對項目進行需求分析。所以本論文又對項目 背景以及需求目標做了清晰闡述,針對系統的功能性需求和非功能性需求做了說 明,并對系統進行了可行性分析。
。4)接下來,對貧困等級評價模型算法進行了詳細論述,從數據準備,特 征選擇,到模型構建,模型完成這幾個方面開展。數據預處理能夠使數據質量得 到一定程度的提高,所以做好預處理工作不可缺少。本論文在對數據預處理方法 進行介紹后,又研究了特征選擇算法。雖說常用的特征選擇算法有很多,但是都 有一定范圍的適用性,結合本系統提供的數據,以及在前人研究的基礎上,本文 提出了一種新型 REAHCOR 特征選擇算法,非常適合于貧困數據研究。對于該 算法的詳細介紹已經在論文中給出。在分類器選擇上,本論文又對隨機森林算法 和 GBDT 算法進行了研究,最后通過實驗分析給出最終模型,此過程在論文中 進行了說明。
。5)最后就是對系統的實現,通過前面章節的需求描述和可行性分析之后, 大膽的開始進行項目建設。系統從普通用戶和系統管理員用戶的角色出發,一一 實現相應功能。最后對整個系統進行測試,驗證了系統的可靠性和實用性并證實 了貧困等級評價模型準確率高,泛化能力強,模型運行穩定的優點。
6.2 展望
本章本系統已經完成,并滿足了精準扶貧數據分析系統的現階段需求,但是 還存在一些方面的不足有待提高。
。1)本系統只是實現了農戶信息和扶貧信息的管理以及對所采集到的數據 進行貧困分類預測等功能,雖然能很好的滿足現階段的工作要求,但是還有很大 的擴展空間。比如利用前期積累的數據繼續進行數據分析,不僅對貧困戶數據分析,也可以對當地居民進行數據分析,比如用戶畫像建設,老齡化預測建設等, 使平臺的可利用空間變大。
。2)本系統目前只存在網頁版,通過 PC 端或手機端瀏覽器進行訪問。后 續本系統可以專門在 Android 和 ios 上進行 APP 的開發,實現隨時隨地信息查詢 和使用。
。3)在模型建立時,數據源的獲取規模不夠宏大,后續可以采集整個省, 多個省乃至全國的數據進行分析,此時一定會存在更多的影響因素,到時可以一 并納入訓練體系中。
。4)當加入的數據量增多時,系統的信息安全也成為了一個難點。在今后 的研究中應向此方向傾斜。 2020 年是一個讓人痛為記憶的一年,新型冠狀病毒的來襲讓中國及世界各 地加入了新型冠狀病毒疫情防控的保衛戰,醫護人員舍生取義,逆向而行為我們 守護著家園。
在此,向奮斗一線的廣大醫護人員道生誠摯的感謝:"您們辛苦了! 感謝有您!"伴隨著疫情的發展,各地延遲復工復課的趨勢卻極大地刺激了科技 的進步,異地網絡辦公,智能對話,網上教育,在線簽約等迅猛發展,網絡平臺 可能面臨上百萬人同時訪問,多人實時通話更要保證網速質量等問題,這些現實 的社會現象是利用科技之便時不可忽略地,相信未來的科學技術會越來越強,一 些棘手問題比如網絡信息安全等都會被解決,本論文提及的不足之處在不久的將 來也將得到完善。
參考文獻
曹正鳳。 隨機森林算法優化研究[D].首都經濟貿易大學,2014.
陳逸杰。 數據挖掘技術在征信數據中的應用研究[D].南京郵電大學,2019.
崔璐,岳書銘;谟行蚨喾诸惢貧w模型的貧困戶貧困程度影響因素分析[J].農村經濟與科 技,2019,30(05):143-146.
丁雪梅,王漢軍,王炤光,周心圓;诟倪M ReliefF 的無監督特征選擇方法[J].計算機系統應 用,2018,27(03):149-155.
杜鴻飛。 精準扶貧數據管理平臺的設計與實現[D].電子科技大學,2018.
顧小麗。"人工智能+"貧困生精準識別工作探析[J].科技創新與生產力,2019(09):44-46+49.
何永剛;诘乩硇畔⒌母使瓤h精準扶貧系統設計與實現[J].礦山測量,2017,45(03):42-44.
胡蝶。 基于機器學習的貧困等級分類[D].華中師范大學,2019.
胡昕韻。 數據挖掘算法的改進研究[D].安徽大學,2019.
康建偉。 基于灰色模型的農民工資性收入預測[J].大眾科技,2015,17(04):135-136+141.
李雪, 劉洋, 葉偉銘。 基于多層次模糊系統的貧困等級認定模型。中國新技術新產品, 2008, (11): 99-101.
林鈔。 基于區塊鏈的精準扶貧系統的研究與實現[D].西安電子科技大學,2018.
李 葉 紫 , 周 怡 璐 , 王 振 友 . 基 于 互 信 息 的 組 合 特 征 選 擇 算 法 [J]. 計 算 機 系 統 應 用,2017,26(08):173-179.
李娜娜。 中國農村多維貧困研究[D].山西財經大學,2012.
陸 桂 明 , 張 源 , 周 志 敏 . 基 于 機 器 學 習 的 貧 困 生 分 類 預 測 研 究 [J]. 計 算 機 應 用 與 軟 件,2019,36(01):316-319.
毛瑩。 基于醫療信息系統的數據挖掘算法研究[D].內蒙古科技大學,2019. 牟舜禹。 基于 Spring 框架的客服系統的設計與實現[D].北京交通大學,2019.
潘 宸 , 嚴 瑞 , 仇 海 亮 . " 地 理 信 息 + " 精 準 扶 貧 管 理 系 統 的 設 計 與 實 現 [J]. 工 程 勘 察,2019,47(03):47-50+71.
任江濤,黃煥宇,孫婧昊,印鑒;谙嚓P性分析及遺傳算法的高維數據特征選擇[J].計算機應 用,2006(06):1403-1405.
陶 常 勇 , 高 彥 釗 , 王 元 磊 , 張 興 明 . 人 工 神 經 網 絡 加 速 方 法 綜 述 與 研 究 [J]. 天 津 科 技,2019,46(S1):28-30.
魏仕軒,王未央。SVM 和集成學習算法的改進和實現。計算機系統應用,2015,24(7):117-121.
吳學偉。省級扶貧地理信息系統的設計與實現[J].測繪通報,2004(06):53-55.
謝成楓。 貧困生數據的累積 logistic 回歸分類[D].東北師范大學,2011.
熊肖磊,王春偉,趙炯,周奇才; Redis 與 SSM 的大型設備數據運用系統設計[J].現代機 械,2018(06):29-34.
徐姝婧,陸一嘯,徐嘉瑞;跈C器學習的貧困戶識別指標體系模型研究[J].上海立信會計金融 學院學報,2019(04):108-120.
楊秀港。數據挖掘算法綜述[J].科技經濟導刊,2019,27(05):166.
楊 劍 鋒 , 喬 佩 蕊 , 李 永 梅 , 王 寧 . 機 器 學 習 分 類 問 題 及 算 法 研 究 綜 述 [J]. 統 計 與 決 策,2019,35(06):36-40.
虞成斌。 基于 B/S 架構的計量儀器檢測管理系統的設計與實現[D].浙江工業大學,2019.
張平。 基于過濾法的信息論特征選擇算法研究[D].吉林大學,2018.
張堯。 基于互信息的特征選擇方法研究[D].西安理工大學,2019. A logical calculus of the ideas immanent in nervous activity[J].
Warren S. McCulloch,Walter Pitts. The Bulletin of Mathematical Biophysics . 1943 (4)。 B. Yu, K. Shi, Y. Hu, C. Huang, Z. Chen and J.
Wu. Poverty Evaluation Using NPP-VIIRS Nighttime Light Composite Data at the County Level in China.
IEEE Journal of Selected Topics in Applied Earth Observations and Remote Sensing, 2015, 8(3): 1-13. Jean, N., Burke, M., Xie, M., Davis, W. M., Lobell, D. B., & Ermon, S.
Combining satellite imagery and machine learning to predict poverty. Science, 2016, 353(6301): 790-794. Kochetov Vadim. Overview of different approaches to solving problems of Data Mining[J].
Procedia Computer Science,2018,123. Mark A. Hall.Correlation-based Feature Selection for Discrete and Numeric Class Machine Learning[J],2000: 359-366.
Sarwosri, D. Sunaryono, R. J. Akbar and R. D. Setiyawan. Poverty classification using Analytic Hierarchy Process and k-means clustering. 2016 International Conference on Information & Communication Technology and Systems (ICTS)。
Surabaya: IEEE. 2016. 266-269. Talingdan, J. A. Performance Comparison of Different Classification Algorithms for Household.
Poverty Classification. 2019 4th International Conference on Information Systems Engineering (ICISE)。 2019.
Yu L, Liu H. Eficient Feature Selection Via Analysis of Relevance and Redundancy[J]. Journal of Machine Learning Research, 2004, 5(12):1205-1224.
致 謝
時光如白駒過隙,三年的研究生學習生涯即將結束。三年前的備研過程仍歷 歷在目,正是由于日復一日的努力與堅持,我最終敲開了研究生的大門,能夠在 學業上更進一步。對于取得的成績,我相信所有的付出都是值得的;仡欉@三年 的研究生生活,有喜悅,有彷徨,也有過挫折,但最重要的還是收獲。無論是專 業技術,還是生活感悟,自己都學到很多,相比大學時代,自己前進了一大步, 我相信這三年的積淀將使我終生受益。 研一有幸在中國科學院大學雁棲湖校區學習和生活一年,優美的校園環境, 濃厚的學習氛圍,強大的師資力量,多彩的校園生活,都給研究生生涯留下了濃 墨重彩的一筆。國科大為學生提供的高平臺讓大家有了更多進步的空間,比如舉 辦各個領域專家學者的講座,開闊了視野,拓展了知識面,讓我獲益匪淺。研二 和研三回到沈陽計算所度過了兩年充實的科研生活,靜下心專心于科研,專業能 力得到不斷提高。感謝國科大和研究所提供良好的學習環境,讓我收獲頗豐,順 利完成研究生學業,并在此基礎上開啟人生新篇章。 感謝我的導師孫詠老師,孫詠老師不僅在學術領域上指引我前進,同時也教 會了我如何去思考問題,解決問題。孫詠老師負責、認真、嚴謹的科研態度深深 影響著我,在我碩士論文撰寫的過程中給予了很多幫助,感謝孫老師的悉心指導。
感謝我的二導師高岑老師,高岑老師非常的友善和有耐心,從開題準備、中 期答辯一直到現在,高老師每次都會對我們提交的材料認真審閱并提出修改意 見,幫助我們順利度過一個又一個門檻。在我的小論文書寫過程中,她給我提供 了參考方向,提出了一些事先并沒有考慮到的問題,并為我解答疑惑,感謝高老 師的幫助。 感謝系統集成實驗室的王美吉老師,王老師待人和藹,樂于助人。遠離家鄉 的我來到東北上學,在這里感受到了王老師帶來的溫暖,她善解人意,給我們提 出人生建議,幫助我們更好發展,讓我們少走彎路,感謝王老師。 感謝丁老師、寧老師、王老師、羅老師以及研究生部其他老師,您們處處為 學生著想,盡力解決學生在學習或者生活上遇到的問題,為我們營造了一個良好的學習生活氛圍,感謝您們在學業上認真負責的指導以及生活中細致的關心。
感謝研究生期間的每一位同學們,我們有著共同的經歷,在參與科研生活的 同時也積極參與學校提供的精彩校園活動,比如籃球比賽,129 大合唱等,讓我 們結下了深深的友誼。特別感謝我的室友,一路走來她們陪伴我成長,我們一起 歡笑,一起奮斗,青春的日子里感謝有你們的參與。 感謝我的父母,感謝你們一直以來對我的關懷、教育與支持。父母在我人生 的每個重要階段,都會理解并堅定地支持我的決定。在我整個的學習生涯中,你 們一直在默默地支持與付出,無論是遭遇挫折時的鼓勵與開導,還是取得成績時 由衷的喜悅與贊賞,你們一直都是我最堅強的后盾,我的人生因你們而精彩。 同時也要感謝參與我論文評審的各位評委老師,感謝您們的認真審閱,您們 的意見是對我研究工作的最好的肯定與幫助。 最后衷心祝愿各位老師、同學,身體健康,工作順利、萬事如意。
(如您需要查看本篇畢業設計全文,請您聯系客服索。