天天看點

基于python的外賣資料分析-計算機畢業設計源碼+LW文檔

作者:計算機畢業設計老師

一、 選題的背景與意義

(一)課題研究來源

拙筆所值新世紀第二個十年的尾聲,距離上世紀九十年代以TCP/IP協定的資料傳輸過程為基礎的網際網路資訊技術的崛起的時間點己經經過了三十年的時間,距離上世紀六十年代互聯技術問世的時間點己經有六十年。時至今日,随着移動終端(如手機、平闆電腦等便攜式微型資料處理計算機)技術的成熟以及其以日漸平民化的價格、趨同的處理速度、優秀的功能內建度等優勢逐漸代替pc端的硬體産業革命,網際網路技術可以說在新世紀第二個十年達到了前所未有的普及廣度。這種普及廣度無涉于使用者的性别、年齡、職業、國别等非功能性因素,甚至在聽覺或視覺功能上有一定缺陷的病患者也幾乎全部加入至網際網路使用者的大軍之中。據2018年12月1日調查顯示,大陸己有至少8.02億網民,網際網路普及率為57.7%,其普及程度可見一般。同時,網際網路技術對人類社會的滲透深度也同等強大。借力于物聯網工程的基礎設施建設、高內建化的智能電子晶片以及雲計算技術的成熟,人類社會的具體目的性行為幾乎無法遠離網際網路技術。如定位導航系統之于出行;電子商務平台之于購物;社交軟體之于溝通,其憑借強大的功能與傳播力使得人類社會對其依賴度越來越高,甚至可以說是不可或缺的程度。

(二)課題研究的目的

随着資訊時代的發展和程式設計技術的普及,搜尋引擎成為了使用網際網路的常用工具。搜尋引擎大多使用爬蟲技術作為核心子產品,通過關鍵詞傳回使用者查詢的結果。但是網絡資訊呈現爆炸式的增長,使得資訊的查找和定位也變得困難。為解決上述困境,研究借助Python語言。它是為了編寫自動化腳本(shell)而設計的膠水語言,是面向對象的動态類型語言。Python語言經過不斷地改進及增加新功能,慢慢地被很多獨立的、複雜的軟體系統用于開發。Python作為一門程式設計語言被越來越多的人所喜愛。

(三)課題研究的意義

本論文實作的基本方式為:以開源的Python語言系統為基礎利用,同時借鑒、粘連其他程式設計語言的抽象建構方式,進而建構一個實作能力強大的Web crawler系統程式,同時保障其具有較強的拓展性。

本次課題所建構Web crawler系統程式所針對、解決的現實問題不僅僅局限于本次課題的問題領域,也就是說,本次課題所建構Web crawler系統程式可以嫁接于其他種類的網站資訊提取捕獲類系統,進而實作多種多樣的抓取功能,也會在一定程度上對網絡使用者自身利用或者今後的語言程式設計開發人員的開發、研究提供具有一定程度利用價值的素材。

(四)研究現狀

(1)網際網路技術的普及

時至今日,随着移動終端(如手機、平闆電腦等便攜式微型資料處理計算機)技術的成熟以及其以日漸平民化的價格、趨同的處理速度、優秀的功能內建度等優勢逐漸代替pc端的硬體産業革命,網際網路技術可以說在新世紀第二個十年達到了前所未有的普及廣度。這種普及廣度無涉于使用者的性别、年齡、職業、國别等非功能性因素,甚至在聽覺或視覺功能上有一定缺陷的病患者也幾乎全部加入至網際網路使用者的大軍之中。據2018年12月1日調查顯示,大陸己有至少8.02億網民,網際網路普及率為57.7%,其普及程度可見一般。同時,網際網路技術對人類社會的滲透深度也同等強大。借力于物聯網工程的基礎設施建設、高內建化的智能電子晶片以及雲計算技術的成熟,人類社會的具體目的性行為幾乎無法遠離網際網路技術。如定位導航系統之于出行;電子商務平台之于購物;社交軟體之于溝通,其憑借強大的功能與傳播力使得人類社會對其依賴度越來越高,甚至可以說是不可或缺的程度。

(2)傳統資訊管道的“萎靡”

相較于網際網路技術的方興未艾,傳統資訊擷取管道早已呈現出天壤之别的劣勢,并且其穩定閱聽人的數量仍在持續走低。據世界報業協會2018年趨勢報告中指出,在過去的五年中,全球報紙總發行量每年平均減少900萬份,以平均降幅為2%的速度逐年下降;同時,諸多國際知名雜志的營運商因長年被網際網路擠壓市場占有率而宣布破産(如美國的“閣樓")。尤其對于年齡在18-45歲之間的年輕閱聽人群體而言,幾乎已經不再選擇報紙、雜志、廣播等傳統資訊管道擷取資訊來指導日常生活,他們無時無刻不生活在網絡之中。

二、 課題研究内容及創新

首先,若要實作本課題所指向的系統結構并達到預期效果,認知、熟悉乃至.于在某一方面精通Python語言體系是非常必要的。同時,就開源庫來講,本課題将高頻的利用SCRAPY結構作為本課題系統結構的架構。

本次課題的實作是研究者本身親力親為的建構、編寫Web crawler原始構成架構,這個過程中将有助于前沿網絡程式編寫能力的提高,并且将自身對網絡技術與目的搭載實作方式進行全面、系統的更新。其次,本次課題所建構Webcrawler系統程式所針對、解決的現實問題不僅僅局限于本次課題的問題領域,也就是說,本次課題所建構Webcrawler系統程式可以嫁接于其他種類的網站資訊提取捕獲類系統,進而實作多種多樣的抓取功能,也會在一定程度上對網絡使用者自身利用或者今後的語言程式設計開發人員的開發、研究提供具有一定程度利用價值的素材。

資料收集

收集外賣平台的訂單資料,包括訂單編号、下單時間、商家名稱、商品名稱、商品數量、商品單價、收貨位址、支付方式、訂單狀态等資訊。

資料清洗

對收集到的資料進行清洗,包括去重、缺失值處理、異常值處理等,保證資料的準确性和完整性。

資料探索

通過可視化工具對資料進行探索,包括訂單量、銷售額、商品銷量、商家評分等名額的分析,找出資料中的規律和問題。

資料模組化

利用機器學習算法對資料進行模組化,預測銷售額、商品銷量、商家評分等名額,并優化外賣平台的營運政策。

和客戶主要溝通内容:爬取網站不限定。

資料展示

将分析結果以可視化的形式展示出來,包括折線圖、柱狀圖、餅狀圖等,使得資料結果更加直覺和易于了解。

總結

通過外賣資料分析,可以幫助外賣平台了解使用者需求,優化營運政策,提高使用者體驗和

平台收益。

三、 課題的研究方法:

(1)文獻研究法

在正式開始撰寫論文之前搜集整理大量文獻資料,包括各類學術著作、期刊論文和相關媒體報道,在全面了解前人研究成果的基礎上确定研究課題,理清研究思路。

本論文實作的基本方法為:以開源的Python語言系統為基礎利用,同時借鑒、粘連其他程式設計語言的抽象建構方式,進而建構一個實作能力強大的Web crawler系統程式,同時保障其具有較強的拓展性。

四、 研究計劃及預期成果:

第一階段:2023.xx——2023.xx 閱讀相關的文獻,制定論文的研究計劃和方案,收集資料;

第二階段:2023.xx——2023.xx 拟定開題報告,構思論文架構,送出指導老師審批;

第三階段:2023.xx——2023.xx 起草論文初稿,潤色修改,送出指導老師初審;

第四階段:2023.xx——2023.xx 根據指導老師意見,修改初稿;

第五階段:2023.xx——2023.xx 基本定稿,編寫論文答辯提綱;

第六階段:2023.xx 以最佳狀态參加答辯,完成答辯。

五、 參考文獻:

[1]曹忠,趙文靜、一種優化的網絡爬蟲的設計與實作[J].電腦知識與技術,

2008(35):2082-2083.

[2]胡岘.基于Unity桌面環境的搜尋引擎設計與實作[D]國防科技大學,

2013:167-1 69.

[3]徐曉琳.主題搜尋引擎中網絡爬蟲的搜尋政策研究[J].數字化用

戶,2013(23):4-4.

[4]呂俊宏,周江峰.深入解析Cookie技術[J]數字通信世界,2015(6):332-333.

[5]王鳳紅、簡單分布式網絡爬蟲模型的設計與分析[J].中國現代教育裝備,

2008(4):76-78.

[6]Menell PS.Google,PageRank,and Symbiotic Technological Change[J]UC

Berkeley Public Law Research Paper,2012:19-20.

[7]Rogers I.The Google Pagerank algorithm and how it works[J]2012:2-3.

[8]陳麗.Google搜尋引擎架構研究[J]中國科技縱橫,2013(2):56-56.

[9]許劍穎.搜尋引擎發展趨勢研究[J].現代情報,2011(1):51-55.

[10]何震葦,鄒若晨鐘偉彬,鐘偉彬[J].中國經濟和資訊化,2004(24):49-50.

基于python的外賣資料分析-計算機畢業設計源碼+LW文檔
基于python的外賣資料分析-計算機畢業設計源碼+LW文檔
基于python的外賣資料分析-計算機畢業設計源碼+LW文檔