線性回歸模型預測B站視訊點贊量與收藏量的關系（華農兄弟）

文章目錄

線性回歸模型預測B站視訊點贊量與收藏量的關系（華農兄弟）
前言
一、線性回歸模型
二、擷取資料
三、模型訓練
四、代碼
參考文獻

前言

線性回歸模型可以用來預測資料的走勢。通過對現有資料集的訓練，可以得到一個線型函數Y=w*X+b，通過這個線性函數可以預測出後續的值。

一、線性回歸模型

線型回歸是在假設目标值X與特征值Y有線型相關關系的前提下，通過已知的資料集對線性模型：

【機器學習基礎】線性回歸模型預測B站視訊點贊量與收藏量的關系線性回歸模型預測B站視訊點贊量與收藏量的關系（華農兄弟）前言一、線性回歸模型二、擷取資料三、模型訓練四、代碼參考文獻

進行求解，具體的求解方式為建構損失函數，使得損失函數的值越來越小，直到達到精度要求或者是疊代次數要求。損失函數可以了解為在計算的過程種得到的預測值與真實值之間的差距，使得差距越小，模型就與真實值越相似。損失函數的定義：

要使得損失函數最小，對 Loss(w,b) 最小化。引入梯度下降算法，沿着梯度的方向下降的速度是最快的。每次疊代更新w和b，直到達到要求。

計算 Loss(w,b) 對于w和b的偏導數，分别為(可以将y=w*x+b導入到損失函數中)：

二、擷取資料

爬取BILIBILI上的視訊資訊，本文擷取到“華農兄弟”的視訊資訊。可以參考部落格爬取B站UP的所有視訊細節資訊。取其中的視訊的點贊量和收藏量，對其建立線性回歸模型，預測其關系。視訊點贊量（x軸）與收藏量（y軸）的散點圖如下：

由于資料的集中性很差，需要對資料進行歸一化處理，本文使用最大最小值歸一化。

三、模型訓練

經過訓練得到w=0.7229486928307687 b=0.20322045504258518 訓練後的模型如下：

四、代碼

# 線型回歸模型預測B站視訊點贊量與收藏量的關系（華農兄弟）
import json
import numpy as np
import time
import matplotlib.pyplot as plt
from matplotlib.animation import FuncAnimation

class LR(object):
    def __init__(self, max_iterator = 1000, learn_rate = 0.01):
        self.max_iterator = max_iterator
        self.learn_rate = learn_rate
        self.w = np.random.normal(1, 0.1)
        self.b = np.random.normal(1, 0.1)

    def cal_day(self, release_date, now_date):
        # 計算天數
        start_time = time.mktime(time.strptime(release_date.split(' ')[0], '%Y-%m-%d'))
        end_time = time.mktime(time.strptime(now_date.split(' ')[0], '%Y-%m-%d'))
        return int((end_time - start_time)/(24*60*60))


    def load_data(self, url):
        with open(url, 'r', encoding='utf-8') as f:
            data_dect = json.load(f)
        # print(data_dect)
        
        # 視訊播放數量以及釋出距離現在的天數
        watched_number_list = []
        time_list = []
        dm_number_list = []
        liked_list = []
        collected_list = []
        for sample in data_dect:
            # 去掉壞點
            if sample['watched'] != '':
                watched_number_list.append([float(sample['watched'])]) #觀看數量
                liked_list.append([float(sample['liked'])])	#點贊數
                collected_list.append([float(sample['collected'])])	#收藏數
                dm_number_list.append([float(sample['bullet_comments'])])	#彈幕數
                time_list.append([float(self.cal_day(sample['date'], sample['now_date']))]) #視訊釋出距離現在時間

        return np.array(time_list), np.array(watched_number_list), np.array(liked_list), np.array(collected_list), np.array(dm_number_list)

    def train_set_normalize(self, train_set):
        data_range = np.max(train_set) - np.min(train_set)
        return (train_set - np.min(train_set)) / data_range



    def cal_gradient(self, x, y):
    	# 計算梯度
        # print(x, y)
        dw = np.mean((x * self.w + self.b - y) * x)
        db = np.mean(self.b + x * self.w - y)
        return dw, db
    
    
    def train(self, x, y):
        # 訓練模型，使用梯度下降
        train_w = []
        train_b = []
        for i in range(self.max_iterator):
            print(self.w, self.b)
            train_w.append(self.w)
            train_b.append(self.b)
            i += 1
            # 計算梯度值，向着梯度下降的方向
            dw, db = self.cal_gradient(x, y)
            self.w -= self.learn_rate*dw
            self.b -= self.learn_rate*db
        return train_w, train_b

    def predict(self, x):
        # 預測
        return x * self.w + self.b
    
    def myplot(self, x, y, train_w, train_b):
        
        plt.pause(2)
        plt.ion()
        # 動态繪圖
        for i in range(0, self.max_iterator, 30):
            
            plt.clf()
            # 原始散點圖
            plt.scatter(x, y, marker = 'o',color = 'yellow', s = 40)
            plt.xlabel('liked')
            plt.ylabel('collected')
            plt.plot(x, train_w[i] * x  + train_b[i], c='red')
            plt.title('step: %d learning-rate: %.2f function: y=%.2f * x + %.2f' %(i, self.learn_rate, train_w[i], train_b[i]))
            plt.pause(0.5) 
            
        plt.show()
        plt.ioff()
        plt.pause(200)

        
  


lr = LR()
time_list, watched_number_list, liked_list, collected_list, dm_number_list = lr.load_data(r'2020\Crawl\Bilibili\Item1\data\video_detial.json')
# 需要對資料進行歸一化處理

tw, tb = lr.train(lr.train_set_normalize(liked_list), lr.train_set_normalize(collected_list))
lr.myplot(lr.train_set_normalize(liked_list), lr.train_set_normalize(collected_list), tw, tb)

參考文獻

https://www.cnblogs.com/geo-will/p/10468253.html

【機器學習基礎】線性回歸模型預測B站視訊點贊量與收藏量的關系線性回歸模型預測B站視訊點贊量與收藏量的關系（華農兄弟）前言一、線性回歸模型二、擷取資料三、模型訓練四、代碼參考文獻

線性回歸模型預測B站視訊點贊量與收藏量的關系（華農兄弟）

文章目錄

前言

一、線性回歸模型

二、擷取資料

三、模型訓練

四、代碼

參考文獻

繼續閱讀

XGBoost Plotting API以及GBDT組合特征實踐 XGBoost Plotting API以及GBDT組合特征實踐

解碼器用于語義分割：資料依賴的解碼可以實作靈活的特征聚合

YAML簡介和PyYAML安全操作YAML支援的類型YAML的優點：yaml的基本文法python操作

2021-2025年中國運動療法（KT）帶行業市場供需與戰略研究報告

Small tricks

libsvm for python 安裝

學習軟體測試基礎測試第七天

Zeppelin 配置通路 REST APIApache Zeppelin Configuration REST API

【Torch】最簡潔logging使用指南

27. Remove Element(清單)題目代碼

Cloud Studio初體驗

使用 ctypes 進行 Python 和 C 的混合程式設計

【python】【資料處理】畫多元資料分布圖

【python】netconf協定對接管理裝置

「Python 網絡自動化」NETCONF —— Python 使用 NETCONF 管理配置 H3C 網絡裝置

在python中建立excel并寫入