《SAS程式設計與資料挖掘商業案例》學習筆記之四

2023-06-26 23:11:50

5.雙set語句的應用(2個指針，一個pdv)

libname chapt3 'f:\data_model\book_data\chapt3';

data percent;

if _n_ = 1 then

set chapt3.summary(keep = cargosum);

set chapt3.empcount;

pctemps = numemps / cargosum;

run;

解讀：編譯後，記憶體中會出現雙指針；同時生成一個pdv；

首先在記憶體中開辟一個pdv，讀取資料集summary的第一個觀測，讀取變量cargosum的值并保留；

再讀取第二個資料集empcount，并計算pctemps=numemps / cargosum；輸出資料并傳回到data;

此時if語句不再執行，讀取資料集empcount的第二條觀測，并計算pctemps=numemps / cargosum；如此循環直到讀完empcount。

在商業實戰中最長見有兩種情況：一種是按照索引比對和更新資料；另一種是按照某一個變量排序，對排序變量實行set/set操作。

expenses含有flightid fltdate expenses三個變量

incomes含有flightid fltdate incomes三個變量

兩個表關聯一起的實作可以用proc sql的形式很容易的實作，但是當資料量大時，利用set/set語句的效率遠遠高于sql，尤其是對查詢表履歷索引之後。

proc datasets lib=chapt2;

modify income;

index create dteflt=(flightid fltdate)/nomiss unique;

quit;

data profit errors;

set chapt3.expenses;

set chapt3.income key = dteflt;

if _iorc_ = 0 then do;

profit =sum(income,- expenses);;

output profit;

end;

else do;

_error_ = 0;

output errors;

end;

run;

語句 key = dteflt是利用索引鍵來比對兩個表資料，自動生成的變量_iorc_ 為0，表示比對成功，_error_為0表示無錯誤資訊

總結如下：

對于兩個表有相同的表結構且被查詢的表已經建立了基于該相同變量的索引的情況下，set/set語句是最高效的方式；

主表的指針一般是從第一天一直掃描到最後一條，不走回頭路，但是對于被查詢表，可以根據索引跳躍資料指針；

對應的主表和建立索引的被查詢表一般不再排序；

《SAS程式設計與資料挖掘商業案例》學習筆記之四

繼續閱讀

資料結構~11.串資料結構~11.串

C連結清單冒泡排序（交換節點排序）

Leetcode26-28,這幾道簡單有趣的算法題你都會嗎？

程式員的工齡vs發量！剛實習的小夥，你要挺住！

C語言中指針前後有const 修飾各自表達什麼意思

指針的基本知識與常見錯誤指針的基本知識與常見錯誤

const和指針的交叉問題

指針-輸入3個數，調用函數，從大到小排列輸出

C#關鍵字out與ref的差別

iOS OC中copy和mutableCopy的使用差別

通過指針調用函數，實作求兩個數的最大值

指針的種種

按條件導出excel資料

C++指針詳解指針的概念指針的類型指針所指向的類型指針的值指針本身所占據的記憶體區指針的算術運算運算符&和*指針表達式數組和指針的關系指針和結構類型的關系指針和函數的關系

golang快速入門-13-golang的結構體struct

DOG（4）：解析器的部分實作細節先來說說parser一些可能迷惑的地方結果如何傳回?pcd其實是一回事最後的一點說明