便宜十塊錢: sas index製作可取代耗時耗資源的proc sort

週五要報告進度週四寫好程式
想說讓他在伺服器跑一個晚上應該能跑好
早上上班整理就能過關沒想到早上一來就是斷線的消息~

工作以來資料量越來越大
學生時期還在說超過1G 的資料很難處理
現在都是上百G的...

進度要報告的原始資料大概是17G左右
看過幾百G的時候就覺得10幾G不算啥
而且要用的變數也不多所以刪減之後也不過1G左右
所以寫程式也沒有多擔心~

但是!! 程式當中還是有幾個排序的動作
SAS PROC SORT這個超花時間的程序
就是他!! 當學生的時候
總是可以寫完程式就看日劇電影打三國無雙
玩完之後數據也大概整理好了

現在上班沒有這些東西阿!!!
我還是要裝忙(誤)

唉本來已經想跟老闆投降說做不出來了
後來想想之前老闆的前助理有講過INDEX這東西
可以幫資料創一個號碼
執行起來比PROC SORT快很多

我也找過相關資料研究一下
有技術文件說大概只要1/3的時間就能完成PROC SORT的動作
但是做好INDEX之後要怎麼SET MERGE卻沒有說清楚

現在遇到這麻煩了只好死馬當活馬醫
試試看不成熟的INDEX

結果技術文件騙人
不只可以省3倍時間省更多!!!
(應該是硬體技術成長了技術文件是在奔騰2的CPU環境
現在隨便都是雙核心)

所以嗯就能交差了~~大心

列一下 INDEX製作的語法

PROC datasets library=資料夾名稱;/*暫存的就寫WORK*/
modify 數據名城;
index create 變數；/*要排序單一變數時*/
index create 包裹排序變數代號=(變數1 變數2 變數3....);/*要排序多個變數時*/
RUN;

如果要merge
直接寫merge的語法就行了

merge 數據1 數據2；by 變數；

還有個變化型
例如常用proc sort nodupkey 來排除重複值的
也可以利用

index產生後
寫一段
if 變數=lag(變數) then delete;
這樣就能達到相同的效果( 時間上快很多)

--
人土土金金金

便宜十塊錢

星期五, 7月 17, 2009

sas index製作可取代耗時耗資源的proc sort

沒有留言:

關於我自己

google 搜尋

星期五, 7月 17, 2009

sas index製作 可取代耗時耗資源的proc sort

沒有留言:

sas index製作可取代耗時耗資源的proc sort