星期五, 7月 17, 2009

sas index製作 可取代耗時耗資源的proc sort

週五要報告進度 週四寫好程式
想說讓他在伺服器跑一個晚上 應該能跑好
早上上班整理就能過關 沒想到早上一來 就是斷線的消息~

工作以來資料量越來越大
學生時期 還在說 超過1G 的資料很難處理
現在 都是上百G的...

進度要報告的原始資料 大概是17G左右
看過幾百G的時候 就覺得10幾G不算啥
而且要用的變數也不多 所以刪減之後 也不過1G左右
所以 寫程式也沒有多擔心~

但是!! 程式當中還是有幾個排序的動作
SAS PROC SORT這個超花時間的程序
就是他!!  當學生的時候
總是可以寫完程式 就看日劇 電影 打三國無雙
玩完之後 數據也大概整理好了

現在上班 沒有這些東西阿!!!
我還是要裝忙(誤)

唉 本來已經想跟老闆投降說 做不出來了
後來想想之前 老闆的前助理有講過INDEX這東西
可以幫資料創一個號碼
執行起來 比PROC SORT快很多

我也找過相關資料研究一下
有技術文件說 大概只要1/3的時間 就能完成PROC SORT的動作
但是 做好INDEX之後 要怎麼SET MERGE卻沒有說清楚

現在 遇到這麻煩了 只好死馬當活馬醫
試試看 不成熟的INDEX

結果 技術文件騙人
不只可以省3倍時間 省更多!!!
(應該是 硬體技術成長了 技術文件 是在奔騰2的CPU環境
現在隨便都是雙核心)

所以 嗯 就能交差了~~大心

列一下 INDEX製作的語法

PROC datasets library=資料夾名稱;/*暫存的就寫WORK*/
modify 數據名城;
index create 變數;/*要排序單一變數時*/
index create 包裹排序變數代號=(變數1 變數2 變數3....);/*要排序多個變數時*/
RUN;

如果要merge
直接寫merge的語法就行了

merge 數據1 數據2;by 變數;

還有個變化型
例如 常用proc sort nodupkey 來排除重複值的
也可以利用

index產生後
寫一段
if 變數=lag(變數) then delete;
這樣就能達到相同的效果( 時間上快很多)





--
人土土金金金

星期日, 7月 12, 2009

TVB武俠港劇

最近會找點TVB武俠港劇的主題曲
黃日華射雕英雄傳 世間始終你好 與 梁朝偉倚天屠龍記 劍伴誰在
作詞都是黃沾 已故的香港四大才子

以前看到 TVB武俠港劇 都會很想看下去
每幾年都會有重播
有時候也會想要蒐集些經典港劇
例如 有周慧敏的大時代
思考有閒散的時間 可以重溫這些經典
但是 也許這些東西很好看
就是有跟別人一起經歷
孤單的品嚐 其實 只是打發時間而已

想要去香港看看 不是那種旅遊的看看
而是想要去那邊生活 工作 有部份自己的人生
還有芝加哥 也想要這樣去那邊晃晃

我不是很喜歡旅行
爸媽以前很喜歡帶我們四處跑跑
可是 我很少玩得開心
只是單純的覺得累而已

中學的時候 有點旅行的夢
國中想要當地理老師 就是想要趁暑假四處走走
把旅外的經歷當作 教學的教材
高中的時候 想要去流浪

大學的時候 不想未來從事會被侷限在一個地方的工作
不想要開店做小生意 因為這樣就會被整個綁住
流行病學讓我以為可以四處去追尋疾病的狀況
就算是在電腦前 也可以心懷四海

到現在 哪裡都不想去
也不想跟陌生人有交往
更不想經營所謂的人際關係

但是 最近開始想要去晃晃
想要有更開廣的人生
而不是只生活工作在台灣

沒有目標的我 開始有了點狂想


 
--
人土土金金金

星期六, 7月 11, 2009

facebook

就這樣登錄facebook還順便把plurk跟facebook串起來
對這兩個東西的第一印象(第一印象很重要) plurk可以使用暱稱 隨意看別人的蹼 很適合喜歡窩在網路的人
facebook 相對起來就私密的多

不過facebook的尋友工具還真是恐怖
一下子就能找到 好幾年沒有聯絡到的人
但是 我還是不要隨意的去打擾人家唄

雖然上面一下子就能找到 不少認識/還在聯絡的人
但是 我也不好意思隨意就把人家加進去

但是想想 至少這東西應該比令人討厭的丁丁大站好 ( Orz 我也會上去看幾個網誌)
blog 真是個神奇的東西 還很難想像這東西才出現幾年
越來越多的書評 心情感想 馬路消息
還橫跨介面的無限整合
不斷掠奪人們稀有的注意力~



--
人土土金金金