天天看點

如何使用shell腳本快速排序和去重檔案資料

  1、首先根據給定指定進行排序

  2、排序後對給定字段進行去重,去重的規則如下:

    a)排序後如果相鄰N行給定字段值相同的行數不超過兩行,則兩行都保留。

    a)排序後如果相鄰N行給定字段值相同的行數超過兩行,則保留首行和尾行。

  就這樣一個業務邏輯,其實看起來并不是太難。但是問題來了,怎麼才能在10~20G的資料中快速地進行處理呢?網上找了很久沒找到相應的處理辦法,于是先用一種相對笨的辦法實作。

  測試資料:

  shell腳本:

<a></a>

  給腳本添加執行權限:

  執行shell腳本

  結果:

  最終結果檔案:

  時間比較趕,先這樣實作吧。哪位親們有好的辦法請告訴我。

本文轉自秋楓部落格園部落格,原文連結:http://www.cnblogs.com/rwxwsblog/p/5638393.html,如需轉載請自行聯系原作者

上一篇: 手動fsck修複
下一篇: SpringDay01