天天看点

Python 数据处理,切片,替换,去重,排序

一、把下面这组数据进行处理,进行规则排序。

<a href="http://s3.51cto.com/wyfs02/M00/70/33/wKiom1W0Pc6jCEM6AACvT06AFio287.jpg" target="_blank"></a>

第一版代码:

1

2

3

4

5

6

7

8

9

10

11

12

13

14

15

16

17

18

19

20

21

22

23

24

25

26

27

28

29

30

31

32

33

34

35

36

37

38

39

40

41

42

43

44

45

46

47

48

49

50

51

52

53

54

55

56

57

<code>#!/usr/local/python3/bin/python3</code>

<code>#定义了一个函数,用来做数据的分隔符转换,保证数据风格的一致,才能有效排序。</code>

<code>def</code> <code>sanitize(time_string):   </code>

<code>    </code><code>if</code> <code>'-'</code> <code>in</code> <code>time_string:    </code>

<code>        </code><code>splitter</code><code>=</code><code>'-'</code>

<code>    </code><code>elif</code> <code>':'</code> <code>in</code> <code>time_string:</code>

<code>        </code><code>splitter</code><code>=</code><code>':'</code>

<code>    </code><code>else</code><code>:</code>

<code>        </code><code>return</code><code>(time_string)</code>

<code>#将取到的一段数据,通过判断中定义的分割符切开为两组,分别报存到mins,secs变量中。</code>

<code>    </code><code>(mins,secs) </code><code>=</code> <code>time_string.split(splitter) </code>

<code>#在返回结果的时候,完成字符串合并。</code>

<code>    </code><code>return</code><code>(mins </code><code>+</code> <code>'.'</code> <code>+</code> <code>secs)   </code>

<code>#使用with open打开文件,和open不同于with open会自动关闭文件,不需要手动关闭。    </code>

<code>with </code><code>open</code><code>(</code><code>'james'</code><code>) as jam:</code>

<code>    </code><code>data </code><code>=</code> <code>jam.readline()</code>

<code>#把数据进行首尾去空格,使用,最为分隔符切分。    </code>

<code>james1 </code><code>=</code> <code>data.strip().split(</code><code>','</code><code>)</code>

<code>#这里也可以通过这种方式排序,在最后输出的时候,直接输出james2就可以了。</code>

<code>#james2 = sorted(james1)</code>

<code>with </code><code>open</code><code>(</code><code>'julie'</code><code>) as jul:</code>

<code>    </code><code>data </code><code>=</code> <code>jul.readline()</code>

<code>julie1 </code><code>=</code> <code>data.strip().split(</code><code>','</code><code>)</code>

<code>#julie2 = sorted(julie1)</code>

<code>with </code><code>open</code><code>(</code><code>'mikey'</code><code>) as mik:</code>

<code>    </code><code>data </code><code>=</code> <code>mik.readline()</code>

<code>mikey1 </code><code>=</code> <code>data.strip().split(</code><code>','</code><code>)</code>

<code>#mikey2 = sorted(mikey1)</code>

<code>with </code><code>open</code><code>(</code><code>'sarah'</code><code>) as sar:</code>

<code>    </code><code>data </code><code>=</code> <code>sar.readline()</code>

<code>sarah1 </code><code>=</code> <code>data.strip().split(</code><code>','</code><code>)</code>

<code>#sarah2 = sorted(sarah1)</code>

<code>clean_james</code><code>=</code><code>[]</code>

<code>clean_julie</code><code>=</code><code>[]</code>

<code>clean_mikey</code><code>=</code><code>[]</code>

<code>clean_sarah</code><code>=</code><code>[]</code>

<code>#通过迭代每组数据,调用sanitize函数,再把转换好的数据添加到新的列表中,这样列表中的数据风格就是一致的。</code>

<code>for</code> <code>each_t </code><code>in</code> <code>james1:</code>

<code>    </code><code>clean_james.append(sanitize(each_t))  </code>

<code>for</code> <code>each_t </code><code>in</code> <code>julie1:</code>

<code>    </code><code>clean_julie.append(sanitize(each_t))</code>

<code>for</code> <code>each_t </code><code>in</code> <code>mikey1:</code>

<code>    </code><code>clean_mikey.append(sanitize(each_t))</code>

<code>for</code> <code>each_t </code><code>in</code> <code>sarah1:</code>

<code>    </code><code>clean_sarah.append(sanitize(each_t))</code>

<code>#输出新列表并排序</code>

<code>print</code><code>(</code><code>sorted</code><code>(clean_james)) </code>

<code>print</code><code>(</code><code>sorted</code><code>(clean_julie))</code>

<code>print</code><code>(</code><code>sorted</code><code>(clean_mikey))</code>

<code>print</code><code>(</code><code>sorted</code><code>(clean_sarah))</code>

输出结果:

<a href="http://s3.51cto.com/wyfs02/M01/70/31/wKioL1W0RvWi_6MbAADcTt72ius974.jpg" target="_blank"></a>

这就完成了规则排序。

二、需要给数据去重复,排序,只输出前三项数据。

第二版代码:

58

59

60

61

62

63

64

65

66

67

68

69

70

<code>def</code> <code>sanitize(time_string):</code>

<code>    </code><code>if</code> <code>'-'</code> <code>in</code> <code>time_string:</code>

<code>    </code><code>(mins,secs) </code><code>=</code> <code>time_string.split(splitter)</code>

<code>    </code><code>return</code><code>(mins </code><code>+</code> <code>'.'</code> <code>+</code> <code>secs)</code>

<code>#定义函数来解决去除重复数据项的问题,此函数接受两个列表作为参数带入,当数据不存在新列表中就把数据添加到新列表,如果有存在则不会添加,代替了下面使用每个列表使用for迭代的方式,代码更简洁。    </code>

<code>def</code> <code>pomoto(old_list,new_list):</code>

<code>    </code><code>for</code> <code>i </code><code>in</code> <code>old_list:</code>

<code>        </code><code>if</code> <code>i </code><code>not</code> <code>in</code> <code>new_list:</code>

<code>            </code><code>new_list.append(i)</code>

<code>unique_james </code><code>=</code> <code>[]</code>

<code>unique_julie </code><code>=</code> <code>[]</code>

<code>unique_sarah </code><code>=</code> <code>[]</code>

<code>unique_mikey </code><code>=</code> <code>[]</code>

<code>#从迭代的方式改为了列表推导的方式</code>

<code>clean_james </code><code>=</code> <code>sorted</code><code>([sanitize(each_t) </code><code>for</code> <code>each_t </code><code>in</code> <code>james1])</code>

<code>clean_julie </code><code>=</code> <code>sorted</code><code>([sanitize(each_t) </code><code>for</code> <code>each_t </code><code>in</code> <code>julie1])</code>

<code>clean_mikey </code><code>=</code> <code>sorted</code><code>([sanitize(each_t) </code><code>for</code> <code>each_t </code><code>in</code> <code>mikey1])</code>

<code>clean_sarah </code><code>=</code> <code>sorted</code><code>([sanitize(each_t) </code><code>for</code> <code>each_t </code><code>in</code> <code>sarah1])</code>

<code>#调用函数完成去重复</code>

<code>pomoto(clean_james,unique_james)</code>

<code>pomoto(clean_julie,unique_julie)</code>

<code>pomoto(clean_mikey,unique_mikey)</code>

<code>pomoto(clean_sarah,unique_sarah)</code>

<code>#每列表迭代方式的去重复</code>

<code>#for i in clean_james:</code>

<code>#    if i not in unique_james:</code>

<code>#        unique_james.append(i)</code>

<code>#for i in clean_julie:</code>

<code>#    if i not in unique_julie:</code>

<code>#        unique_julie.append(i)</code>

<code>#for i in clean_mikey:</code>

<code>#    if i not in unique_mikey:</code>

<code>#        unique_mikey.append(i)</code>

<code>#for i in clean_sarah:</code>

<code>#    if i not in unique_sarah:</code>

<code>#        unique_sarah.append(i)</code>

<code>#输出去重复后的唯一新列表,只打印前三项数据</code>

<code>print</code><code>(unique_james[</code><code>0</code><code>:</code><code>3</code><code>])</code>

<code>print</code><code>(unique_julie[</code><code>0</code><code>:</code><code>3</code><code>])</code>

<code>print</code><code>(unique_mikey[</code><code>0</code><code>:</code><code>3</code><code>])</code>

<code>print</code><code>(unique_sarah[</code><code>0</code><code>:</code><code>3</code><code>])</code>

<a href="http://s3.51cto.com/wyfs02/M00/70/32/wKioL1W0S4iTXXCsAABhehYxaX0484.jpg" target="_blank"></a>

三、使用集合删除重复项,将重复的with open定义为函数,简洁代码,进行逆序排序,输出前三项。

第三版代码:

<code>    </code> 

<code>#定义函数打开文件获取数据返回,并加入了错误处理代码。</code>

<code>def</code> <code>get_file_data(filename):</code>

<code>    </code><code>try</code><code>:</code>

<code>        </code><code>with </code><code>open</code><code>(filename) as f:</code>

<code>            </code><code>data </code><code>=</code> <code>f.readline()</code>

<code>        </code><code>return</code><code>(data.strip().split(</code><code>','</code><code>))</code>

<code>    </code><code>except</code> <code>IOError as ioerr:</code>

<code>        </code><code>print</code><code>(</code><code>'File error'</code> <code>+</code> <code>str</code><code>(ioerr))</code>

<code>        </code><code>return</code><code>(</code><code>None</code><code>)</code>

<code>#调用函数直接得到文件中经过切片后的数据。  </code>

<code>james1 </code><code>=</code> <code>get_file_data(</code><code>'james'</code><code>)</code>

<code>julie1 </code><code>=</code> <code>get_file_data(</code><code>'julie'</code><code>)</code>

<code>mikey1 </code><code>=</code> <code>get_file_data(</code><code>'mikey'</code><code>)</code>

<code>sarah1 </code><code>=</code> <code>get_file_data(</code><code>'sarah'</code><code>)</code>

<code>print</code><code>(</code><code>sorted</code><code>(</code><code>set</code><code>([sanitize(i) </code><code>for</code> <code>i </code><code>in</code> <code>james1]),reverse</code><code>=</code><code>True</code><code>)[</code><code>0</code><code>:</code><code>3</code><code>])</code>

<code>print</code><code>(</code><code>sorted</code><code>(</code><code>set</code><code>([sanitize(i) </code><code>for</code> <code>i </code><code>in</code> <code>julie1]),reverse</code><code>=</code><code>True</code><code>)[</code><code>0</code><code>:</code><code>3</code><code>])</code>

<code>print</code><code>(</code><code>sorted</code><code>(</code><code>set</code><code>([sanitize(i) </code><code>for</code> <code>i </code><code>in</code> <code>mikey1]),reverse</code><code>=</code><code>True</code><code>)[</code><code>0</code><code>:</code><code>3</code><code>])</code>

<code>print</code><code>(</code><code>sorted</code><code>(</code><code>set</code><code>([sanitize(i) </code><code>for</code> <code>i </code><code>in</code> <code>sarah1]),reverse</code><code>=</code><code>True</code><code>)[</code><code>0</code><code>:</code><code>3</code><code>])</code>

<a href="http://s3.51cto.com/wyfs02/M02/70/37/wKiom1W0WGizgEvUAABfXXwVwfM221.jpg" target="_blank"></a>

定义get_file_data函数代替了,多行的with open,使得代码简洁。

<a href="http://s3.51cto.com/wyfs02/M01/70/37/wKiom1W0WPLwTbfDAAEOINoQmqY626.jpg" target="_blank"></a>

Python 集合数据结构:集合中的数据项是无序的,而且不允许重复的,这和我们数学中的集合很像。

<a href="http://s3.51cto.com/wyfs02/M00/70/37/wKiom1W0WnvD9MAnAACrJyNrpKc193.jpg" target="_blank"></a>

最后print输出代码:

<a href="http://s3.51cto.com/wyfs02/M01/70/34/wKioL1W0XojDpMvHAADyLuhrjY8699.jpg" target="_blank"></a>

本文转自qw87112 51CTO博客,原文链接:http://blog.51cto.com/tchuairen/1678435