天天看點

字元串、檔案操作,英文詞頻統計預處理

這個作業的要求來自于:https://edu.cnblogs.com/campus/gzcc/GZCC-16SE2/homework/2646

1.字元串操作:

  • 解析身份證号:生日、性别、出生地等。

    源代碼:

  • ID=input('請輸入18位身份證号碼:');
    if len(ID) == 18:
        print("你輸入的身份證号碼為"+ID);
    else:
        print("你輸入的身份證号碼有誤!");
    
    ID_add = ID[0:6];
    ID_birth = ID[6:14];
    ID_sex = ID[14:17];
    
    year = ID_birth[0:4];
    month = ID_birth[4:6];
    day = ID_birth[6:8];
    print("你的出生年月日為:"+year+"年"+month+"月"+day+"日");
    
    if int(ID_sex)%2 == 0:
        print("性别:女");
    else:
        print("性别:男");      
    實驗運作結果:
    字元串、檔案操作,英文詞頻統計預處理
  • 凱撒密碼編碼與解碼
    plaincode=input('')
    for i in plaincode:
        print(chr(ord(i)+3),end='')
    plaincode=input('')
    s=ord('a')
    t=ord('z')
    for i in plaincode:
        if s<= ord(i)<=t:
            print(chr(s+(ord(i)-s+3)%26), end='')
        else:
            print(i,end='')      
字元串、檔案操作,英文詞頻統計預處理
  • 網址觀察與批量生成

    我進行觀察與批量生成的網址為廣州商學院官網上的校園新聞版塊,共2527頁的内容。

  • for i in range(2,2526):
        url='http://news.gzcc.cn/html/xiaoyuanxinwen/{}.html'.format(i)
        print(url)      
    字元串、檔案操作,英文詞頻統計預處理

2.英文詞頻統計預處理

  • 下載下傳一首英文的歌詞或文章或小說,儲存為utf8檔案。
  • 從檔案讀出字元串。
  • 将所有大寫轉換為小寫
  • 将所有其他做分隔符(,.?!)替換為空格
  • 分隔出一個一個的單詞
  • 并統計單詞出現的次數。

    我下載下傳的是一篇勵志的英語短片文章,将其儲存為記事本的story.txt格式,并複制到了與源檔案同一目錄下的位置。

f=open('story.txt','r',encoding='utf8')
text=f.read()
f.close()
text=text.lower()
sep=",.?!;"
for s in sep:
    text=text.replace(s,'')
    print(text.split())
    print(text.count('man'),text.count('a'))      
字元串、檔案操作,英文詞頻統計預處理