天天看點

字元串、檔案操作,英文詞頻統計預處理

1.字元串操作:

1.1解析身份證号:生日、性别、出生地等。

# -*- coding : utf-8 -*-
IdCard=input('請你輸入18位身份證号碼')
while(len(IdCard)!=18):
    print('你輸入的身份證号碼長度有誤,請你重新輸入')
    IdCard=input()
if(len(IdCard)==18):
    print('你的身份證号碼為'+IdCard)
year=IdCard[6:10];
month=IdCard[10:12];
day=IdCard[12:14];
print("你的出生年月日為:"+year+"年"+month+"月"+day+"日");
if int(IdCard[16])%2 ==0:
    print("你的性别為女");
else:
    print("你的性别為男");      
字元串、檔案操作,英文詞頻統計預處理

1.2 凱撒密碼編碼與解碼

ksmm=input('請輸入你要加密的英文單詞:')
str=''
ksmm=ksmm.lower()
for i in range(len(ksmm)):
    ksmm.split()
    if(ord(ksmm[i]) >=99 and ord(ksmm[i]) <=999):
        str=str + (chr(ord(ksmm[i])+7))
    else:
        str = str + ksmm[i]
print(str)      
字元串、檔案操作,英文詞頻統計預處理

1.3網址觀察與批量生成

import  webbrowser as web
url='http://news.gzcc.cn/html/xiaoyuanxinwen/'
web.open_new_tab(url)
for i in range(2,4):
    web.open_new_tab('http://news.gzcc.cn/html/xiaoyuanxinwen/'+str(i)+'.html')      

      

字元串、檔案操作,英文詞頻統計預處理

2.英文詞頻統計預處理

  • 下載下傳一首英文的歌詞或文章或小說,儲存為utf8檔案。
  • 從檔案讀出字元串。
  • 将所有大寫轉換為小寫
  • 将所有其他做分隔符(,.?!)替換為空格
  • 分隔出一個一個的單詞
  • 并統計單詞出現的次數。
f = open('C:\\Users\\unliee\\Desktop\\hello_1.txt','r',encoding='utf-8')
text = f.read()
print(text)
print(text.split())
print(text.count('big'),text.count('world'))
f.close()      
字元串、檔案操作,英文詞頻統計預處理
字元串、檔案操作,英文詞頻統計預處理