天天看點

字元串、檔案操作,英文詞頻統計預處理

這個作業的要求來自于:https://edu.cnblogs.com/campus/gzcc/GZCC-16SE2/homework/2620。

1.字元串操作:

  • 解析身份證号:生日、性别、出生地等。
    • 代碼如下
    • # -*- coding: utf-8 -*-
      def isSex(idSex):
          if int(idSex)%2==1:
              print("性别為:男")
          else:
              print('性别為:女')
      
      idCard = input("請輸入身份證号碼:")
      if len(idCard) != 18:
          isTure = 0
          while(isTure == 0):
              idCard = input('身份證位數有誤!!!請重新輸入:')
              if len(idCard) == 18:
                  isTure =1
      print('位址資訊為:%s'% idCard[:6])
      print('生日為:{0}年{1}月{2}日'.format(idCard[6:10],idCard[10:12],idCard[12:14]) )
      isSex(idCard[16:17])      
    • 運作效果
    • 字元串、檔案操作,英文詞頻統計預處理
  • 凱撒密碼編碼與解碼
    • 在密碼學中,恺撒密碼是一種最簡單且最廣為人知的加密技術。它是一種替換加密的技術,明文中的所有字母都在字母表上向後(或向前)按照一個固定數目進行偏移後被替換成密文。網址觀察與批量生成
    • 偏碼代碼如下:
    • # -*- coding: utf-8 -*-
      pianMa = ""
      text = input("請輸入要編碼的話:")
      for s in text:
          pianMa = pianMa + chr(ord(s)+3)
      print(pianMa)      
    • 字元串、檔案操作,英文詞頻統計預處理
      解碼代碼如下
    • # -*- coding: utf-8 -*-
      pianMa = ""
      text = input("請輸入要編碼的話:")
      for s in text:
          pianMa = pianMa + chr(ord(s)-3)
      print(pianMa)      
      運作效果如下
    • 字元串、檔案操作,英文詞頻統計預處理
# -*- coding: utf-8 -*-
import  webbrowser as web
url='http://news.gzcc.cn/html/xiaoyuanxinwen/'
web.open_new_tab(url)
for i in range(2,4):
     print('http://news.gzcc.cn/html/xiaoyuanxinwen/'+str(i)+'.html')      

打開網址效果

字元串、檔案操作,英文詞頻統計預處理

網址生成效果如下:

字元串、檔案操作,英文詞頻統計預處理

2.英文詞頻統計預處理

  • 下載下傳一首英文的歌詞或文章或小說,儲存為utf8檔案。
  • 從檔案讀出字元串。
  • 将所有大寫轉換為小寫
  • 将所有其他做分隔符(,.?!)替換為空格
  • 分隔出一個一個的單詞
  • 并統計單詞出現的次數。

代碼如下:

# -*- coding: utf-8 -*-
# 讀取檔案

f = open("wenzhang.txt","r")
text = f.read()
f.close()

# 轉為小寫
text = text.lower()
# 将所有其他做分隔符(,.?!)替換為空格
text = text.replace(","," ").replace("."," ").replace("?"," ").replace("!"," ")
# 分割為單詞
text = text.split()

print("our的個數為:",text.count("our"))      

運作結果如下:

字元串、檔案操作,英文詞頻統計預處理