python将txt转为字符串_Python玩转《生僻字》

茕茕孑立沆瀣一气

踽踽独行醍醐灌顶

绵绵瓜瓞奉为圭臬

龙行龘龘犄角旮旯

娉婷袅娜涕泗滂沱

呶呶不休不稂不莠

这首《生僻字》，考验的是“语文”硬实力。倘若实力不够，其实可以拿Python来凑，毕竟库多！今天就来说一个有意思的pypinyin库，名字很直白，是python版的拼音库，用来将汉字转为拼音。

先来看下代码运行效果，比较喜欢将结果print到命令行中的样式：

当然，正规的操作是读取汉字txt文本，通过代码生成注音txt文本：

python将txt转为字符串_Python玩转《生僻字》

思路

很简单，拼音库可以把汉字转化为拼音，那我们要做的就是读取文本，获取拼音，最后将文本和拼音重新拼接。高深的算法没有，基本围绕字符串和列表的操作拼接，有兴趣的朋友可以体验下。

pypinyin库

首先是安装，pip install pypinyin

装好后引入模块from pypinyin import pinyin

调用 pinyin(“生僻字”)，即可得到拼音列表 [['shēng'], ['pì'], ['zì']]

读写txt文本

基本是入门阶段读写txt文件的简单应用：

txt_name = "生僻字"
with open("%s.txt"%txt_name,encoding="UTF-8-sig") as f:
    content = f.read()
    input_str = content
result = transfer(input_str)
print(result)
with open("%s_拼音.txt"%txt_name,'w',encoding='UTF-8-sig') as m:
    m.write(result)

拼接

首先会对读入的文本进行整理，去除多余的空格，将字符串中的汉字与列表中的拼音一一对应并拼接。

由于中文字符占两个字节，以及读写txt时会涉及到编码格式，这部分代码比较费功夫，只能说勉强做到格式整齐吧。

def transfer(text):
    #去除字符串中空格
    no_space_text = ''.join(text.split(" "))
    raw_list = []
    temp = ""
    for i in range(len(no_space_text)):
        if is_Chinese(no_space_text[i]):
            if temp != "":
                raw_list.append(temp)
                temp=""
            raw_list.append(no_space_text[i])
        else:
            temp+=no_space_text[i]
    #生成拼音列表
    pylist = pinyin(no_space_text)

    #将拼音列表和字符串拼接对齐
    text_list = []
    pinyin_list = []

    for i in range(len(raw_list)):
        if is_Chinese(raw_list[i]):
            pinyin_list.append(pylist[i][0].ljust(6, ' '))
            text_list.append(raw_list[i].ljust(5,' '))
        else:
            pinyin_list.append(pylist[i][0])
            text_list.append(raw_list[i])

    pinyin_str = ''.join(pinyin_list)
    text_str = ''.join(text_list)

    pinyin_line_list = pinyin_str.split('n')
    text_line_list = text_str.split("n")
    final_result = ""
    for i in range(len(pinyin_line_list)):
        final_result += pinyin_line_list[i] + 'n' + text_line_list[i] + "n"
    return final_result

回顾

最初接触一个读取剪贴板内容的pyperclip模块，琢磨对剪贴板中字符串如何操作。恰巧听到《生僻字》，觉得既然逐字查拼音是个麻烦事，何不通过Python来批量添加拼音呢？很幸运，还真有大佬写了这个pypinyin库，在Github上也已有1500多颗星了~

昨天完成的部分代码，是对剪贴板中复制的内容添加拼音，感觉实用性不强且操作不方便，故今天修改为读取txt文本生成注音版本。

代码下载

Github代码下载

代码中有两点，在这记录下：

读写txt文档时，encoding="UTF-8-sig"是为了去除utf-8带的BOM头'ufeff'
通常汉字都在'u4e00' 和 'u9fff之间，但是生僻字如“㙓” 位于拓展库 'u3400' 到 'u4DB5'之间参考链接

最后

最后再放个《离骚》文本的注音，先txt文本：

python将txt转为字符串_Python玩转《生僻字》

以及偏爱的命令行格式：

python将txt转为字符串_Python玩转《生僻字》

后记：示例中，“腌臢”被注音成了"yan za"，原因是该拼音库只收录了简体版的“腌臜”并未有收“腌臢 ”，修改为简体版后会显示正常。

python将txt转为字符串_Python玩转《生僻字》

思路

pypinyin库

读写txt文本

拼接

回顾

代码下载

最后

继续阅读

python将txt转为字符串_Python文件读写指南

python将txt转为字符串_Python处理文件的几个常用小知识Python处理文件的几个常用小知识本文来自公众号读者投稿，欢迎各位童鞋向公号投稿，点击下面图片了解详情！

python写文件追加按行追加_一文搞懂Python文件读写

python3 打印目录下所有模块_文件操作So Easy！来，一起体验下Python的Pathlib模块~...

python将txt转为字符串_Python 文件I/O

python将txt转为字符串_Python 玩转生僻字读写txt文本