将汉字转为拼音。可以用于汉字注音、排序、检索(Russian translation) 。
最初版本的代码参考了 hotoo/pinyin 的实现。
>>> from pypinyin import pinyin, lazy_pinyin, Style >>> pinyin('中心') # or pinyin(['中心']),参数值为列表时表示输入的是已分词后的数据 [['zhōng'], ['xīn']] >>> pinyin('中心', heteronym=True) # 启用多音字模式 [['zhōng', 'zhòng'], ['xīn']] >>> pinyin('中心', style=Style.FIRST_LETTER) # 设置拼音风格 [['z'], ['x']] >>> pinyin('中心', style=Style.TONE2, heteronym=True) [['zho1ng', 'zho4ng'], ['xi1n']] >>> pinyin('中心', style=Style.TONE3, heteronym=True) [['zhong1', 'zhong4'], ['xin1']] >>> pinyin('中心', style=Style.BOPOMOFO) # 注音风格 [['ㄓㄨㄥ'], ['ㄒㄧㄣ']] >>> lazy_pinyin('威妥玛拼音', style=Style.WADEGILES) ['wei', "t'o", 'ma', "p'in", 'yin'] >>> lazy_pinyin('中心') # 不考虑多音字的情况 ['zhong', 'xin'] >>> lazy_pinyin('战略', v_to_u=True) # 不使用 v 表示 ü ['zhan', 'lüe'] # 使用 5 标识轻声 >>> lazy_pinyin('衣裳', style=Style.TONE3, neutral_tone_with_five=True) ['yi1', 'shang5'] # 变调 nǐ hǎo -> ní hǎo >>> lazy_pinyin('你好', style=Style.TONE2, tone_sandhi=True) ['ni2', 'ha3o']
注意事项 :
neutral_tone_with_five=True
开启使用 5
标识轻声 )。v
表示 ü
(可以通过参数 v_to_u=True
开启使用 ü
代替 v
)。嗯
的拼音并不是大部分人以为的 en
以及存在既没有声母也没有韵母的拼音,详见下方 FAQ 中的说明。命令行工具:
$ pypinyin 音乐 yīn yuè $ python -m pypinyin.tools.toneconvert to-tone 'zhong4 xin1' zhòng xīn
详细文档请访问:https://pypinyin.readthedocs.io/。
项目代码开发方面的问题可以看看 开发文档 。
可以通过下面的方法提高拼音准确性:
>> from pypinyin import load_phrases_dict, load_single_dict >> load_phrases_dict({'桔子': [['jú'], ['zǐ']]}) # 增加 "桔子" 词组 >> load_single_dict({ord('还'): 'hái,huán'}) # 调整 "还" 字的拼音顺序或覆盖默认拼音
# 使用 phrase-pinyin-data 项目中 cc_cedict.txt 文件中的拼音数据优化结果 >>> from pypinyin_dict.phrase_pinyin_data import cc_cedict >>> cc_cedict.load() # 使用 pinyin-data 项目中 kXHC1983.txt 文件中的拼音数据优化结果 >>> from pypinyin_dict.pinyin_data import kxhc1983 >>> kxhc1983.load()
>>> # 使用其他分词模块分词,比如 jieba 之类, >>> #或者基于 phrases_dict.py 里的词语数据使用其他分词算法分词 >>> words = list(jieba.cut('每股24.67美元的确定性协议')) >>> pinyin(words)
>>> from pypinyin import Style, pinyin >>> pinyin('下雨天', style=Style.INITIALS) [['x'], [''], ['t']]
因为根据 《汉语拼音方案》 , y,w,ü (yu) 都不是声母。
声母风格(INITIALS)下,“雨”、“我”、“圆”等汉字返回空字符串,因为根据 《汉语拼音方案》 , y,w,ü (yu) 都不是声母,在某些特定韵母无声母时,才加上 y 或 w,而 ü 也有其特定规则。 —— @hotoo
如果你觉得这个给你带来了麻烦,那么也请小心一些无声母的汉字(如“啊”、“饿”、“按”、“昂”等)。 这时候你也许需要的是首字母风格(FIRST_LETTER)。 —— @hotoo
参考: hotoo/pinyin#57, #22, #27, #44
如果觉得这个行为不是你想要的,就是想把 y 当成声母的话,可以指定 strict=False
, 这个可能会符合你的预期:
>>> from pypinyin import Style, pinyin >>> pinyin('下雨天', style=Style.INITIALS) [['x'], [''], ['t']] >>> pinyin('下雨天', style=Style.INITIALS, strict=False) [['x'], ['y'], ['t']]
详见 strict 参数的影响 。
是的,strict=True
模式下存在极少数既没有声母也没有韵母的拼音。 比如下面这些拼音(来自汉字 嗯
、呒
、呣
、唔
):
ń ńg ňg ǹg ň ǹ m̄ ḿ m̀
尤其需要注意的是 嗯
的所有拼音都既没有声母也没有韵母,呣
的默认拼音既没有声母也没有韵母。 详见 #109 #259 #284 。
可以通过 pypinyin.contrib.tone_convert
模块提供的辅助函数对标准拼音进行转换,得到不同风格的拼音。 比如将 zhōng
转换为 zhong
,或者获取拼音中的声母或韵母数据:
>>> from pypinyin.contrib.tone_convert import to_normal, to_tone, to_initials, to_finals >>> to_normal('zhōng') 'zhong' >>> to_tone('zhong1') 'zhōng' >>> to_initials('zhōng') 'zh' >>> to_finals('zhōng') 'ong'
更多拼音转换的辅助函数,详见 pypinyin.contrib.tone_convert
模块的 文档 。
如果对拼音的准确性不是特别在意的话,可以通过设置环境变量 PYPINYIN_NO_PHRASES
和 PYPINYIN_NO_DICT_COPY
来节省内存。 详见 文档
更多 FAQ 详见文档中的 FAQ 部分。
RetroSearch is an open source project built by @garambo | Open a GitHub Issue
Search and Browse the WWW like it's 1997 | Search results from DuckDuckGo
HTML:
3.2
| Encoding:
UTF-8
| Version:
0.7.4