了解它!
KAKASI(Kanji Kana Simple Inverter)是语言处理过滤器,可以将 日文汉字 转换成 平假名,片假名或Romaji ,可以方便阅读日文文本 以及给日语学习者提供便利。
比如把漢字
转换成かんじ
/kanji
。
例子
在命令行中( 我用的是mac的terminal win的不太确定 )
# input.txt# 漢字#% lsinput.txt% kakasi -JH <input.txt -i utf8 -o utf8かんじ
获得它!
下载
? 英文主页
? 日文主页
安装
把下载到的压缩包(.tar.gx
或.tar.xz
)解压
% gzip -dc kakasi-2.3.6.tar.gz | tar xvf -
进入到解压出来的文件夹中
% cd kakasi-2.3.6
你可以看到文件夹中有以下内容
% lsAUTHORSNEWS config.guess* install-sh* ltmain.shCOPYINGONEWS config.h.in itaijidict magic-kakasiChangeLog READMEconfig.rpath* kakasi-config.in maintMakefileINSTALLREADME-ja config.sub* kakasi.spec man/INSTALL-ja THANKSconfigure*kakasi.spec.in missing*Makefile.am TODO configure.in kakasidict src/Makefile.in aclocal.m4 doc/ lib/ tests/
依次输出以下命令就可以完成安装
% ./configure% make% su# make install
确认
如果没有意外,到这里你已经成功安装kakasi
!
你可以通过以下命令来确认是否安装完毕。
# kakasi -help
它会返回如下一个命令提示
KAKASI - Kanji Kana Simple Inverter Version 2.3.6Copyright (C) 1992-1999 Hironobu Takahashi. All rights reserved.Usage: kakasi -a[jE] -j[aE] -g[ajE] -k[ajKH] -E[aj] -K[ajkH] -H[ajkKH] -J[ajkKH]-i{oldjis,newjis,dec,euc,sjis,utf8} -o{oldjis,newjis,dec,euc,sjis,utf8}-r{hepburn,kunrei} -p -s -f -c"chars" [jisyo1, jisyo2,,,]Character Sets:a: ascii j: jisroman g: graphic k: kana (j,kdefined in jisx0201)E: kigou K: katakana H: hiragana J: kanji(E,K,H,J defined in jisx0208)Options:-i: input coding system -o: output coding system-r: romaji conversion system-p: list all readings (with -J option)-s: insert separate characters (with -J option) -S"chars": set separator-f: furigana mode (with -J option)-F[rl]"chars": set parentheses around furigana-c: skip chars within jukugo (with -J option: default TAB CR LF BLANK)-C: romaji Capitalize (with -Ja or -Jj option)-U: romaji Upcase(with -Ja or -Jj option)-u: call fflush() after 1 character output-t: use old romaji table-w: wakatigaki mode-{l,L}: level {hiragana,furigana} mode (-{l,L}[123456jn])-y: display yomi of each kanji charactersReport bugs to <bug-kakasi@>.
用它!
使用kakasi
的一个问题是,它没有提供官方文档,网络上提供链接也基本失效,不过花了一番功夫还是找到了一个能用的文档,大家若想了解更多可以阅读。
? 我也只是刚刚接触kakasi
,更多使用方法,欢迎大家评论留言交流。
基本格式
kakasi 转换格式 <入口文件 >出口文件 输入输出编码设置
例子
kakasi -Ja <input.txt -i utf8 -o utf8# 将会在命令行中返回转换结果kakasi -JH <input.txt >output.txt -i utf8 -o utf8# 转换结果会保持到output.txt中
转换格式设置
-a[jE] -j[aE] -g[ajE] -k[ajKH] -E[aj] -K[ajkH] -H[ajkKH] -J[ajkKH]Character Sets:a: ascii j: jisroman g: graphic k: kana (j,kdefined in jisx0201)E: kigou K: katakana H: hiragana J: kanji(E,K,H,J defined in jisx0208)
常用的设置
-JH
汉字转平假名( kanji -> hiragana ) ||漢字
转换成かんじ
-Ja
汉字转罗马音( kanji -> ascii(roman) ) ||漢字
转换成kanji
-JK
汉字转片假名( kanji -> katakana ) ||漢字
转换成カンジ
-HK
平假名转片假名(hiragana -> katakana) ||かんじ
转换成カンジ
入口、出口文件设置
<input.txt
将"input.txt"作为输入文件
>output.txt
以"output.txt"为输出文件
输入输出编码设置
-i{oldjis,newjis,dec,euc,sjis,utf8} -o{oldjis,newjis,dec,euc,sjis,utf8}
其他工具:
日文文本分析最强王者——Kuromoji