■図解雑学 文字コード
■図解雑学 文字コード
http://www.amazon.co.jp/gp/product/toc/481633243X/
■内容(「BOOK」データベースより)
文字化けの原因から電子政府の問題点、漢字政策の移り変わり、グローバル・スタンダードの実態、
文字コードをめぐる伏魔殿のような状況までを、わかりやすい図解で解説。
■目次
1 文字コードとはなにか?(紙の書類から電子の書類へ
・電子ペーパー:電源を切ってもパターンは残る、本の厚みの(位置)情報
・改行コード:CR(キャリッジリターン:最初へ:Mac)、LF(ラインフィード:改行:Unix)
・異字体:訒、鴎、嵜、郄 「IMEで単漢字、人名地名」など
・ゆらぎ検索:、あいまい検索、時代による綴りの変化
★文字化け
1.すべての文字が化ける エンコード/文字コード違い
2.一部の文字が化ける フォントのずれ「?」
3.見えない文字化け 字体包摂のずれ(区別しない文字)「高橋−郄橋」
2 日本語とコンピュータの出会い(コード会
情報処理学会とISO ほか)
・ASCII、ISO 646、欧州言語:ダイアクリティカル
・ISO 2022:各国の文字コードをエスケープ文字列で切り替える
・JIS:第1水準漢字3000字、第2水準漢字3400字 ほどが(JIS基本漢字)
3 迷走する日本語文字コード(国語改革と当用漢字表
常用漢字表とその余波 ほか)
・ローマ字表記(ヘボン式、日本式、訓令式、新日本式)
例)ヘボン式:shi、sha、ji、ja、chi、cha、ji、tsu、fu
・シフトJIS :ASCII、三菱、IBM、Ms1983年…本来内部コード(本来ISO 2022系に変換すべき)
・EUC-JP :UNIX系OSの標準内部コード
・ISO 2022-JP :インターネット上の標準日本語コード(RFC1468:Request For Comment)
・ISO 8859-1など :欧州の多言語文字コード
・包摂規準(粒度)、Windows外字(NEC、IBM外字の取り込み)、Mac外字((月)がWin①とバッティング)
:Win98以降Unicode対応、MacOSXは印刷向けの特殊拡張が有
・i-mode絵文字:Win外字とは重なっていない、WWWでも基本読める(日本一般サイトの50%程??)
4 国際標準の影で(中国の文字コード
台湾の文字コード ほか)
・中国:GB基本漢字7000文字、台湾:CNS台湾漢字1.3万字:Big5、韓国:KS基本漢字ハングル3000字ほど→6500字 KS X 1002
・UTF-8、9、16:Unicode→Windows文字化け「?」、「包摂文字:ズレ」
・UTF-16=サロゲートペア
その他の文字をサロゲートペア(代用対)という仕組みを使い16ビット符号単位二つで表現する文字符号化形式及び文字符号化
http://ja.wikipedia.org/wiki/Unicode
・多言語:漢字ドメイン「kantei.jp−官邸.jp」など
5 日本の国際貢献(アルファベットのルーツへ
母音表記問題 ほか)
・アラビア文字:イスラム教、コーランの翻訳はNG、位置依存文字
・インド系 :18の公用語と10の文字、テーヴァナーガリー文字、リガチャー(合字)…ヒンディー、サンスクリットなど
・アジア(漢字、結合音節・アラビアの文化が混在している)…多言語化の必要性
・日本のEmacs、Muleエディタの多言語化、UNIX:System1…XWindowの多言語化(Javaへの移植)
・超漢字:DOS/V機で動作する多言語OS(BTRON使用、TRONプロジェクト)
・住基ネット(e-Japan計画):漢字を包括できない…2.1万字の統一文字コード
・世界標準とどう折り合いをつけるか?UTF化?
以上