■図解雑学 文字コード

■図解雑学 文字コード
 http://www.amazon.co.jp/gp/product/toc/481633243X/
■内容(「BOOK」データベースより)
 文字化けの原因から電子政府の問題点、漢字政策の移り変わり、グローバル・スタンダードの実態、
 文字コードをめぐる伏魔殿のような状況までを、わかりやすい図解で解説。
■目次
1 文字コードとはなにか?(紙の書類から電子の書類へ
電子ペーパー:電源を切ってもパターンは残る、本の厚みの(位置)情報
・改行コード:CR(キャリッジリターン:最初へ:Mac)、LF(ラインフィード:改行:Unix)
・異字体:訒、鴎、嵜、郄 「IMEで単漢字、人名地名」など
・ゆらぎ検索:、あいまい検索、時代による綴りの変化
★文字化け
 1.すべての文字が化ける エンコード文字コード違い
 2.一部の文字が化ける フォントのずれ「?」
 3.見えない文字化け 字体包摂のずれ(区別しない文字)「高橋−郄橋」

2 日本語とコンピュータの出会い(コード会
 情報処理学会とISO ほか)
・ASCII、ISO 646、欧州言語:ダイアクリティカル
・ISO 2022:各国の文字コードエスケープ文字列で切り替える
・JIS:第1水準漢字3000字、第2水準漢字3400字 ほどが(JIS基本漢字)

3 迷走する日本語文字コード(国語改革と当用漢字表
 常用漢字表とその余波 ほか)
・ローマ字表記(ヘボン式、日本式、訓令式、新日本式)
 例)ヘボン式:shi、sha、ji、ja、chi、cha、ji、tsu、fu
シフトJIS :ASCII、三菱、IBM、Ms1983年…本来内部コード(本来ISO 2022系に変換すべき)
EUC-JP :UNIX系OSの標準内部コード
・ISO 2022-JP :インターネット上の標準日本語コード(RFC1468:Request For Comment)
・ISO 8859-1など :欧州の多言語文字コード
・包摂規準(粒度)、Windows外字(NECIBM外字の取り込み)、Mac外字((月)がWin①とバッティング)
 :Win98以降Unicode対応、MacOSXは印刷向けの特殊拡張が有
i-mode絵文字:Win外字とは重なっていない、WWWでも基本読める(日本一般サイトの50%程??)

4 国際標準の影で(中国の文字コード
 台湾の文字コード ほか)
・中国:GB基本漢字7000文字、台湾:CNS台湾漢字1.3万字:Big5、韓国:KS基本漢字ハングル3000字ほど→6500字 KS X 1002
UTF-8、9、16:UnicodeWindows文字化け「?」、「包摂文字:ズレ」
UTF-16サロゲートペア
 その他の文字をサロゲートペア(代用対)という仕組みを使い16ビット符号単位二つで表現する文字符号化形式及び文字符号化
 http://ja.wikipedia.org/wiki/Unicode
・多言語:漢字ドメイン「kantei.jp−官邸.jp」など

5 日本の国際貢献(アルファベットのルーツへ
 母音表記問題 ほか)
アラビア文字イスラム教、コーランの翻訳はNG、位置依存文字
・インド系 :18の公用語と10の文字、テーヴァナーガリー文字、リガチャー(合字)…ヒンディー、サンスクリットなど
・アジア(漢字、結合音節・アラビアの文化が混在している)…多言語化の必要性
・日本のEmacsMuleエディタの多言語化UNIX:System1…XWindowの多言語化(Javaへの移植)
超漢字DOS/V機で動作する多言語OS(BTRON使用、TRONプロジェクト)
住基ネット(e-Japan計画):漢字を包括できない…2.1万字の統一文字コード
・世界標準とどう折り合いをつけるか?UTF化?

以上