パソコンにおける日本語処理

■パソコンにおける日本語処理/文字コードハンドブック
★歴史:PC98など★
 http://www.amazon.co.jp/gp/product/toc/4774107808/

■内容(「BOOK」データベースより)
 日本語と文字を利用するパソコンユーザー向けに、パソコンにおける文字の取り扱いについて解説したもの。CD-ROM付き。

■目次
 Prologue 本書を読むにあたっての基礎知識
 第1部 パソコン日本語処理の歴史的背景
・米国:オルテア
 1.入出力装置としてテレタイプ
 2.機器増設できる拡張バス
 3.Ms社が専用BASIC言語
NEC「TK-80:トレーニングキット」
 LEDと16進キーボード、拡張バス無、難解なマシン語
・1970年代:PC-8001
 1.ランダムアクセスできる補助記憶装置
 2.汎用OSが利用 3.気軽に入力 4.通信機能
・8ビットCPUパソコンでは日本語で必要な、カタカナ、ひらがな、漢字(最低3000)が
 使用できないかというと必ずしもそうではない
・FM-8(富士通)、PC-8801(漢字ROM)、X1 Turbo
・1980年代 PC-9801
 身近な購入性、16Bit CPUの使用
PC-9801に収録されている文字セット
 ANK文字(244:半角)、JISX0208第1水準(2965)、JISX0208第2水準(3384)、
 非漢字(885)、ユーザ定義(188)、拡張漢字(388)、罫線文字、ローマ・丸付数字
 NEC選定のIBM漢字、外字(188)
デバイスドライバとしてのかな漢字変換機能「例:KTIS、ATOK
・アプリとしての「かな漢字変換フロントエンドプロセッサ:FEP」、「例:IME
文字コード差異、不足・過剰文字
・キャラクタディスプレイ
 :表示位置固定、文字サイズ、絵は描けない、情報量が少ない
 ビットマップディスプレイ
 :表示位置、サイズ、絵など自由に書ける、情報量が多くスペック必要
Macはビットマップディスプレイ操作が前提
・GUIOSのメリット、WYSIWYG:見ているものが得られる
 「What You See Is What You Get」
※プリンタ内蔵のフォントとの差異、通信の1方向性の問題
・MacAdobeのPostscript技術(プリンタのページ記述言語)
 http://ja.wikipedia.org/wiki/PostScript
Apple、Msにより↑対抗として
 ページ記述言語のTrueImage、フォント形式TrueType
 http://ja.wikipedia.org/wiki/TrueType
 http://e-words.jp/w/TrueType.html

                  • -

 第2部 パソコン日本語処理の諸規格と問題点
・制御文字
 FF=FormFeed ページ区切
 CR=CarriageReturn 復帰・行頭
 LF=改行 1行
 HT=Horizontal Tab 水平タブ
 BS=1文字削除
文字コードエンコーディングは異なる
 :シフトJIS文字コードをシフトするルール
 :EUCUNIX系OS文字コード拡張
 :ISO-2022-JP …電子メール用に日本語使用するためのエンコード
 :UTF-8、16 …全世界の文字、但し日本語は3バイトに増える場合も有
 :Base64 …すべて1率データで変換、安全に英語以外のメール送信に使用
 :国内:JIS X 0202(国際:ISO-2022)…ほとんど使われていない
・本来HTTP、HTMLではメタタグでなく、サーバ側でHTTPプロトコルヘッダにないといけない
Unicodeの現実的な利用…Word一太郎で対応、Unicode対応フォントが必要
・文字の今後
 :エンコーディングUTF-8が共通語(Unicode→ISO-10646)
 :文字コード(符号化文字集合?chaset)、言語(Language)情報も必要
・WWWの外字表現
 :使用しない、画像で挿入、CSS2でDLして使用する方法もある

                  • -

 第3部 パソコン日本語処理の実際
・DBCSイネーブリング
文字コード変換
 参考:ファイルの文字コードを変換する
 http://www.atmarkit.co.jp/fwin2k/win2ktips/312charcode/charcode.html
 確実に確認するのなら「KanjiTranslator 」などで変換エラーがないか確認
 http://www.kashim.com/kanjitranslator/index.html

※かなり省略

                  • -

機種依存文字Wiki
 http://ja.wikipedia.org/wiki/%E6%A9%9F%E7%A8%AE%E4%BE%9D%E5%AD%98%E6%96%87%E5%AD%97
機種依存などの理由による文字の誤表示の各ケース [編集]

文字が正しく表示できないことについては、「どのように(How)表示出来なかったのか」という観点と、「なぜ(Why)表示出来なかったのか」という観点の二種類から語ることが出来る。

* 「How」の2種類
o 「〓(ゲタ)」「・(中黒)」「□(四角、豆腐)」等の文字に置換されて表示された。
o 別の文字として表示(文字化け)された。
* 「Why」の3種類
o 表示しようとしている文字がフォントセットの中に用意されていない。
o データ自体と表示設定とで文字符号化方式エンコーディング)が違う。
o システム固有の登録文字を他システムで表示しようとしている。