OCR是英文Optical Character Recognition的縮寫,意思為光學字符識別,通稱為文字識別,它的工作原理為通過掃描儀或數碼相機等光學輸入設備獲取紙張上的文字圖片信息,利用各種模式識別算法分析文字形態特征,判斷出漢字的標准編碼,並按通用格式存儲在文本文件中,由此可以看出,OCR實際上是讓計算機認字,實現文字自動輸入。它是一種快捷、省力、高效的文字輸入方法。 TH-OCR是清華大學自1985年就開始研發的,TH是TsingHua(清華)的縮寫,TH-OCR代表北京文通信息技術有限公司開發的OCR軟件。在國家“863”計劃支持下,持續了十多年的科研成果,從1.0版本開始已經升級到現在的9.0版本。獨家真正實現了漢英混排同時識別,在國際上首次突破了OCR產品只能處理漢字或英文單一文字的局限性,新增了東方文字(簡繁漢、日文、韓文)識別功能,對日文和韓文與英文混排文檔的識別水平甚至超過日本和韓國對本國文字的識別水平,在國內、外產生了重大的影響,並連續3年被中國軟件行業協會評為優秀軟件產品,成為漢字輸入技術的一座裡程碑。TH-OCR9.0版本已應用到了包括電子政務、電子出版物、報社、銀行、郵政、稅務、圖書館等多個領域,成為國內OCR市場的先鋒。