首頁>>>技術>>>語音應用>>>語音識別(ASR)  語音識別產品


聲揚語音識別系列開發(fā)工具

中國科學院自動化研究所國家模式識別實驗室

一、總 體 介 紹

聲 揚 語 音 識 別 系 列 開 發(fā) 工 具 ( FlyingTalk-X v2.0 ) 是 中 國 科 學 院 自 動 化 研 究 所 模 式 識 別 國 家 重 點 實 驗 室 經 過 近 十 年 的 悉 心 研 究, 開 發(fā) 成 功 的 的 系 列 語 音 識 別 核 心, 是 國 內 自 主 開 發(fā) 的 擁 有 完 全 知 識 產 權 的 第 一 個 商 用 化 語 音 識 別 系 列 核 心 引 擎。 該 系 列 開 發(fā) 工 具 包 括 四 套 獨 立 的 API。 FlyingTalk-Navigation, FlyingTalk-FormFill, FlyingTalk-Dictation。 其 中 FlyingTalk-Navigation 支 持 非 特 定 人 多 命 令 集 語 音 控 制 和 輸 入;FlyingTalk-FormFill 可 以 自 行 定 義 有 關 語 法 和 詞 匯, 進 行 特 定 句 型 的 非 特 定 人、 連 續(xù) 語 音 識 別;FlyingTalk-Dictation 則 除 了 集 以 上 功 能 于 一 體 外, 還 具 有 了 三 個 特 點: 多 個 關 鍵 詞 的 自 動 檢 測 和 頂 尖 的 說 話 人 自 適 應/ 非 特 定 人、 連 續(xù) 語 音 聽 寫 和 基 于 詞 的 語 音 輸 入。 
FlyingTalk-X 提 供 的 應 用 程 序 接 口 (API) 不 但 靈 活、 簡 單, 而 且 支 持 多 命 令 集 識 別、 動 態(tài) 切 換、 英 語 命 令 識 別, 多 種 工 作 模 式 切 換( 命 令 識 別 - 有 限 句 型 識 別 - 多 個 關 鍵 詞 檢 測 - 立 詞 聽 寫 - 連 續(xù) 語 音 聽 寫)、 多 種 發(fā) 音 模 式 切 換( 孤 立 語 音 - 連 續(xù) 語 音) 等 特 點, 應 用 軟 件 開 發(fā) 商 只 需 要 非 常 短 的 時 間 就 能 把 該 引 擎 嵌 入 到 自 己 的 應 用 程 序 中 去。 應 用 程 序 嵌 入 本 引 擎 后 可 以 實 現 增 值 的 桌 面 聲 導 功 能, 同 時 也 可 廣 泛 地 應 用 于 股 票 查 詢、 電 話 號 碼 查 詢 以 及 一 些 用 戶 常 用 的 漢 語 文 字 輸 入 等。 該 引 擎 識 別 速 度 快、 占 用 內 存 少, 適 合 與 各 種 不 同 規(guī) 模 的 應 用 程 序 的 結 合。 
中 國 科 學 院 自 動 化 研 究 所 模 式 識 別 國 家 重 點 實 驗 室, 長 期 從 事 漢 語 語 音 識 別 和 語 音 理 解 方 面 的 研 究, 取 得 了 大 量 的 具 有 應 用 性 的 成 果。 從 有 限 詞 匯 的 命 令 識 別、 關 鍵 詞 檢 測、 非 特 定 人 連 續(xù) 語 音 聽 寫、 口 語 人 機 對 話 直 至 直 接 語 音 翻 譯 (Direct Speech Translation), 這 些 都 為 FlyingTalk-X 語 音 識 別 系 列 產 品 的 較 高 性 能 價 格 比 以 及 功 能 和 版 本 上 的 不 斷 升 級 提 供 了 扎 實 的 基 礎。 


二、FlyingTalk-X 產 品 特 點 

  1. 中 國 人 自 己 研 究 開 發(fā) 的 高 技 術 成 果

  2. 全 系 列 的 產 品, 能 滿 足 不 同 的 需 求

  3. 靈 活 的 合 作 方 式 和 及 時 的 技 術 服 務

  4. 迅 捷 的 產 品 更 新 

三、FlyingTalk-Navigation
FlyingTalk-Navigation 是 一 個 用 于 識 別 命 令 的 語 音 識 別 開 發(fā) 工 具, 該 引 擎 識 別 速 度 快、 占 用 內 存 少, 識 別 率 高( 一 般 可 以 達 到 95% 以 上) 適 合 與 各 種 不 同 規(guī) 模 的 應 用 程 序 的 結 合。 具 體 指 標 如 下: 
  1. 詞 匯 長 度 從 1 到 8 個 漢 字, 定 義 簡 單 
  2. 每 個 命 令 集 詞 匯 數 可 以 大 于 500, 支 持 多 達 幾 十 個 在 線 命 令 集 
  3. 可 以 動 態(tài) 地 設 置 詞 匯 的 識 別 和 搜 索 范 圍 
  4. 系 統(tǒng) 占 用 內 存 小 于 5 M。 
  5. 靈 活 調 節(jié) 識 別 的 可 信 度, 具 有 可 靠 的 集 外 詞 拒 識 功 能 等 
應 用 場 合: 菜 單 命 令 控 制, 短 語 錄 入, 人 機 對 話 系 統(tǒng) 等

四、FlyingTalk-FormFill

專 門 用 于 限 定 句 子 類 型 的 漢 語 連 續(xù) 語 音 輸 入 和 計 算 機 聲 音 控 制。 該 核 心 可 滿 足 識 別 幾 百 詞 匯、 幾 十 種 句 型 的 任 務 需 求, 在 一 般 的 應 用 任 務 下 準 確 率 幾 乎 能 夠 達 到100%。FlyingTalk-II 特 別 適 合 于 支 持 表 格 模 式 下 的 填 充 錄 入 以 及 帶 有 多 個 關 鍵 詞 的 自 然 語 言 理 解 聲 控 功 能。 該 引 擎 識 別 速 度 快、 占 用 內 存 少, 適 合 與 各 種 不 同 規(guī) 模 的 應 用 程 序 的 結 合。 基 本 指 標 同 上。 


應 用 場 合: 各 種 規(guī) 范 語 句 和 表 格 的 填 充, 人 機 對 話 系 統(tǒng) 

例 如 財 務 帳 單: 上 面 有 日 期, 金 額, 報 銷 人 姓 名, 單 位 名 字 等 等, 其 中 日 期, 金 額 是 典 型 的 固 定 句 型。 

五、FlyingTalk-Dictation

FlyingTalk-Dictation 除 了 把 FlyingTalk-Navigation、FlyingTalk-FormFill 集 成 在 一 起 外, 更 重 要 的 是 加 入 了 多 個 關 鍵 詞 的 連 續(xù) 檢 測 和 非 特 定 人 連 續(xù) 語 音 聽 寫, 提 供 了 命 令 控 制、 有 限 句 型 識 別、 關 鍵 詞 檢 測 和 語 音 聽 寫 等 四 種 工 作 模 式, 用 戶 可 以 任 意 選 擇 和 切 換。 FlyingTalk-Dictation 大 大 拓 寬 了 語 音 技 術 的 應 用 范 圍。
FlyingTalk-Dictation 特 點 如 下: 
  1. 具 有 非 特 定 人 連 續(xù) 語 音 聽 寫 功 能, 還 可 以 切 換 到 孤 立 詞 聽 寫 狀 態(tài), 用 于 通 用 的 漢 字 輸 入; 對 于 有 口 音 的 人 具 有 說 話 人 自 適 應 功 能 
  2. 具 有 多 個 關 鍵 詞 的 檢 測 功 能; 例 如 用 于 說" 請 匯 總 那 個, 去 年 去 年 的 總 帳, 馬 上", 系 統(tǒng) 就 能 獲 取 所 定 義 的 匯 總, 去 年 和 總 帳 三 個 關 鍵 詞。 
  3. FlyingTalk-Navigation 和 FlyingTalk-FormFill 中 的 功 能 
  4. 四 種 模 式 可 以 并 行 存 在 與 系 統(tǒng) 中, 支 持 這 四 種 模 式 之 間 的 在 線 切 換。 其 中 聽 寫 狀 態(tài) 下 聽 寫 和 命 令 的 混 合 識 別, 兩 者 可 以 并 行 使 用, 使 得 具 有 常 用 編 輯 命 令 的 聲 音 控 制。 
  5. 在 線 詞 匯 詞 匯 管 理, 以 提 高 聽 寫 系 統(tǒng) 的 效 率; 
  6. 其 中 關 鍵 詞 檢 測 率 幾 乎 100% 
  7. 聽 寫 系 統(tǒng) 識 別 率 一 般 可 以 達 到 85% 以 上, 新 聞 類 語 料 準 確 率 達 到 90% 以 上。 
六、FlyingTalk-PalmPC/WinCE
FlyingTalk-PalmPC/WinCE 是NLPR 承 接"863" 智 能 計 算 機 課 題" HPC 中 文 語 音 識 別 API 設 計 與 實 現" 基 礎 上 研 制 開 發(fā) 的 國 內 第 一 個 專 用 于 掌 上 型 計 算 機 的 語 音 識 別 應 用 系 統(tǒng)。 由 于 掌 上 型 計 算 機 沒 有 鍵 盤, 目 前 普 遍 采 用 手 寫 體 識 別 作 為 主 要 的 輸 入 手 段, 語 音 作 為 新 一 代 人 機 語 音 交 互 的 手 段, 在 掌 上 型 電 腦 上 尤 其 具 有 其 獨 特 的 優(yōu) 勢。 但 是 目 前 的 掌 上 型 計 算 機 由 于 受 到 內 存 容 量、 計 算 能 力 以 及 其 低 信 噪 比 的 聲 音 輸 入 設 備 等 原 因, 語 音 輸 入 在 該 類 電 腦 上 還 沒 有 得 到 很 好 的 應 用。 
模 式 識 別 實 驗 室 在 多 年 工 作 積 累 的 基 礎 上, 結 合 PalmPC/HPC 電 腦 專 人 專 用 的 特 點, 開 發(fā) 成 功 了 這 個 特 定 人 限 定 詞 匯 量 語 音 識 別 應 用 程 序 接 口。 利 用 本 套 API, 開 發(fā) 商 可 以 非 常 簡 單 地 在 其 諸 如 聲 音 撥 號、 名 片 管 理、 菜 單 命 令 控 制 等 應 用 中 加 入 語 音 識 別 功 能。 其 特 點 以 及 功 能 如 下: 
  1. 其 設 計 最 大 詞 匯 量 可 以 達 到 200 個 左 右 
  2. 對 一 般 人 名 的 識 別 準 確 率 超 過 95%, 采 用 多 個 侯 選 后 識 別 率 為 100% 
  3. 同 口 音、 方 言 以 及 語 種 無 關, 使 用 者 可 以 隨 心 所 欲。 
  4. 當 加 入 一 個 新 的 命 令 時, 只 需 要 重 復 該 命 令 二 到 三 遍 發(fā) 音 就 可 完 成 訓 練, 訓 練 過 程 是 漸 進 的, 也 就 是 可 以 在 任 何 時 間 根 據 需 要 加 入, 減 少 用 戶 訓 練 的 疲 勞 度。 
  5. 訓 練 的 語 音 數 據 自 動 回 放, 用 戶 用 得 放 心。 


相關鏈接:
主要語音引擎及開發(fā)工具 2002-01-30
ASR:“說得出做得到” 2002-01-30
IBM ViaVoice語音軟件開發(fā)工具 2002-01-30
語音識別的應用前景 2002-01-30
語音識別技術的發(fā)展趨勢 2002-01-30

分類信息:     技術_語音識別_文摘