聲揚語音識別系列開發(fā)工具
中國科學院自動化研究所國家模式識別實驗室
一、總 體 介 紹
- 聲 揚 語 音 識 別 系 列 開 發(fā) 工 具 ( FlyingTalk-X
v2.0 ) 是 中 國 科 學 院 自 動 化 研 究 所 模 式 識 別 國 家 重 點 實 驗 室 經 過 近 十 年 的 悉
心 研 究, 開 發(fā) 成 功 的 的 系 列 語 音 識 別 核 心, 是 國 內 自 主 開 發(fā) 的 擁 有 完 全 知 識 產
權 的 第 一 個 商 用 化 語 音 識 別 系 列 核 心 引 擎。 該 系 列 開 發(fā) 工 具 包 括 四 套 獨 立 的 API。
FlyingTalk-Navigation, FlyingTalk-FormFill, FlyingTalk-Dictation。
其 中 FlyingTalk-Navigation 支 持 非 特 定 人 多 命 令 集 語 音 控 制 和 輸 入;FlyingTalk-FormFill
可 以 自 行 定 義 有 關 語 法 和 詞 匯, 進 行 特 定 句 型 的 非 特 定 人、 連 續(xù) 語 音 識 別;FlyingTalk-Dictation
則 除 了 集 以 上 功 能 于 一 體 外, 還 具 有 了 三 個 特 點: 多 個 關 鍵 詞 的 自 動 檢 測 和 頂
尖 的 說 話 人 自 適 應/ 非 特 定 人、 連 續(xù) 語 音 聽 寫 和 基 于 詞 的 語 音 輸 入。
- FlyingTalk-X 提 供 的 應 用 程 序 接 口
(API) 不 但 靈 活、 簡 單, 而 且 支 持 多 命 令 集 識 別、 動 態(tài) 切 換、 英 語 命 令 識 別, 多 種
工 作 模 式 切 換( 命 令 識 別 - 有 限 句 型 識 別 - 多 個 關 鍵 詞 檢 測 - 立 詞 聽 寫 - 連 續(xù)
語 音 聽 寫)、 多 種 發(fā) 音 模 式 切 換( 孤 立 語 音 - 連 續(xù) 語 音) 等 特 點, 應 用 軟 件 開 發(fā) 商
只 需 要 非 常 短 的 時 間 就 能 把 該 引 擎 嵌 入 到 自 己 的 應 用 程 序 中 去。 應 用 程 序 嵌 入
本 引 擎 后 可 以 實 現 增 值 的 桌 面 聲 導 功 能, 同 時 也 可 廣 泛 地 應 用 于 股 票 查 詢、 電
話 號 碼 查 詢 以 及 一 些 用 戶 常 用 的 漢 語 文 字 輸 入 等。 該 引 擎 識 別 速 度 快、 占 用 內
存 少, 適 合 與 各 種 不 同 規(guī) 模 的 應 用 程 序 的 結 合。
- 中 國 科 學 院 自 動 化 研 究 所 模 式 識 別
國 家 重 點 實 驗 室, 長 期 從 事 漢 語 語 音 識 別 和 語 音 理 解 方 面 的 研 究, 取 得 了 大 量
的 具 有 應 用 性 的 成 果。 從 有 限 詞 匯 的 命 令 識 別、 關 鍵 詞 檢 測、 非 特 定 人 連 續(xù) 語 音
聽 寫、 口 語 人 機 對 話 直 至 直 接 語 音 翻 譯 (Direct Speech Translation), 這 些
都 為 FlyingTalk-X 語 音 識 別 系 列 產 品 的 較 高 性 能 價 格 比 以 及 功 能 和 版 本 上 的
不 斷 升 級 提 供 了 扎 實 的 基 礎。
二、FlyingTalk-X
產 品 特 點
- 中 國 人 自 己 研 究 開 發(fā) 的 高 技 術 成 果
- 受 國 家"863" 計 劃、 國 家" 九 五" 攻
關 計 劃、 國 家 自 然 科 學 基 金 項 目 和 國 家"973" 計 劃 重 點 支 持
- 近 十 年 的 不 懈 技 術 積 累 和 研 究 探
索
- 精 心、 靈 活 的API 設 計 滿 足 不 同 應
用 軟 件 的 需 求
- 全 系 列 的 產 品, 能 滿 足 不 同 的 需 求
- FlyingTalk-Navigation 占 用 內
存 少, 識 別 可 靠 性 高, 動 態(tài) 命 令 集 切 換
- FlyingTalk-FormFill 可 以 廣 泛
地 應 用 于 各 種 表 格 填 充, 特 別 是 限 定 形 式 的 表 格 填 充
- FlyingTalk-PalmPC/WinCE 使 PalmPC
的 人 機 交 互 產 生 特 別 的 改 進
- FlyingTalk-Dictation: 則 集 各
大 技 術 之 大 成, 特 別 是 用 于 語 音 文 字 錄 入 和 多 個 關 鍵 詞 的 檢 測, 用 于 人 機 對
話 等 等
- 靈 活 的 合 作 方 式 和 及 時 的 技 術 服 務
- 合 作 方 式 包 括: 免 費 使 用 部 分 開 發(fā)
工 具、 或 只 收 取 一 定 技 術 支 持 費 以 及 OEM 合 作 方 式 等
- 能 不 斷 擴 充 修 改 API 以 滿 足 不 同
應 用 軟 件 的 需 求, 提 供 個 性 化、 本 地 化 的 服 務
- 迅 捷 的 產 品 更 新
- 產 品 的 不 斷 專 業(yè) 化
- 性 能 的 不 斷 改 進 等
三、FlyingTalk-Navigation
- FlyingTalk-Navigation 是 一 個 用
于 識 別 命 令 的 語 音 識 別 開 發(fā) 工 具, 該 引 擎 識 別 速 度 快、 占 用 內 存 少, 識 別 率 高(
一 般 可 以 達 到 95% 以 上) 適 合 與 各 種 不 同 規(guī) 模 的 應 用 程 序 的 結 合。 具 體 指 標 如
下:
- 詞 匯 長 度 從 1 到 8 個 漢 字, 定 義 簡 單
- 每 個 命 令 集 詞 匯 數 可 以 大 于 500, 支
持 多 達 幾 十 個 在 線 命 令 集
- 可 以 動 態(tài) 地 設 置 詞 匯 的 識 別 和 搜 索
范 圍
- 系 統(tǒng) 占 用 內 存 小 于 5 M。
- 靈 活 調 節(jié) 識 別 的 可 信 度, 具 有 可 靠 的
集 外 詞 拒 識 功 能 等
應 用 場 合: 菜 單 命 令 控 制, 短 語 錄 入, 人 機 對
話 系 統(tǒng) 等
四、FlyingTalk-FormFill
- 專 門 用 于 限 定 句 子 類 型 的 漢 語 連 續(xù)
語 音 輸 入 和 計 算 機 聲 音 控 制。 該 核 心 可 滿 足 識 別 幾 百 詞 匯、 幾 十 種 句 型 的 任 務
需 求, 在 一 般 的 應 用 任 務 下 準 確 率 幾 乎 能 夠 達 到100%。FlyingTalk-II 特 別 適 合
于 支 持 表 格 模 式 下 的 填 充 錄 入 以 及 帶 有 多 個 關 鍵 詞 的 自 然 語 言 理 解 聲 控 功 能。
該 引 擎 識 別 速 度 快、 占 用 內 存 少, 適 合 與 各 種 不 同 規(guī) 模 的 應 用 程 序 的 結 合。 基 本
指 標 同 上。
應 用 場 合: 各 種 規(guī) 范 語 句 和 表 格 的 填 充,
人 機 對 話 系 統(tǒng)
例 如 財 務 帳 單: 上 面 有 日 期, 金 額, 報 銷 人
姓 名, 單 位 名 字 等 等, 其 中 日 期, 金 額 是 典 型 的 固 定 句 型。
五、FlyingTalk-Dictation
- FlyingTalk-Dictation 除 了 把 FlyingTalk-Navigation、FlyingTalk-FormFill
集 成 在 一 起 外, 更 重 要 的 是 加 入 了 多 個 關 鍵 詞 的 連 續(xù) 檢 測 和 非 特 定 人 連 續(xù) 語 音
聽 寫, 提 供 了 命 令 控 制、 有 限 句 型 識 別、 關 鍵 詞 檢 測 和 語 音 聽 寫 等 四 種 工 作 模 式,
用 戶 可 以 任 意 選 擇 和 切 換。 FlyingTalk-Dictation 大 大 拓 寬 了 語 音 技 術 的 應
用 范 圍。
- FlyingTalk-Dictation 特 點 如 下:
- 具 有 非 特 定 人 連 續(xù) 語 音 聽 寫 功 能, 還
可 以 切 換 到 孤 立 詞 聽 寫 狀 態(tài), 用 于 通 用 的 漢 字 輸 入; 對 于 有 口 音 的 人 具 有 說 話
人 自 適 應 功 能
- 具 有 多 個 關 鍵 詞 的 檢 測 功 能; 例 如 用
于 說" 請 匯 總 那 個, 去 年 去 年 的 總 帳, 馬 上", 系 統(tǒng) 就 能 獲 取 所 定 義 的 匯 總, 去 年
和 總 帳 三 個 關 鍵 詞。
- FlyingTalk-Navigation 和 FlyingTalk-FormFill
中 的 功 能
- 四 種 模 式 可 以 并 行 存 在 與 系 統(tǒng) 中, 支
持 這 四 種 模 式 之 間 的 在 線 切 換。 其 中 聽 寫 狀 態(tài) 下 聽 寫 和 命 令 的 混 合 識 別, 兩 者
可 以 并 行 使 用, 使 得 具 有 常 用 編 輯 命 令 的 聲 音 控 制。
- 在 線 詞 匯 詞 匯 管 理, 以 提 高 聽 寫 系 統(tǒng)
的 效 率;
- 其 中 關 鍵 詞 檢 測 率 幾 乎 100%
- 聽 寫 系 統(tǒng) 識 別 率 一 般 可 以 達 到 85%
以 上, 新 聞 類 語 料 準 確 率 達 到 90% 以 上。
六、FlyingTalk-PalmPC/WinCE
- FlyingTalk-PalmPC/WinCE 是NLPR
承 接"863" 智 能 計 算 機 課 題" HPC 中 文 語 音 識 別 API 設 計 與 實 現" 基 礎 上 研 制 開
發(fā) 的 國 內 第 一 個 專 用 于 掌 上 型 計 算 機 的 語 音 識 別 應 用 系 統(tǒng)。 由 于 掌 上 型 計 算 機
沒 有 鍵 盤, 目 前 普 遍 采 用 手 寫 體 識 別 作 為 主 要 的 輸 入 手 段, 語 音 作 為 新 一 代 人
機 語 音 交 互 的 手 段, 在 掌 上 型 電 腦 上 尤 其 具 有 其 獨 特 的 優(yōu) 勢。 但 是 目 前 的 掌 上
型 計 算 機 由 于 受 到 內 存 容 量、 計 算 能 力 以 及 其 低 信 噪 比 的 聲 音 輸 入 設 備 等 原 因,
語 音 輸 入 在 該 類 電 腦 上 還 沒 有 得 到 很 好 的 應 用。
- 模 式 識 別 實 驗 室 在 多 年 工 作 積 累 的
基 礎 上, 結 合 PalmPC/HPC 電 腦 專 人 專 用 的 特 點, 開 發(fā) 成 功 了 這 個 特 定 人 限 定 詞
匯 量 語 音 識 別 應 用 程 序 接 口。 利 用 本 套 API, 開 發(fā) 商 可 以 非 常 簡 單 地 在 其 諸 如
聲 音 撥 號、 名 片 管 理、 菜 單 命 令 控 制 等 應 用 中 加 入 語 音 識 別 功 能。 其 特 點 以 及 功
能 如 下:
- 其 設 計 最 大 詞 匯 量 可 以 達 到 200 個
左 右
- 對 一 般 人 名 的 識 別 準 確 率 超 過 95%,
采 用 多 個 侯 選 后 識 別 率 為 100%
- 同 口 音、 方 言 以 及 語 種 無 關, 使 用 者
可 以 隨 心 所 欲。
- 當 加 入 一 個 新 的 命 令 時, 只 需 要 重 復
該 命 令 二 到 三 遍 發(fā) 音 就 可 完 成 訓 練, 訓 練 過 程 是 漸 進 的, 也 就 是 可 以 在 任 何 時
間 根 據 需 要 加 入, 減 少 用 戶 訓 練 的 疲 勞 度。
- 訓 練 的 語 音 數 據 自 動 回 放, 用 戶 用 得
放 心。
相關鏈接: