研究方向

▼研究方向
我的研究可分為兩個方面。主要的研究項目為網際網路上的自然語言人機介面,另外也涉獵計算生物學上的DNA序列分析,希望能結合演算法以及語言序列分析上的經驗對DNA解讀的意義有所著墨。

在網際網路上,我們目前的研究著重於自然語言的『理解』。舉凡網路上的語意搜尋,中文語音輸入、輸出以及校稿、翻譯系統都需要某種程度的理解模擬,才能達到令人滿意的正確率。這種理解模式可以和許多不同的知識表達方法結合,應用無窮。我們小組所發展的注音自動轉國字的軟體─自然輸入法,正確率接近96%,曾獲得1993年傑出中文資訊產品獎,已經普遍受到大眾的歡迎與接受。在2000年3月10號推出網路免費download的版本(13MG),在一週之內有兩萬多人在PC Home網站下載,高居所有下載軟體的第二名,目前總下載次數已接近六十萬。

我們從自然語言理解的研究逐漸衍伸到網際網路上的智慧型代理人(intelligent Internet agent)的研究,特別是那些能以自然語言溝通的資料庫代理人。這些代理人軟體未來將在網路的語意查詢以及電子商務上扮演舉足輕重的角色。另一個研究方向是,利用系統模擬人類理解的能力來扮演教學助理的角色。目前已經可以處理小學三年級的數學應用題自動作答以及一部分的自動教學。我們正將這套系統應用到生物資訊的自動答詢以及自動代替使用者執行script的代理人上。

我們最重要的成果是,在研究這些不同的應用系統中,逐漸發展出一套『自然語言語意分析的引擎』以及相關的『智慧型知識表達系統』(InfoMap),可以適用於上面所有應用系統的知識管理。由於我們製作的軟體系統已經獲得外界的肯定,現在有數個計畫(中文語意分析系統,網際網路自然語言問答系統,網路客服系統)與工業界進行技術移轉的工作。

在基因序列上,我們發展出一套容錯演算法,在實驗誤差不超過15%的情況下,能夠利用clone 與clone之間的重疊關係計算出整段DNA序列中各個clone的大致位置。我們的演算法能夠同時應付下列四種可能的錯誤:1. False positives; 2. False negatives; 3. Chimeric clones; 4. non-unique probes。我們目前正在利用這個知識表達系統,InfoMap,將生物的知識建置成自動答詢系統。我們希望在這個答詢系統之上能夠建立自動執行以自然語言撰寫的scripts,以方便生物學家管理複雜的電腦處理程序。同時,也要利用InfoMap來進行精準、有效的生物文獻搜尋。