11月28-29日,由中國社會科學院信息化研究中心和北京國脈互聯信息顧問有限公司聯合舉辦的“2018智慧中國年會”在北京隆重召開,以“數據賦能 智慧中國”為主題,共有來自全國部委、省、市、區縣電子政務、智慧城市、大數據主管領導、行業專家、企業代表、主流媒體千余人參會。

  本文系北京中潤普達公司CEO杜小軍先生于11月28日下午在“2018智慧中國年會”分論壇三--“人工智能賦能智慧政府研討會”上的演講,內容通過現場速記整理,未經本人審核。

image.png

  【北京中潤普達公司CEO 杜小軍】

  我是一個人工智能領域的重建者,今天想跟大家分享我們團隊在人工智能領域做的一些事情。

  目前大家對大數據、人工智能、包括區塊鏈都非常關注,我們團隊在2014年初創辦時就是圍繞中文語義識別。我們的子公司大家都有所了解:東湖大數據交易中心、江蘇省大數據工程實驗室、華東江蘇大數據交易中心、錢塘工業大數據交易中心,以及正在籌建的國家氣象大數據服務平臺等。中文語義識別是我們公司的一項技術,如果說大數據是生產資料,那么人工智能就是生產力,區塊鏈就理解為生產關系。所以下一個十年、二十年我們回過頭來看今天談的大數據,其中很多事情就迎刃而解。因此,我是從生產力的角度看中文語義識別怎么推動人工智能的利用和發展。

  一、人工智能中文語義識別

 ?。ㄒ唬┤斯ぶ悄墚a業發展三大階段

  計算智能階段(50年代-90年代):代表是計算機,機器基于計算智能有很強的數據處理和分析能力。從全球來看,這個階段對數據的質量,尤其是數據的顆粒度、算法要求極高,這是目前人工智能發展在這個階段可以達到一定的水平,中國和美國在人工智能領域競爭非常激烈。

  感知智能階段(90年代末-2010年):代表是深藍系統、智能手機,在這個階段人工智能機器能說會寫。感知智能就是現在說的互聯網,隨著芯片成本的進一步下降,單個芯片價格低至幾分錢,數據的傳感、采集、爆發形成超出人類想象的數據鏈。人工智能從語音階段逐步發展到機器發育階段,特點包括語音、圖像、視頻解析,這些也越來越精準,有些能達到80%的精準。目前中美開始在這個領域全面競爭,中國在這個領域有些超過美國。

  認知智能階段(2010年末到現在):代表是Alpha Go,具有自主學習能力。從去年開始,Alpha Go在中國力度加大,它是人工智能三大頂層核心技術之一,讓機器具備人的思考能力。我們把前兩者稱為弱的能力,而強能力都來至于對語言的真正理解,賦予機器具有思考的能力。

  (二)認知智能是未來人工智能發展的核心焦點

  國務院《新一代人工智能發展規劃》明確表示未來5-10年在人工智能領域需要建立數據驅動、以自然語言理解為核心目標的認知計算模型,形成從大數據到知識結構化、從知識結構化轉換成具有決策能力的新一代技術革命。這在整個新一代人工智能規劃的八大基礎技術里非常重要的一項,多部委已經把自然語言(NLP)為核心的認知計算技術作為人工智能自制核心技術開展技術突破,并且逐步推動產業化。從2017年新興技術曲線來看,基于認知計算和智能機器人里最核心的還是認知計算,就是以自然語言理解為基礎。

 ?。ㄈ┱J知智能(中文語義識別)迎來巨大產業發展契機

  預計到2025年底,43%的文字處理工作將由人工智能系統自動完成。中國在圖像識別、人工智能、單點技術方面已經遙遙領先于全球,未來七年,認知交互的全球市場,每年增長率將達到34.9%。據估算,2024年的全球市場規模保守估計將達到720億元美元。國內資本對于自然語言處理的投入相當巨大,至2017年底,已披露融資總額累計超54億元。隨著技術帶來的產業化的突破,市場非常巨大。

  (四)人工智能-認知智能的應用場景

  認知智能可以分析網頁、文件、郵件、音頻、論壇、社交媒體中的大量數據,應用領域廣泛,既可以直接應用于醫療、教育、金融、工業、影視、農業等多行業,也可以通過技術接口應用于所有智能語音交互場景,如智能家居、車載語音、可穿戴設備、VR、機器人等。數字政府方面,國內有些城市已開始試點,未來人與政府打交道只需要與機器見面,機器就像城市大腦,幫你解決一切人能解決的問題,當然這是一個遠景。但現在已經在逐步實現,包括一些城市的標準化的東西,這個標準化不需要人來思考,機器去學習就行,人和機器的交互未來就是人和政府的大腦之間的交互,所以智能語義識別被看作未來人工智能技術中最值得期待的應用場景。

  二、技術支點和創新點

 ?。ㄒ唬?0多項獨創發明專利:基于中文分詞矩陣技術的類腦智能系統和裝置

  2018年6月,中潤普達正式申報中文語義類腦輔助系統(魔系AI)。首次提出把人腦當作一個復雜的信息處理系統來考慮,從整體和動態的角度,架構一個中文分詞(包括意群)認知矩陣及模型,在此基礎上讓各場景的漢語分詞(包括意群)認知矩陣及模型之間形成協同競爭關系和類腦信息加工模式,完成類腦系統計算,并解釋語言、分詞、意群以及句子等生成的神經機制和原理。舉例:現在機場的機器人能夠背誦唐詩、唱歌,還包括現在廣泛應用的智能音響、人工智能設備,這些都叫做弱的人工智能。我們需要具備學習力的機器人,能夠和人溝通,目前整個機器人市場在往這個方面轉型,一個聰明的算法、一個嶄新的系統、一個中文的大腦、一個顛覆性應用正在逐步實現創新。

  (二)中文語義類腦輔助系統技術能力理論支點

  “不要去設計機器人,而是培養機器人?!弊寵C器像人類一樣思考,必須具備像人一樣的理解、推理、可視化、交互、學習等幾個基礎要素,每一個要素里面有龐大的基于類腦的相關功能,這個功能有的超出目前工程師的技術,需要新的辦法來解決。

  (三)中文語義識別技術使命:讓機器像人類一樣思考

  中潤普達自主研發的中文大數據的核心技術--中文認知矩陣和動態平衡模型計算技術,是領先的創新的中文大數據關鍵計算技術。利用獨立開發的“人工神經元網絡”數學算法模型,將海量的非結構化和結構化的數據放到模擬器中去,讓魔系 AI主腦進行學習。隨著時間的推移,產生突變,培養它讓其成為具有自主學習意識的機器大腦,可應用到所有人工智能生態鏈條中。舉例:百度搜索會留痕,下次登錄會根據訪問行為推薦搜索內容,坦率講這不是機器學習,這是服務器日志的自主記憶、主動推送。國內在自主學習機器人方面還有很長的路要走,在這個產業,缺乏大量的創新,需要太多的專家、投資和創新的失敗。我們團隊是從另外一個角度在一點點的創新里面實現了3-6歲小孩的水平,機器人通過數據的不斷喂養,能夠實現與人的基本交流,比如你講一個笑話,它能根據上下文或語義理解也講一個笑話,還有在醫療方面也有一些類腦的案例。路途雖遙遠,但這也是產業化的必經之路。

  (四)5個人工智能語義識別技術應用產品(試商用)

  目前中潤普達推出了5個人工智能語義識別技術應用產品:

  魔系AI - 海量文本處理智能平臺:通過計算機自動對(中文)文本信息進行快速識別、檢索、分類和精確定位,并能在不同語境下進行語義分析;是一個嶄新的更高級的計算機自動識別與檢索中文文本處理系統。

  裂云AI - 精準營銷智能平臺:通過接入各大運營商和各大數據源機構的大數據平臺,以自建分布式DMP平臺為基礎,提供精準人群標簽和用戶畫像,應用于征信、精準營銷、金融、保險、快銷、汽車等等行業,為給各類大數據應用服務提供創新產品。

  沖霄AI - 政務智能決策平臺:國內首個基于AI的新一代政務大數據可視分析平臺,適用于工商、工會、稅務、環保、安監、質檢、旅游、城管、文明等各種場景,為政務或商業決策提供重要參考,提升組織的決策精準性和前瞻性。

  神通AI - 商業智能決策平臺:基于AI的商業大數據可視分析工具平臺。能夠最大限度地利用數據獲得最大的價值,實現商業的智能決策,提高數據管理和數據資產的變現能力。

  傲天AI - 寫作和傳播智能機器:國內首家基于AI的文章全生命周期(從創作到傳播)自運行機器人。它通過對海量文章的深度學習,總結了萬余種不同題材、體裁和場景下的文章結構,從而讓機器具備自動寫作能力。

  三、技術實踐和應用路徑

 ?。ㄒ唬┠礎I-中文語義類腦輔助系統

  魔系AI為各類機器人配備中文語義大腦,使其能夠聽懂和了解用戶的基本意思和聲音,更好地與人類交互,完成多種匹配的動作及相關的指令。這個系統我們走的是不同的技術路徑,幫助我們少走一些彎路。

  (二)我們做的是讓機器與人溝通交流的人工智能中文語義類腦輔助系統

  我們專注于中文,中國人對中文的語義理解遠比外國人強,在這個領域,王選院士發明的“漢字激光照排系統”,全球占有99.7%的規模,到現在還沒有哪個互聯網技術或其他技術達到這樣的水平,激光照排技術的核心就是對中文的解讀。

  在具體的場景目標任務條件下,通過添加分詞(意群),并植入這個類腦計算系統,無需寫代碼,系統可以幫助網絡、機器和設備等實現讓機器和設備具備自我學習、發現、理解、推理等各類能力,并形成自我知識體系;它讓機器能像人一樣,實現智能對話、智能客服、智能聊天、句子生成、知識發現、知識生成、模式識別、智能分析等,并能夠按照要求輔助處理專屬應用場景的知識和業務。

  (三)快速搭建中文語義類腦(魔系AI)

  魔系AI具體方法是:按照魔系AI的操作程序,只需添加分詞、意群和句子,導入模板,即可應用到各類場景之中;為每一個機器、設備、終端都能夠裝上專屬場景的、有知識、會聊天、能決策、自學習,并且有性格、有情感的中文語言交流、溝通的大腦系統;結合大數據,魔系AI搭建了有效的深度學習的算法,在數據足夠的情況下, 魔系AI的“神經元網絡”系統將會以階梯式的速度進行深度自我學習和調整。

  (四)未來魔系AI 和行業深度結合

  與云、端、芯形成產品生態:芯片端提供一整套的軟硬件一體的落地方案,終端領域提供人工智能交互軟件通過云端數據整合、分析、運算從而提供更精準的服務。

  IOT時代無限的終端入口:開放的終端入口快速積累用戶信息,持續向云端進行數據傳遞。

  應用領域:強大的技術體系從語音識別、語義理解到語音合成集云端服務為一體,首個獨創的工程架構體系實現行業最先的效果和穩定性。

  (五)魔系AI試商用階段進展

  目前已經在深圳某法院開展人工智能法院建設試點工作,和部分重點醫院合作開展健康醫療大數據的AI產品研發;部分城市開展“城市大腦”技術應用實踐(湖北省十堰市、江西上饒市和湖北荊州市)。

  魔系AI智能“吾真”問診系統 -- 湖北十堰三甲醫院太和醫院

  應用于診療的全過程,實現診前智能分診、掛號;診中智能導診、語音電子病歷;診后慢性病康復輔助等,建立醫療各分支領域智能知識庫,打造快速精準的智能醫療體系。

  魔系AI法律助手 -- 深圳某法院

  通過分詞矩陣技術,構建法律知識邏輯系統,精準地找到與案件相關各種信息和文檔,降低人力搜索卷宗的時間成本;通過法律機器人,快速解答法律方面的問詢,節省咨詢的人力成本。

  魔系AI語音交互系統 -- 東風汽車公司

  結合已有的車載系統,用語音搜索行程路線、操控車內設備、查詢目的地天氣狀況,在意外發生時報修拖車、保險理賠等,讓魔系AI幫車主解決行車中遇到的問題。

  (六)魔系AI平臺的應用效果目標:讓人回歸人的價值

  為什么要發展人工智能,人工智能能夠提升生產力。當人每周只需要工作2天的時候,這就是生產力的體現。智能問答可以解決85%以上常見問題,在問答匹配、理解語義上準確率高達97%;通過魔系進行文檔處理,較人工相比處理效果提升59倍,準確率95%以上;在某些領域,可以替代60%以上的人工,極大降低了企業經營成本和提升效率。這是讓人回歸人的價值最實在的體現。

  (七)應用場景:為每一臺機器人賦予一個類腦輔助系統

  為每一個機器、設備和終端都裝上一個魔系AI專屬場景的中文交流、溝通的類腦輔助系統?;诨A的數據元,交易中心本來就是數據流通的中心,期望各類數據能培養機器人,包括語音識別、圖像識別、標注、分析、挖掘等海量的結構和非結構化數據需要在一定場合適用不同的機器人。當然這些不是光靠中文語言技術能實現的,還涉及到圖像識別、語音識別、機器學習等基礎技術。解決方案方面包括各行業的機器人方案,可以廣泛應用到數字政府、醫療、智能辦公等領域。

  四、小結

  今天介紹的是我們團隊做的一些研發,并不能代表這個產業的最高水平,但是在這個方向上我們會持續不斷地投入,也希望得到各位的指導和關注,謝謝大家!

  附:國脈,是領先的大數據治理和數字政府專業提供商。創新提出“軟件+咨詢+平臺+數據+創新業務”五位一體服務模型,擁有數據基因和水巢DIPS兩大系列幾十項軟件產品,長期為中國智慧城市、智慧政府和智慧企業提供專業咨詢規劃和數據服務,廣泛服務于信息中心、大數據局、行政服務中心等政府客戶、中央企業和金融機構。自2004年成立以來,已在全國七大區域設立20余家分支機構、5大技術研發基地,服務客戶2000余家,執行項目5000余個,連續多年開展中國政府網站、智慧城市、互聯網+政務、營商環境等公益評估評選活動。被業界譽為中國信息化民間智庫知名品牌、電子政務優選咨詢機構,國內首倡智慧政府理念,首創智慧城市、數據治理、互聯網+政務評價體系,首推數據資產普查、全口徑數據資源目錄、數據元標準化、數源確認與供需對接、最多跑一次事項梳理、營商通等產品,信息資源編目、公共數據普查等業務全國占有率和影響力名居榜首。

  注:獲取更多會議信息及嘉賓演講資料,歡迎登錄“2018智慧中國年會官網”。

年會官網.png

  現場照片直播分享:

現場直播.png

責任編輯:hejieling