微信邦

 找回密碼
 立即注冊

QQ登錄

只需一步,快速開始

掃一掃,訪問微社區

返回列表 發新帖
查看: 6785|回復: 0
打印 上一主題 下一主題

2019年CCF-騰訊犀牛鳥基金項目課題介紹(三)——自然語言處理及語音識別&大數據

[復制鏈接]
跳轉到指定樓層
樓主
發表于 2019-6-3 19:17:57 | 只看該作者 回帖獎勵 |倒序瀏覽 |閱讀模式
生活圈制作
CCF-騰訊犀牛鳥基金由騰訊與中國計算機學會聯合發起,旨在為全球范圍內最具創新力的青年學者搭建產學研合作及學術交流的平臺,提供了解產業真實問題,接觸業務實際需求的機會,并通過連接青年學者與企業研發團隊的產學科研合作,推動雙方學術影響力的提升及應用成果的落地,為科技自主研發的探索和創新儲備能量。

本年度共設立9個重點技術方向,29項研究命題
申報截止時間:2019年6月15日24:00
上期我們介紹了計算機視覺及模式識別
本文將介紹
自然語言處理及語音識別&大數據&車聯網
歡迎海內外青年學者關注并申報。


四、自然語言處理及語音識別

4.1 對話系統及相關技術研究

對話系統一直是一個長期的研究熱點,旨在模仿人類行為來提高可用性和用戶滿意度。

建議研究方向:
1)單輪對話模型,包括問答模型、單輪回復生成、回復質量評估等;
2)多輪對話系統,包括多輪數據庫建立,上下文感知的檢索、生成式回復預測、話題插入及推薦、多模態對話系統等;
3)針對對話文本的語言理解技術,包括但不限于關鍵詞生成、摘要、實體鏈接、關系抽取、語義分析、邏輯推理;
4)基于對話理解構建知識庫,或在對話理解中應用知識庫,包括但不限于語義知識、實體-關系知識、常識知識。

4.2 用于語音識別的多模態無監督學習

現存的語音識別系統都依賴大量的標注數據。語音數據的標注需要很高的時間和人力成本,嚴重限制了訓練數據的覆蓋度和數量級。傳統的無監督學習是利用已有的模型,對無標注的數據進行識別,把識別結果認為是“真正的”標注。當已有模型很差時,生成的標注質量不高 不能進行訓練。當已有模型很好時,識別結果很準,也不需要繼續訓練。
本課題利用海量的無字幕的視頻數據,進行多模態的無監督學習。用唇語識別和語音識別交替互相學習,以期達到互相提高的目的。訓練的結果可以得到兩套模型,一套是唇語識別模型,一套是聲學模型。預期該聲學模型的embedding可以大幅提高現有系統的魯棒性。

建議研究方向:
1)用有標注的多模態數據初始化LipNet和聲學模型;
2)在海量的無標注的數據上,對LipNet和聲學模型交替進行Teacher-student learning訓練;
3)對有內嵌字幕的數據,進行OCR、LipNet和聲學模型的同步訓練;
4)訓練音畫同步模型SyncNet,可以挖掘更多的多模態數據。


五、大數據

5.1 精細化的城市動態感知、
分析、仿真和優化

精準實時的感知和預測城市內部動態對提升社會經濟效率和人居生活品質至關重要,這需要創新的環境感知技術、大數據分析方法、預測仿真模型、和行業決策優化能力。本課題將開展相關的前沿研究和工程技術創新,騰訊將為項目提供海量數據支持和豐富的落地實踐場景。

建議研究方向:
1)通過多源感知技術采集城市動態信息,比如圖像視頻信息的自動檢測、識別和追蹤,多源多尺度人文活動和出行動態位置大數據的融合,5G時代的城市數據采集和計算框架等;
2)城市動態數據的深度挖掘和規律建模,理解和解釋時空動態機理和人地交互關系,提供新的行業理論、模型和方案(比如交通設計與控制、公交線路優化等);
3)數據驅的精細化的動態系統仿真、精準預測和決策優化,比如城市發展模擬、交通仿真、路口控制微觀仿真、車路協同優化等。

5.2 城市群交通多智能體控制與管理

粵港澳大灣區等世界級城市群的建設是我國經濟發展的重要增長極和引領技術變革的排頭兵。作為城市發展的主要動力之一,建立通暢、便捷、高效的城市間交通系統,全面提高城市間交通承載能力,對進一步增強城市群競爭力有著極其重要的意義。然而,城市間交通需求具有明顯的時空動態性,如何利用海量交通數據準確的預測城市群內各城市間交通需求變化趨勢,有針對性的對交通需求進行智能控制和管理,避免大規模交通擁堵并提高效率,是一項有挑戰性的重要課題,其成果將有助于提高城市群交通管理的效率和效果。

建議研究方向:
1)結合多源交通大數據,對城市群內各城市間的交通需求規律進行分析,理解城市間交通需求的時空動態變化規律,并研究其影響因素和內在機理;
2)綜合考慮城際多模式交通運輸方式間的競爭與合作,依托多智能體系統等設計城市群內城際多模式交通系統協同控制策略;
3)基于城市群內城市間交通需求的時空動態變化規律,建立相應的城市群交通運行組織動態決策模型。

5.3 大規模用戶序列行為特征表達

在騰訊平臺,用戶產生了海量的行為數據,如何對用戶的行為序列數據進行特征表達,是一項非常重要的工作,其成果將作為特征數據用于下游的機器學習任務,進而優化產品的用戶體驗。

建議研究方向:
1)建立無監督embedding算法,對用戶的行為序列進行特征表達;
2)挖掘用戶行為之間的因果關系,構建用戶行為圖譜。

5.4 大規模復雜網絡的表征研究

當前的社區劃分是基于靜態成員關系構建成的社交網絡來進行的,但群聊的成員數量隨時間不斷變化,尤其是惡意群的對抗行為導致關系網絡變化很快,傳統的靜態網絡難以刻畫實際情況。所以基于大規模復雜動態網絡的嵌入表示更加符合實際,信息更豐富的動態網絡也可以解決社區劃分等應用,需要頻繁全量計算的問題。

建議研究方向:
1)構建賬號維度的動態社交網絡,提出高可用的大規模動態網絡嵌入表征框架,解決實際動態網絡的模型訓練困難的問題;
2)利用動態網絡表征的豐富信息,提出更精準的社區劃分算法,達到85%的社區純凈度,劃分結果穩定。


六、車聯網

6.1 車載時間敏感網絡TSN
技術研究和平臺研發

車載時間敏感網絡是一種基于Ethernet Audio Video Bridging的新型網絡,是一種為應對日益緊迫的帶寬需求而提出的高帶寬、低時延、易于配置的車載網絡框架。以期實現精準時鐘同步,減少網絡時延,同時實現帶寬預留功能。

建議研究方向:
1)搭建基于TSN車載總線網絡平臺,驗證TSN傳遞車載控制信號的時延,可靠性等;
2)研究資源預約協議,包括基于Multiple Stream Reservation Protocol(MSRP)的研究和擴展;
3)研究包含車聯網V2X車載通信模塊OBU的TSN網絡應用。

分享到:  QQ好友和群QQ好友和群 QQ空間QQ空間 騰訊微博騰訊微博 騰訊朋友騰訊朋友 微信微信
收藏收藏
回復

使用道具 舉報

您需要登錄后才可以回帖 登錄 | 立即注冊

本版積分規則

微信邦網聯系QQ|Archiver|手機版|小黑屋|魯公網安備 37082802000167號|微信邦 ( 魯ICP備19043418號-5

GMT+8, 2019-12-7 22:15 , Processed in 0.289156 second(s), 24 queries .

Powered by Discuz! X3.2

© 2001-2013 Wxuse Inc. | Style by ytl QQ:1400069288

快速回復 返回頂部 返回列表
赛马会图标