經(jīng)濟日報-中國經(jīng)濟網(wǎng)北京11月16日訊(記者牛瑾)近期,庖丁科技中標證券期貨業(yè)金融科技研究發(fā)展中心(深圳)(以下簡稱“深交所”)——“證券文本信息抽取技術(shù)研究”項目,為資本市場前線監(jiān)管助力。
在資本市場上,信息披露義務(wù)人“應當真實、準確、完整、及時地披露信息”。我國上市公司信息披露的內(nèi)容大體包括證券發(fā)行文件、定期報告和臨時報告三類,須在指定信息披露網(wǎng)站發(fā)布。以深市上市公司為例,2016年全年共披露265985篇公告,2017年共披露291607篇。隨著上市公司數(shù)量日益增多,這一數(shù)字還會逐年增加,不但為深交所的合規(guī)檢查帶來壓力,也給投資者帶來極大的信息負載。如何將海量公告更有效、更高效地讓閱讀人“讀薄”?其中,通過自然語言處理、深度學習等技術(shù)將公告信息結(jié)構(gòu)化提取成為關(guān)鍵所在。
正因為如此,庖丁科技持續(xù)而堅定地推進該項工作,通過卷積神經(jīng)網(wǎng)絡(luò)對公告中的段落表格等信息進行分割抽取。為了適應樣本數(shù)量稀少的問題,還提出了一種輕量級的機器學習方法,能夠高效地將不同類別公告的關(guān)鍵語句抽取出來,并使之具有在線學習的能力;抽取過程僅需公告制作業(yè)務(wù)專家對少量公告進行標注,即可達到可用效果。關(guān)鍵語句抽取后,再通過LSTM神經(jīng)網(wǎng)絡(luò)進行細粒度提取,將公告結(jié)構(gòu)化。目前,庖丁科技對并購重組公告的結(jié)構(gòu)化抽取工作已取得較為理想的結(jié)果,提升了深交所監(jiān)管工作效率。這項工作的探索不僅為擴展更多公告類型奠定基礎(chǔ),也為其他類型文本處理帶來寶貴經(jīng)驗。
利用非結(jié)構(gòu)化信息抽取技術(shù),能夠深度挖掘隱藏在海量公開公告中的企業(yè)與企業(yè)、企業(yè)與個人關(guān)系,透視、洞察企業(yè)的價值及風險。為此,作為一家以人工智能技術(shù)為核心的金融科技行業(yè)企業(yè),庖丁科技一直致力于為金融行業(yè)提供技術(shù)支撐,助力金融機構(gòu)進一步提升服務(wù)實體經(jīng)濟的能力。
(責任編輯:張雪)