免費注冊 400-900-8051 公司官網 用戶登錄 歡迎您訪問雅樂美森大數據產品官方網站
�雅樂美森大數據產品官方網站�

      在人工智能和大數據分析領域,北京雅樂美森科技有限公司是分布式雲計算技術、NLP自然語言處理技術、非結構化數據處理技術、智能搜索引擎技術和數據建模等方麵的行業領先廠商!

混合雲計算技術

      知行智庫平台采用OpenStack和Docker相結合的模式,OpenStack主要用於管理整個數據中心,使用Docker Container作為OpenStack的補充。透過網絡將龐大的計算處理程序自動分拆成無數個較小的子程序,再交由雲服務器的龐大係統,經計算分析之後,將處理結果提供給用戶。

平台Architecture全麵服務化

      雅樂美森自主研發的元計算運維管理係統基於麵向服務和擴展的體係架構,將原有的各類平台服務和業務功能封裝為不同粒度的Restful Web API。這些服務接口覆蓋所有的運維工作,包括計算資源的分配和調度、係統運行狀態的監控、故障檢測和告警、審計和計費係統等。這些服務也可以對外開放,使用戶能夠充分利用這些服務接口,提取有價值的信息或業務流程整合到用戶自己的應用係統中。

係統資源自動管理與編排

      雅樂美森自主研發的元計算運維管理係統能夠將雲計算基礎設施的各種資源進行虛擬化,為數據、計算能力、存儲以及其他資源提供一致的邏輯視圖,實現了資源的池化,並能依靠自動化的手段來對各項資源進行高效地調度、管理和分配。全新的自動化編排方案,能進行應用資源的合理分配,同時還可以將網絡資源、計算資源進行切片,基於業務需求進行資源的分配和組合。

隨需而變

      雅樂美森自主研發的雲計算運維管理係統認識到“唯一不變的就是變化本身”,能夠做到便捷的按需定製,能夠根據用戶的要求量身剪裁,使係統的界麵外觀、功能描述、操作體驗更加貼近和符合用戶的既有使用習慣。並能根據用戶的需求,對接用戶已有的信息係統,實現數據互聯互通,避免重複建設。

容器服務

      雅樂美森自主研發的元計算運維管理係統內置輕量化、可移植、自包涵的容器引擎,客戶應用可以一次構建全平台運行,係統增加了高級API,提供了能夠獨立運行Unix進程的虛擬化解決方案。

彈性伸縮(Flexible Scale)

      雅樂美森自主研發的元計算運維管理係統可以根據客戶業務需求和工作量規模變化,智能化管理和配置雲端計算資源,幫助客戶實現計算服務獲取的最佳費效比。

自定義網絡

      雅樂美森使用虛擬交換機技術,可以讓用戶可視化的規劃設計計算實例之間以及對外的網絡通信的路由規則,滿足客戶個性化的網絡路由需求;並能按網絡協議和端口統計網絡流量,幫助客戶節省網絡費用,減少網絡攻擊風險。

多層防火牆

      雅樂美森運用雲防火牆為每個連接公共網絡的雲服務器提供一係列的防護服務,包括入侵防禦係統、Web數據過濾、數據丟失防護、惡意軟件過濾、威脅檢測沙箱、DDOS防禦等,提高用戶發布到Internet的服務器訪問安全性。

多維數據存儲

      海量數據的存儲訪問,需要擴展性、伸縮性極強的分布式存儲架構來實現。知行智庫平台運用塊存儲、文件存儲、對象存儲等先進技術,滿足了多種數據類型存取的需求,是傳統數據存儲方式的有力補充,幫助用戶更加高效快捷的完成數據存儲。

結構化存儲

      知行智庫平台運用HDFS+HBase,利用HDFS的分布式、高可用數據存儲,結合HBase麵向列的數據存儲模型,從而解決大數據量存儲的問題;結合HBase基於Rowkey自然序的存儲,從而實現10 bilion級數據快速查詢。

非結構化存儲

      知行智庫平台運用NoSQL數據庫,使用專有的Client API來進行訪問。底層存儲引擎一般使用無模式的列數據庫,默認由多個Replica Set+Shard組成,當一個節點出現故障時,自動選舉產生新的主節點,通過多重保障為用戶提供大於99.999%的係統可用性和TPS>1000的吞吐量。

緩存數據存儲

      知行智庫平台充分考慮對應用程序的性能表現進行提升,運用緩存機製方法,使用內存數據庫實現緩存技術手段,使用Redis-Cluster來構建緩存數據存儲係統,使用自定義的File Store來支持持久化。

文件存儲

      知行智庫平台基於MooseFS良好的架構係統能提供極強的擴展性和較大的吞吐量,現有基於文件係統的程序不需要做任何修改就可以使用AFS。整個架構能滿足用戶從視頻網站到頭像小文件存儲等各種類型的文件存儲需求。

塊存儲

      知行智庫平台用作雲計算實例的磁盤存儲,整個架構分為M、S和C三個部分,分別代表Master、Chunk Server和Client。可為雲計算平台帶來許多優良特性,如更高的數據可靠性和可用性、靈活的數據快照功能、更好的虛擬機動態遷移支持、秒級主機故障恢複時間等等。

對象存儲

      知行智庫平台運用的對象存儲是為了克服塊存儲與文件存儲各自的缺點,發揚它倆各自的優點,主要保證在讀寫快同時也利於共享,能夠幫助用戶高效的管理整合海量數據。

NLP自然語言處理

       基於AI、模式識別、神經網絡等核心技術,進行深度數據挖掘與分析。同時,加入了自然語言處理算法,通過情感分析、文本挖掘、語言建模等方式,對數據進行有效處理。

詞性分析

      因為中文的自然語言書寫對於不同的詞之間不會采用顯示分隔符(如空格)進行分割,在大多數自然語言問題當中,分詞都作為最基礎的步驟。 詞性用來描述一個詞在上下文中的作用,而詞性標注就是識別這些詞的詞性,以確定其在上下文中的作用。一般情況下,詞性標注是建立在分詞基礎上的另一個自然語言處理的基礎步驟。為了適應知行智庫自然語言處理的需要, 知行智庫采用將分詞和詞性標注聯合枚舉的方法,實現了這一套分詞和詞性標注係統。

實體識別

      實體識別用於從文本中發現有意義的信息,例如人名、公司名、產品名、時間、地點等。 實體識別是語義分析中的重要的基礎,是情感分析、機器翻譯、語義理解等任務中的重要步驟。知行智庫實體識別引擎基於自主研發的結構化信息抽取算法,F1分數達到80%。通過對行業語料的進一步學習,可以達到更高的準確率。

情感分析

      情感分析指的是對文本中情感的傾向性和評價對象進行提取的過程。知行智庫情感引擎提供行業領先的篇章級情感分析。基於上百萬條社交網絡平衡語料和數十萬條新聞平衡語料的機器學習模型,結合自主開發的學習技術,正負麵情感分析準確度達到80%~85% 。經過行業數據標注學習後準確率可達85%~90%

自動摘要

      由於現今網絡的發展,信息獲取變的十分簡單和方便。隨之而來的弊端之一就是巨量的信息無法快速有效的處理以便後續使用。特別在新聞語料中,常出現大量重複、多餘或者不重要信息的情況。對此,較直觀的一種解決辦法是對新聞做摘要,減少信息長度,即新聞摘要。

關鍵詞提取

      關鍵詞作為一個對文本常用的概括,可以被應用於關鍵詞雲計算等應用上。知行智庫的關鍵詞提取引擎可以將文本自動進行關鍵詞分析,給出每個詞語相應的權重。

全流程大數據處理

      知行智庫平台對大數據的處理技術涵蓋數據采集、數據預處理、數據存儲、數據分析和挖掘以及數據展現的全流程。在合適工具的輔助下,對廣泛異構的數據源進行抽取和集成,結果按照一定的標準統一存儲,利用先進的數據分析技術對存儲的數據進行分析,從中提取有益的知識並利用恰當的方式將結果展示給終端用戶。

數據采集

      知行智庫平台可以從多種渠道來獲取和集成數據,確保在國內網站發布後2分鍾內采集到,響應速率高達80%

數據預處理

      知行智庫平台從全網信息中提取出關係和實體、經過關聯和聚合之後采用統一定義的結構來存儲這些數據,然後進行清洗,消除噪音或不一致數據,數據質量及可信度高達99%

數據存儲

      知行智庫大數據存儲使用無結構數據存儲,存儲引擎使用基於Hadoop生態係統的HBase和Hive。能夠讓用戶在大量的數據中查詢記錄,並且可以從中獲得綜合分析報告。

數據分析

      大數據處理的數據類型多種多樣,根據需求和場合的不同,知行智庫平台運用多種分析技術對數據進行分析,充分滿足用戶的使用需求幫助用戶方便地處理多種數據。

數據展現

      知行智庫數據可視化技術,通過將互聯網中采集,預處理,存儲,分析後的大量多維數據進行整合,使數據集構成數據圖像,同時將數據的各個屬性值以多維數據的形式表示,可以從不同的維度觀察數據,從而幫助用戶對數據進行更深入的觀察和分析。

機器學習

      知行智庫機器學習工具匯集大量優質分布式算法,可高效的完成海量、10 bilion維度數據的複雜計算,給業務帶來更為精準的洞察力;同時提供了一套極易操作的可視化編輯頁麵,大大降低了數據挖掘的門檻,提高建模效率,幫用戶快速得到大數據背後隱藏的秘密。

監督式學習

      知行智庫監督式學習利用邏輯回歸和反向傳遞神經網絡將預測結果與“訓練數據”進行比較,不斷的調整預測模型,直到模型的預測結果達到一個預期的準確率。

非監督式學習

      知行智庫非監督式學習利用Apriori算法以及k-Means算法,推斷出數據的內在結構實現關聯規則的學習和聚類分析。

半監督式學習

      知行智庫平台的半監督式學習對未標識數據進行建模,在推理算法和拉普拉斯支持向量機的基礎上對標識的數據進行預測。

深度學習

      知行智庫平台研發建立大得多也複雜得多的神經網絡,運用深度學習算法,來處理存在少量未標識數據的大數據集。