數據標註是對未經處理的語音、圖片、文本、視頻等數據進行處理,轉換成機器可讀信息的過程。原始數據壹般是通過數據采集獲得,後續的數據標註相當於對數據進行處理,然後輸送給人工智能算法和模型完成調用。
2.為什麽要做數據標註?
目前主流的機器學習方法是基於有監督的深度學習,對標記數據有很強的依賴性。未被標註的原始數據多為非結構化數據,機器無法識別和學習。只有被標記的數據在變成結構化數據後才能用於算法訓練。
3.數據標註的主要類型
計算機視覺
包括矩形框標註、關鍵點標註、線段標註、語義分割、實例分割標註、ocr標註、圖片分類、視頻標註等等。
l語音工程
包括ASR註音、切音、語音清洗、情感判斷、聲紋識別、音素標註、韻律標註、發音校對等等。
l自然語言理解
包括ocr音譯、詞性標註、命名實體標註、句子概括、情感分析、句子寫作、槽點提取、意圖匹配、文本判斷、文本匹配、文本信息提取、文本清洗、機器翻譯等等。
l自動駕駛點雲
包括三維點雲目標檢測標註、三維點雲語義分割標註、二維三維融合標註、點雲連續幀標註等。
京聯文科技提供語音、圖像、文本、視頻等各領域完整的數據處理能力。京聯文科技官網