首先要拉平一個(gè)認(rèn)知:看簡(jiǎn)歷是個(gè)體力活,如同高考文科閱卷,看多了是真的會(huì)瞎的。
不知道什么時(shí)候開(kāi)始,資本市場(chǎng)盯上了求職招聘渠道,于是,HR吃“筍”的季節(jié)就到了,一頓兩頓鮮美可口,日子久了,企業(yè)每個(gè)在招職位都可能有成百上千的投遞量,造成HR要篩選、評(píng)估大量簡(jiǎn)歷。“筍”吃膩了就會(huì)派生出HR各種各樣的“神”操作,三秒看一份簡(jiǎn)歷、成批量Pass簡(jiǎn)歷、邀約面試“臉盲”現(xiàn)象比比皆是,一定程度上影響了后期的人才精準(zhǔn)化對(duì)位。
這些只是表象,內(nèi)核其實(shí)是HR每天為積累更加豐富的企業(yè)人才庫(kù),將來(lái)自各渠道五花八門(mén)的簡(jiǎn)歷進(jìn)行關(guān)鍵信息檢索再匹配到崗位,真的會(huì)篩到“痛哭”。行業(yè)數(shù)據(jù)也驗(yàn)證了這一項(xiàng)工作的疼痛指數(shù):在HR的有效工作時(shí)間內(nèi),簡(jiǎn)歷篩選的時(shí)間占比超過(guò)50%!
不過(guò)伴隨著AI技術(shù)的發(fā)展,識(shí)別簡(jiǎn)歷中固定字段的簡(jiǎn)歷解析技術(shù)也正在逐步趨向于成熟。
至于簡(jiǎn)歷解析是什么?總體來(lái)說(shuō),是對(duì)非結(jié)構(gòu)化的簡(jiǎn)歷文本實(shí)現(xiàn)準(zhǔn)確、高效的關(guān)鍵信息抽取,自動(dòng)識(shí)別簡(jiǎn)歷中個(gè)人的基本信息、工作經(jīng)驗(yàn)、教育經(jīng)歷等方方面面的內(nèi)容,實(shí)現(xiàn)簡(jiǎn)歷的結(jié)構(gòu)化處理,降低人力整理的成本,簡(jiǎn)化HR錄入簡(jiǎn)歷過(guò)程。總而言之,就是要在招聘開(kāi)始就規(guī)范求職者畫(huà)像,讓HR拿到簡(jiǎn)歷想看到什么就第一眼能看到,最終為招聘管理系統(tǒng)實(shí)現(xiàn)人崗自動(dòng)化匹配、數(shù)據(jù)精準(zhǔn)化提取、渠道簡(jiǎn)歷篩選、查重提供堅(jiān)實(shí)基礎(chǔ)。
Moka招聘管理系統(tǒng)利用大數(shù)據(jù)與AI 技術(shù),提升了簡(jiǎn)歷解析的數(shù)據(jù)覆蓋范圍與精準(zhǔn)度,實(shí)現(xiàn)了優(yōu)于同行業(yè)解析水平10%的提升。目前Moka招聘管理系統(tǒng)的簡(jiǎn)歷解析技術(shù)結(jié)合了概率圖模型、傳統(tǒng)機(jī)器學(xué)習(xí)模型與深度學(xué)習(xí)模型,包括當(dāng)前業(yè)界效果最優(yōu)的LSTM(長(zhǎng)短期記憶網(wǎng)絡(luò))+CRF(條件隨機(jī)場(chǎng))模型、OCR(圖像文字提?。┑燃夹g(shù),解析維度超過(guò)100個(gè),新技術(shù)的使用讓 Moka在國(guó)內(nèi)招聘管理系統(tǒng)走向AI智能化的競(jìng)速賽中,實(shí)現(xiàn)了彎道超車(chē)。
在業(yè)內(nèi),簡(jiǎn)歷解析的技術(shù)壁壘一直以來(lái)沒(méi)有明確的“三八線(xiàn)”,只要對(duì)程序有一些了解就可以做到,但是要做到準(zhǔn)確率不斷優(yōu)化,在實(shí)踐中無(wú)止境的和HR工作場(chǎng)景吻合是非常難的,那么Moka招聘管理系統(tǒng)是如何實(shí)現(xiàn)這10%準(zhǔn)確率提升的呢?
自定義模型抓取,讓簡(jiǎn)歷解析一開(kāi)始就是精準(zhǔn)的
Moka招聘管理系統(tǒng)針對(duì)不同簡(jiǎn)歷的格式采取了個(gè)性匹配化的信息抓取模型。
目前,同行業(yè)產(chǎn)品的簡(jiǎn)歷抓取技術(shù)模型可針對(duì)PDF、Word等格式簡(jiǎn)歷文本統(tǒng)一轉(zhuǎn)化為txt格式,但是這種“一刀切”的解析路徑會(huì)嚴(yán)重影響到不同格式簡(jiǎn)歷解析的準(zhǔn)確率,例如,我們看大多數(shù)的簡(jiǎn)歷解析路徑都是從上至下來(lái)讀取簡(jiǎn)歷文本信息的,所以一旦一份簡(jiǎn)歷的撰寫(xiě)格式是從左到右的,那解析就會(huì)出現(xiàn)錯(cuò)亂。
為此,Moka招聘管理系統(tǒng)針對(duì)html、pdf、doc、docx、ppt、pptx、eml、txt等格式的簡(jiǎn)歷解析做了專(zhuān)門(mén)的解析模型,而對(duì)于圖片類(lèi)簡(jiǎn)歷,采用更垂直領(lǐng)域的訓(xùn)練數(shù)據(jù)訓(xùn)練OCR (圖像文字提取技術(shù))的模型,使系統(tǒng)能更好地理解真實(shí)場(chǎng)景下的簡(jiǎn)歷。
模塊解析,梳理簡(jiǎn)歷信息鏈條
僅僅依靠針對(duì)不同簡(jiǎn)歷的格式采取個(gè)性匹配化的信息抓取模型是遠(yuǎn)遠(yuǎn)不夠的。例如,很多公司并沒(méi)有標(biāo)準(zhǔn)化的名稱(chēng)后綴,如華為科技、百度云網(wǎng)盤(pán)等。而且,假使在騰訊科技做商務(wù)對(duì)接的工作期間就涉及到了京東作為客戶(hù)的情況,那么要如何能讓人工智能讀懂這一段工作經(jīng)歷是在騰訊,而不會(huì)將關(guān)鍵信息聚焦在京東,怎么進(jìn)行關(guān)鍵信息的解析呢?
在拿到針對(duì)不同簡(jiǎn)歷的格式進(jìn)行個(gè)性匹配化的信息抓取后,Moka智能化招聘管理系統(tǒng)對(duì)簡(jiǎn)歷每個(gè)模塊進(jìn)行了解析,如上下文特征,這一段落主旨在表達(dá)什么,上一個(gè)段落信息是否已經(jīng)齊全,是否能能聯(lián)系上下文進(jìn)行模塊化的精準(zhǔn)解析梳理,讓簡(jiǎn)歷主旨鮮明,為AI對(duì)簡(jiǎn)歷語(yǔ)意的加深理解掃清了障礙。
語(yǔ)句解析,加深候選人真實(shí)意思認(rèn)知
當(dāng)簡(jiǎn)歷解析技術(shù)面對(duì)簡(jiǎn)歷段落信息時(shí),假如其中出現(xiàn)了多個(gè)標(biāo)簽字段或者是沒(méi)有識(shí)別出任何字段時(shí),這種情況帶來(lái)了新的考驗(yàn)。如何提取句子的主旨信息就成為了關(guān)鍵,比如,如何判定語(yǔ)句內(nèi)容是公司名稱(chēng)?項(xiàng)目名稱(chēng)?或僅僅是一句可有可無(wú)的描述?這些在人的大腦中都要進(jìn)行一定的判別,而在AI的世界中,人究竟要怎么訓(xùn)練它完成理解呢?
Moka招聘管理系統(tǒng)為提升解析的精準(zhǔn)度,匹配以具體語(yǔ)句為單位的簡(jiǎn)歷解析描述,將候選人簡(jiǎn)歷在模塊區(qū)分的基礎(chǔ)上逐句進(jìn)行語(yǔ)意解析,對(duì)關(guān)鍵字段難以識(shí)別的句子,充分考慮句內(nèi)以及句間關(guān)系,并聯(lián)系上下文建模,精準(zhǔn)觸達(dá)候選人表達(dá)的意思,使解析趨向于提煉簡(jiǎn)歷核心意思表示,讓HR閱讀簡(jiǎn)歷工作事半功倍。
逐字解析,構(gòu)建候選人3D畫(huà)像
術(shù)業(yè)有專(zhuān)攻,在AI智能化的應(yīng)用中,招聘管理系統(tǒng)絕對(duì)算不上普惠的深水區(qū)。前有淘寶對(duì)于網(wǎng)絡(luò)用戶(hù)購(gòu)買(mǎi)行為的解析、后有抖音對(duì)于用戶(hù)興趣偏好的解析,均是首屈一指,但在簡(jiǎn)歷解析技術(shù)的試驗(yàn)田內(nèi),Moka招聘管理系統(tǒng)確實(shí)獨(dú)具話(huà)語(yǔ)權(quán)。
例如:在針對(duì)簡(jiǎn)歷中個(gè)別詞的解析時(shí),“前端”可能在其他產(chǎn)品中解析出的結(jié)果僅僅是“前面”,可在Moka招聘管理系統(tǒng)中,會(huì)直接關(guān)聯(lián)到職位信息中。這就得益于Moka招聘管理系統(tǒng)對(duì)于逐個(gè)字段的解析能力,會(huì)自動(dòng)聯(lián)系上下文全面解析該語(yǔ)意的真正意思,并通過(guò)前期積累的大量訓(xùn)練語(yǔ)料及貼合使用場(chǎng)景的詞向量的應(yīng)用,可精準(zhǔn)化的根據(jù)簡(jiǎn)歷信息構(gòu)建候選人3D畫(huà)像。
在Moka招聘管理系統(tǒng)的視角,簡(jiǎn)歷解析準(zhǔn)確率的提升遠(yuǎn)遠(yuǎn)不是終極目標(biāo),而未來(lái)招聘管理系統(tǒng)會(huì)走向什么樣的終點(diǎn),似乎也沒(méi)有疆界。但確定無(wú)疑的是,未來(lái)AI技術(shù)在招聘領(lǐng)域的應(yīng)用絕對(duì)不局限于簡(jiǎn)歷解析,還會(huì)滲透到HR工作中的方方面面,Moka會(huì)一直努力。