如是古籍?dāng)?shù)字化工具平臺(tái)用戶手冊(cè) V1.0 (2021-11-17) 本手冊(cè)適用于“如是古籍?dāng)?shù)字化工具平臺(tái)”用戶,據(jù)此,您將了解平臺(tái)的功能及操作 。 一、平臺(tái)簡(jiǎn)介 “如是古籍?dāng)?shù)字化工具平臺(tái)”是由北京如是人工智能技術(shù)研究院(簡(jiǎn)稱“如是研究院”)自主研發(fā)的、開放的古籍?dāng)?shù)字化系統(tǒng),旨在為古籍?dāng)?shù)字化相關(guān)單位和個(gè)人提供一套強(qiáng)大而又簡(jiǎn)單易用的古籍?dāng)?shù)字化生產(chǎn)工具。 平臺(tái)采用了先進(jìn)的深度學(xué)習(xí)OCR算法,基于大量的古籍標(biāo)注數(shù)據(jù),從而實(shí)現(xiàn)了古籍文字識(shí)別的高準(zhǔn)確率,同時(shí)提供一套基于瀏覽器的、簡(jiǎn)便易用的校對(duì)工具,從而有助于用戶簡(jiǎn)單、高效的完成古籍?dāng)?shù)字化作業(yè)。 平臺(tái)網(wǎng)址是:https://guji.:800,海外用戶如無(wú)法訪問(wèn),則可以訪問(wèn)鏡像網(wǎng)站:https://guji.world.。 圖1-1 如是古籍?dāng)?shù)字化工具平臺(tái)首頁(yè) 平臺(tái)提供如是OCR、智能標(biāo)點(diǎn)、標(biāo)點(diǎn)遷移、多文本比對(duì)等功能。 1 如是OCR
智能標(biāo)點(diǎn)
2 3 標(biāo)點(diǎn)遷移
多文本比對(duì)
4 個(gè)人用戶可以在“我的圖片”“我的標(biāo)點(diǎn)”中,對(duì)OCR數(shù)據(jù)和標(biāo)點(diǎn)數(shù)據(jù)進(jìn)行管理。 另外,平臺(tái)還支持團(tuán)隊(duì)用戶模式(需向我們提出申請(qǐng)),團(tuán)隊(duì)管理員可以進(jìn)入“管理后臺(tái)”,對(duì)團(tuán)隊(duì)成員和數(shù)據(jù)進(jìn)行管理,還可以進(jìn)行任務(wù)分派等操作,從而實(shí)現(xiàn)團(tuán)隊(duì)的分工與協(xié)作。 注:“如是OCR”和“智能標(biāo)點(diǎn)”功能,需注冊(cè)登陸后才能使用?!皹?biāo)點(diǎn)遷移”和“多文本比對(duì)”無(wú)需注冊(cè),可直接使用。 二、用戶注冊(cè) 2.1 用戶注冊(cè) 圖2-1 用戶注冊(cè)頁(yè)面 2.2 團(tuán)隊(duì)用戶 團(tuán)隊(duì)用戶指的是一個(gè)團(tuán)隊(duì)的所有用戶,包括團(tuán)隊(duì)普通用戶和團(tuán)隊(duì)管理員兩種角色。 與個(gè)人用戶不同,團(tuán)隊(duì)用戶的所有數(shù)據(jù),都屬于團(tuán)隊(duì),不屬于個(gè)人,團(tuán)隊(duì)管理員可以將數(shù)據(jù)指派給其他人。 團(tuán)隊(duì)管理員可以在管理后臺(tái)對(duì)團(tuán)隊(duì)數(shù)據(jù)和用戶進(jìn)行管理,可以將數(shù)據(jù)從用戶A指派給用戶B。指派后,用戶A的“我的圖片”或“我的標(biāo)點(diǎn)”中就不存在該數(shù)據(jù)了。 1. 什么情況需要申請(qǐng)團(tuán)隊(duì)用戶? 如果需要校對(duì)的古籍圖片數(shù)量較大,或者需要安排初校、審校等多個(gè)校對(duì)環(huán)節(jié),則建議申請(qǐng)成為團(tuán)隊(duì)用戶。 2. 團(tuán)隊(duì)管理員具有哪些權(quán)限?
注1:對(duì)方需先在平臺(tái)注冊(cè),成為注冊(cè)用戶,之后管理員才能發(fā)送邀請(qǐng)。 注2:加入團(tuán)隊(duì)操作不可逆,一旦加入,就無(wú)法退出。如果某用戶既需要參與團(tuán)隊(duì)工作,又有自己的校對(duì)工作,則建議申請(qǐng)兩個(gè)賬號(hào),以作區(qū)分。
3. 如何成為團(tuán)隊(duì)用戶? 掃描下面企業(yè)微信二維碼,添加如是研究院微信客服(該二維碼在平臺(tái)首頁(yè)右下角也有),獲取團(tuán)隊(duì)用戶申請(qǐng)表,填寫后提交申請(qǐng)。待審批通過(guò)后,平臺(tái)管理員將為您開通團(tuán)隊(duì)管理員相關(guān)權(quán)限。 三、工具介紹 3.1 如是OCR “如是OCR”功能允許用戶上傳圖片(單頁(yè)上傳或批量上傳)至系統(tǒng)后臺(tái),后臺(tái)將調(diào)用基于人工智能的古籍OCR技術(shù)進(jìn)行處理,然后將處理結(jié)果返回瀏覽器客戶端,用戶可以在瀏覽器界面上對(duì)OCR結(jié)果進(jìn)行校對(duì)。 如果您僅需要最終文本,則可以直接進(jìn)行文字校對(duì),平臺(tái)提供按列校對(duì)、按頁(yè)校對(duì)兩種文字校對(duì)方式。 如果您除了文本外,還需要準(zhǔn)確的坐標(biāo)數(shù)據(jù),則可先進(jìn)行切分校對(duì),校對(duì)字框、列框、欄框的切分坐標(biāo),然后再進(jìn)行文字校對(duì)。 注:如果用戶需要標(biāo)注數(shù)據(jù)來(lái)訓(xùn)練OCR引擎,則需要坐標(biāo)數(shù)據(jù)。又或者,制作雙層pdf時(shí),需要根據(jù)坐標(biāo)來(lái)排布文字,也需要坐標(biāo)數(shù)據(jù)。 進(jìn)一步,個(gè)人用戶可以對(duì)個(gè)人的圖片數(shù)據(jù)進(jìn)行管理,團(tuán)隊(duì)用戶可以對(duì)團(tuán)隊(duì)的圖片數(shù)據(jù)進(jìn)行管理。 因此,“如是OCR”不僅是一個(gè)古籍OCR工具,它支持完整的古籍?dāng)?shù)字化校對(duì)業(yè)務(wù),更是一個(gè)古籍?dāng)?shù)字化的校對(duì)平臺(tái)。 3.1.1 第一步:上傳圖片 上傳圖片支持“單頁(yè)上傳”“批量上傳”兩種模式。 3.1.1.1 單頁(yè)上傳 圖3-1 單頁(yè)上傳 首先,選擇文件。選擇單頁(yè)圖片,大小不超過(guò)2MB,單字像素建議在45px以上,支持jpg、png、tiff、gif等格式,不支持黑底白字。 其次,選擇版面。系統(tǒng)將根據(jù)用戶選擇的版面,將圖片分成單欄、上下兩欄、上下三欄的布局。同一欄內(nèi)的文字是連續(xù)的,而欄與欄之間的文字會(huì)被切割開來(lái)。 最后,選擇完成后進(jìn)行哪個(gè)操作:切分校對(duì)、按列校對(duì)(默認(rèn))、按頁(yè)校對(duì)。 OCR完成后,系統(tǒng)將根據(jù)用戶的選擇,進(jìn)入到對(duì)應(yīng)的操作界面。 3.1.1.2 批量上傳 圖3-2 批量上傳 批量上傳支持zip和rar兩種格式的壓縮包,壓縮包內(nèi)文件要求同“單頁(yè)上傳”。 批量上傳后,系統(tǒng)將進(jìn)入“我的圖片”中,用戶可以看到已上傳的圖片數(shù)據(jù)。后臺(tái)將同步調(diào)用OCR引擎對(duì)圖片進(jìn)行處理,處理完成后,就可以看到“字框數(shù)”了。 注:字框數(shù)為空時(shí),表示后臺(tái)尚未進(jìn)行OCR處理。 3.1.2 第二步:進(jìn)行校對(duì) 校對(duì)包括“切分校對(duì)”和“文字校對(duì)”。 切分校對(duì)的目的是檢查和完善各種切分框(字框、列框、欄框)的坐標(biāo)和順序。調(diào)整字框坐標(biāo)(即切分校對(duì)),從而使得字框的位置與大小恰好包圍住圖片上的文字。調(diào)整列框和欄框,從而確定哪些字框?qū)儆谕涣校男┝锌驅(qū)儆谕粰?。調(diào)整字框順序(即字序校對(duì)),從而使得同一列內(nèi)文字的順序與閱讀順序一致。調(diào)整列序和欄序,使得列和欄的順序與閱讀順序一致。 文字校對(duì)的目的是檢查和完善OCR生成的文字,最終得到與古籍圖片一致的文字內(nèi)容。系統(tǒng)提供按列校對(duì)和按頁(yè)校對(duì)兩種文字校對(duì)方式。 兩種校對(duì)既可以順序進(jìn)行,即先做切分校對(duì)后做文字校對(duì);也可以交叉進(jìn)行,即在做文字校對(duì)時(shí)如果發(fā)現(xiàn)切分框有誤或文字順序有誤并且影響到文字校對(duì)時(shí),則可切換到切分校對(duì)進(jìn)行修改,改完之后再回到文字校對(duì)界面。 大多數(shù)用戶的需求是為了得到準(zhǔn)確的文字內(nèi)容,則可以直接進(jìn)行文字校對(duì),無(wú)需進(jìn)行切分校對(duì),因此,接下來(lái)先介紹文字校對(duì)。 部分用戶的需求除了得到準(zhǔn)確的文字內(nèi)容外,還需要得到準(zhǔn)確的坐標(biāo)數(shù)據(jù),以便進(jìn)行諸如訓(xùn)練OCR引擎、制作雙層pdf之類的需求,則建議先做切分校對(duì),后做文字校對(duì)。 3.1.2.1 文字校對(duì) 文字校對(duì)提供兩種方式:按列校對(duì)和按頁(yè)校對(duì)。 3.1.2.1.1 按列校對(duì) 按列校對(duì)指的是“將圖片切割成列,在每列圖片右邊排布該列圖片對(duì)應(yīng)的文字”,以便用戶按列對(duì)文字進(jìn)行校對(duì)。如下圖所示。 圖3-3 按列校對(duì)界面 整個(gè)界面分為上中下三部分:上面(藍(lán)色方框區(qū)域)是工具欄;中間左邊(紅色方框區(qū)域)是圖文對(duì)照區(qū),右邊(綠色方框區(qū)域)是校對(duì)面板;下面(藍(lán)色方框區(qū)域)是狀態(tài)欄。 用戶逐列檢查列圖和對(duì)應(yīng)的文字,發(fā)現(xiàn)有誤時(shí),可用鼠標(biāo)點(diǎn)擊該文字,系統(tǒng)將會(huì)以該文字作為“當(dāng)前文字”(如上圖中紅色箭頭所指之處)。當(dāng)前文字將以紅色字體高亮顯示,同時(shí)在校對(duì)面板顯示當(dāng)前文字的相關(guān)信息,以便用戶進(jìn)行校對(duì)。 (1) 工具欄
表3-1 按列校對(duì)工具欄 (2) 校對(duì)面板 校對(duì)面板上方顯示“當(dāng)前文字”相關(guān)信息,包括候選文字、文字校對(duì)歷史等。校對(duì)面板下方是校對(duì)區(qū)域,用戶可以對(duì)文字進(jìn)行修改,或?qū)ξ淖謱傩赃M(jìn)行標(biāo)注,或?qū)υ撟诌M(jìn)行備注等。 候選文字指的是OCR引擎提供的候選文字列表,其中,紅色下劃線來(lái)自O(shè)CR列引擎,藍(lán)色下劃線來(lái)自O(shè)CR字引擎,其余9個(gè)來(lái)自O(shè)CR字引擎推薦。 用戶點(diǎn)擊候選文字時(shí),系統(tǒng)會(huì)將該文字自動(dòng)填入校對(duì)面板下方的文字輸入框,以便用戶校對(duì)。 (3) 圖文對(duì)照區(qū) 圖文對(duì)照區(qū)是用戶校對(duì)的主要區(qū)域,按列校對(duì)是“一列圖片對(duì)應(yīng)一列文字”的方式排布。 其中,如果OCR引擎文字和OCR字引擎文字不一致(稱為“異文”),則會(huì)以黑色下劃線提示;如果文字已被修改,則以深紅色字體提示。 (4) 狀態(tài)欄 狀態(tài)欄可分為左中右三部分:左側(cè)顯示圖片名字;中間顯示提示信息;右側(cè)顯示當(dāng)前文字的編碼信息。 3.1.2.1.2 按頁(yè)校對(duì) 按頁(yè)校對(duì)指的是“保持頁(yè)面的原始樣貌,在整頁(yè)圖片右邊排布圖片對(duì)應(yīng)的文字”,以便用戶按頁(yè)對(duì)文字進(jìn)行校對(duì)。 圖3-4 按頁(yè)校對(duì)界面 按頁(yè)校對(duì)的界面與按列校對(duì)相比,整體布局類似,也包括工具欄、圖文對(duì)照區(qū)、校對(duì)面板和狀態(tài)欄。 工具欄和圖文對(duì)照區(qū)有所不同,校對(duì)面板和狀態(tài)欄相同。以下介紹工具欄和圖文對(duì)照區(qū)域。 (1) 工具欄 以下列表將按頁(yè)校對(duì)工具欄的功能列出。其中,與按列校對(duì)相同的功能,不再列出。
表3-2 按頁(yè)校對(duì)工具欄 (2) 圖文對(duì)照區(qū) 圖文對(duì)照區(qū)與按列校對(duì)有所不同,按列校對(duì)是“一列圖對(duì)應(yīng)一列文”,按頁(yè)校對(duì)是“左邊整頁(yè)圖、右邊整頁(yè)文”。 文字區(qū)域中,如果OCR列引擎文字和OCR字引擎文字不一致(稱為“異文”),則會(huì)以黑色下劃線提示;如果文字已被修改,則以深紅色字體提示。這一點(diǎn)與按列校對(duì)相同。 不同之處在于:鼠標(biāo)懸停在黑色下劃線提示的異文處時(shí),將會(huì)彈框顯示校對(duì)文本、字框OCR、列框OCR。如下圖所示。 圖3-5 彈框顯示異文信息 3.1.2.1.3 常見(jiàn)問(wèn)題 1. 如何增加文字? 如果您僅需要最終的文字內(nèi)容,則可以點(diǎn)擊待增加文字的前一個(gè)文字作為當(dāng)前文字,然后在校對(duì)面板中將它修改為多個(gè)文字。 如果您需要文字和字框一一對(duì)應(yīng),則需要進(jìn)入切分校對(duì),先增加字框,然后回到文字校對(duì)修改該字框?qū)?yīng)的文字。 2. 如何刪除單個(gè)文字? 如果您僅需要最終的文字內(nèi)容,則可以直接將待刪除的文字校對(duì)為空即可。 如果您需要文字和字框一一對(duì)應(yīng),則需要進(jìn)入切分校對(duì),刪除該字框,再回到文字校對(duì)時(shí),則已刪除文字。 3. 如何批量刪除文字? 建議在切分校對(duì)界面中,按快捷鍵v進(jìn)入多選模式,然后用鼠標(biāo)拖拽畫框,選中待刪除的字框(將以紅色高亮顯示,表示選中),然后按del鍵或x鍵刪除。這種方式最為迅速、高效。 當(dāng)然,也可以在文字校對(duì)界面,逐個(gè)將待刪除的文字校對(duì)為空。 4. 如何調(diào)整文字順序? 一般而言,計(jì)算機(jī)給出的文字順序都是準(zhǔn)確的,即使是包含有雙行夾注的復(fù)雜版面,計(jì)算機(jī)也能給出準(zhǔn)確的文字順序。 注:如果是上下多欄的情況,用戶需要在進(jìn)行OCR時(shí),選擇好相應(yīng)的版面參數(shù),否則,將會(huì)視為單欄處理,文字列將會(huì)從天頭一直貫到地腳。如果在OCR時(shí)沒(méi)有選擇好版面,也可以進(jìn)入切分校對(duì),調(diào)整欄框來(lái)進(jìn)行修改。 一些特殊的版面,其文字順序與正常順序不一致,或者版面圖文混排、過(guò)于復(fù)雜,計(jì)算機(jī)給出的順序不是用戶想要的順序時(shí),需要進(jìn)入切分校對(duì)調(diào)整字序,然后再來(lái)進(jìn)行文字校對(duì)。文字校對(duì)界面,無(wú)法修改文字順序。 3.1.2.2 切分校對(duì) 切分,指的是用方框?qū)⒐偶畧D片上的文字或圖像邊界包圍,從而將其標(biāo)識(shí)出來(lái)的操作。切分校對(duì),指的是人工對(duì)計(jì)算機(jī)的切分結(jié)果進(jìn)行檢查和修改。 切分校對(duì)包括兩個(gè)步驟:校對(duì)切分框(包括字框、列框、欄框三種)的位置和大??;校對(duì)切分框的順序。為了簡(jiǎn)化起見(jiàn),前者稱為切分校對(duì),后者稱為字序校對(duì)。 注1:切分校對(duì)對(duì)應(yīng)兩個(gè)概念,大的概念指的是對(duì)切分框位置和大小的校對(duì)以及切分框順序的校對(duì),小的概念僅指的對(duì)切分框位置和大小的校對(duì)。 注2:字序校對(duì)的內(nèi)容包括字序、列序和欄序,由于字序?yàn)橹饕獌?nèi)容,因此稱為“字序校對(duì)”。 如果您僅需要最終的文字內(nèi)容,則除了批量刪除文字外,一般情況下無(wú)需使用切分校對(duì)。 如果您需要文字和字框一一對(duì)應(yīng),則需要進(jìn)行切分校對(duì)。 幾點(diǎn)說(shuō)明:
3.1.3 第三步:我的圖片 點(diǎn)擊平臺(tái)首頁(yè)頂部“我的圖片”,則會(huì)進(jìn)入“我的圖片”列表頁(yè)面。 圖3-6 我的圖片 頁(yè)面中包含了用戶上傳的所有圖片,用戶可對(duì)圖片進(jìn)行管理,包括:對(duì)列表進(jìn)行搜索;對(duì)每條數(shù)據(jù)進(jìn)行切分校對(duì)、按列校對(duì)、瀏覽、更新、導(dǎo)出、刪除等操作。 刪除后的數(shù)據(jù)將進(jìn)入回收站。點(diǎn)擊搜索框左邊的回收站標(biāo)志,即可進(jìn)入回收站,用戶可在回收站中還原已刪除的數(shù)據(jù)。 瀏覽將以按頁(yè)校對(duì)的方式顯示圖片和文字內(nèi)容,稍有不同的是,在工具欄右上方提供了備注、前一頁(yè)、后一頁(yè)的操作。如下圖所示: 圖3-7 瀏覽頁(yè)面 備注,允許用戶對(duì)當(dāng)前頁(yè)面數(shù)據(jù)進(jìn)行備注。上一頁(yè),允許用戶往前翻頁(yè)。下一頁(yè),允許用戶往后翻頁(yè)。 用戶可以對(duì)圖片列表進(jìn)行搜索后,檢索到“目標(biāo)數(shù)據(jù)集合”,然后點(diǎn)擊瀏覽。上一頁(yè),對(duì)應(yīng)的是目標(biāo)數(shù)據(jù)集合中當(dāng)前頁(yè)面的上一條數(shù)據(jù)。下一頁(yè),對(duì)應(yīng)的是目標(biāo)數(shù)據(jù)集合中當(dāng)前頁(yè)面的下一條數(shù)據(jù)。 注:如果用戶沒(méi)有進(jìn)行搜索而直接瀏覽,則目標(biāo)數(shù)據(jù)集合就是用戶的所有圖片。 通過(guò)搜索和瀏覽中的備注、上一頁(yè)和下一頁(yè)操作,用戶可以實(shí)現(xiàn)很多場(chǎng)景的需求。比如,可以沉浸式的進(jìn)行校對(duì),校對(duì)完當(dāng)前頁(yè)后備注“已完成”,然后點(diǎn)擊下一頁(yè)繼續(xù)校對(duì)。又或者需要檢查某些數(shù)據(jù)時(shí),首先搜索到這些數(shù)據(jù),然后進(jìn)行瀏覽檢查,邊檢查邊備注。 3.1.4 第四步:導(dǎo)出數(shù)據(jù) 平臺(tái)提供兩種數(shù)據(jù)導(dǎo)出方式,單頁(yè)導(dǎo)出、批量導(dǎo)出。 (1) 單頁(yè)導(dǎo)出 直接點(diǎn)擊某條數(shù)據(jù)對(duì)應(yīng)操作中的“導(dǎo)出”,即可以文本格式或json格式導(dǎo)出該數(shù)據(jù)。 (2) 批量導(dǎo)出 先選中待導(dǎo)出的圖片,然后點(diǎn)擊列表左上角的“批量導(dǎo)出”,即可批量導(dǎo)出選中的圖片的數(shù)據(jù)。導(dǎo)出時(shí)可以選擇純文本和json兩種數(shù)據(jù)格式,導(dǎo)出結(jié)果將以zip包下載。 json數(shù)據(jù)格式說(shuō)明如下:
3.2 智能標(biāo)點(diǎn) “智能標(biāo)點(diǎn)”功能允許用戶上傳古籍文本到系統(tǒng),系統(tǒng)將調(diào)用人工智能自動(dòng)標(biāo)點(diǎn)引擎對(duì)文本進(jìn)行標(biāo)點(diǎn),然后將結(jié)果返回至瀏覽器客戶端。用戶可以進(jìn)一步對(duì)標(biāo)點(diǎn)結(jié)果進(jìn)行修改、保存或復(fù)制導(dǎo)出。 3.2.1 操作步驟 第一步:上傳文本,進(jìn)行標(biāo)點(diǎn) 圖3-8 智能標(biāo)點(diǎn)上傳界面 將待標(biāo)點(diǎn)的文本輸入或粘貼到文本框,然后選擇文本框下面的標(biāo)點(diǎn)類型:現(xiàn)代標(biāo)點(diǎn)或句讀。如果文本中已有標(biāo)點(diǎn),需要先“清除標(biāo)點(diǎn)”,然后點(diǎn)擊“進(jìn)行標(biāo)點(diǎn)”。 第二步:修改、保存和復(fù)制導(dǎo)出 系統(tǒng)將調(diào)用人工智能自動(dòng)標(biāo)點(diǎn)引擎對(duì)文本進(jìn)行標(biāo)點(diǎn),然后返回瀏覽器客戶端。 用戶可以對(duì)標(biāo)點(diǎn)結(jié)果進(jìn)行修改,修改過(guò)程中隨時(shí)可以進(jìn)行保存。修改完成后,可以將標(biāo)點(diǎn)結(jié)果復(fù)制導(dǎo)出。 圖3-9 智能標(biāo)點(diǎn)結(jié)果界面 點(diǎn)擊“新建標(biāo)點(diǎn)”,可以回到第一步,重新開始上傳文本。 3.2.2 我的標(biāo)點(diǎn) 用戶上傳的所有文本,都可以在“我的標(biāo)點(diǎn)”中進(jìn)行管理,包括搜索數(shù)據(jù)列表,以及針對(duì)每條數(shù)據(jù)進(jìn)行查看(繼續(xù)修改標(biāo)點(diǎn))、更新(名稱或備注)以及刪除。 注:刪除后的數(shù)據(jù)將進(jìn)入回收站,用戶可以在回收站中還原已刪除的數(shù)據(jù)。 3.3 標(biāo)點(diǎn)遷移 在對(duì)古籍進(jìn)行標(biāo)點(diǎn)時(shí),常常需要用到或參考他人已有的標(biāo)點(diǎn)成果。 由于他人標(biāo)點(diǎn)所用的文本跟我們整理的文本之間不盡相同,無(wú)法直接使用他人的帶標(biāo)點(diǎn)的文本,而是需要將標(biāo)點(diǎn)遷移至我們的文本中,即“標(biāo)點(diǎn)遷移”。 標(biāo)點(diǎn)遷移,指的是針對(duì)“兩份相似文本,一份有標(biāo)點(diǎn),另一份沒(méi)有標(biāo)點(diǎn)”的情況,將標(biāo)點(diǎn)符號(hào)從有標(biāo)點(diǎn)的文本遷移至無(wú)標(biāo)點(diǎn)的文本的過(guò)程。其中,有標(biāo)點(diǎn)的文本稱為“來(lái)源文本”,無(wú)標(biāo)點(diǎn)的文本稱為“目標(biāo)文本”。 3.3.1 操作步驟 1. 準(zhǔn)備來(lái)源文本數(shù)據(jù)(帶標(biāo)點(diǎn)的文本); 2. 準(zhǔn)備目標(biāo)文本數(shù)據(jù)(如帶標(biāo)點(diǎn),則需要使用“清除標(biāo)點(diǎn)”功能進(jìn)行標(biāo)點(diǎn)清除); 3. 把來(lái)源文本和目標(biāo)文本分別復(fù)制到對(duì)應(yīng)的文本框中。 圖3-10 標(biāo)點(diǎn)遷移前 4. 點(diǎn)擊“進(jìn)行遷移”。系統(tǒng)將調(diào)用“標(biāo)點(diǎn)遷移”算法,將標(biāo)點(diǎn)從來(lái)源文本遷移至目標(biāo)文本中。 圖3-11 標(biāo)點(diǎn)遷移后 標(biāo)點(diǎn)遷移后,用戶可以點(diǎn)擊“復(fù)制結(jié)果”,系統(tǒng)會(huì)將比對(duì)結(jié)果復(fù)制到剪切板,用戶可進(jìn)一步粘貼至記事本、word等文本編輯器中。 3.4 多文本比對(duì) 古籍整理中,常需要對(duì)多份相似文本進(jìn)行比對(duì),找出其中的差異(即“異文”)。比如,多版本??睍r(shí),需要比對(duì)多份文本的差異,進(jìn)而形成??庇洝T偃?,同本異譯的多份文本之間,也需要比對(duì)多份文本差異,以便進(jìn)一步研究。 一般的文本比對(duì)技術(shù),僅僅能對(duì)兩份文本進(jìn)行比對(duì),本平臺(tái)的多文本比對(duì)功能則可以對(duì)多份相似文本進(jìn)行同時(shí)比對(duì)。 系統(tǒng)默認(rèn)提供10個(gè)文本框,您可點(diǎn)擊"+"號(hào),手工增加文本框。比對(duì)時(shí),如果文本框中的文本為空,則將會(huì)自動(dòng)忽略。 注:比對(duì)結(jié)果的換行以底本為準(zhǔn),比對(duì)時(shí)將自動(dòng)去掉其余文本中的換行符號(hào)。 3.4.1 操作步驟 1. 把底本和其它校本的文本依次復(fù)制到對(duì)應(yīng)的文本框中; 注:如果不希望比對(duì)標(biāo)點(diǎn),則可以使用“清除標(biāo)點(diǎn)”功能自動(dòng)清除當(dāng)前文本框內(nèi)的標(biāo)點(diǎn)符號(hào)。 2. 點(diǎn)擊“進(jìn)行對(duì)比”,提交系統(tǒng)后臺(tái); 3. 后臺(tái)將調(diào)用“多文本比對(duì)算法”,對(duì)用戶提交的多份文本進(jìn)行比對(duì),異文將以紅色高亮顯示。用戶點(diǎn)擊異文時(shí),將彈框顯示各個(gè)版本的用字情況。 注:彈框上有“<”“>”功能按鈕,方便查看上一條、下一條異文。 圖3-12 多文本比對(duì)界面 文本比對(duì)后,用戶可以點(diǎn)擊“復(fù)制結(jié)果”,系統(tǒng)會(huì)將比對(duì)結(jié)果復(fù)制到剪切板,用戶可進(jìn)一步粘貼至記事本、word等文本編輯器中。 3.5 管理后臺(tái) 團(tuán)隊(duì)管理員可以通過(guò)首頁(yè)頂部的“管理后臺(tái)”進(jìn)入到管理后臺(tái)界面。通過(guò)“管理后臺(tái)”,團(tuán)隊(duì)管理員可對(duì)本團(tuán)隊(duì)的用戶、圖片和標(biāo)點(diǎn)進(jìn)行管理。 3.5.1 用戶管理 “用戶管理”功能允許團(tuán)隊(duì)管理員了解本團(tuán)隊(duì)有哪些用戶,以及用戶的基本資料和角色等信息。 圖3-13 用戶管理界面 管理員可以通過(guò)“邀請(qǐng)用戶”功能,輸入用戶注冊(cè)時(shí)填寫的郵箱或手機(jī),向Ta發(fā)送團(tuán)隊(duì)邀請(qǐng)。 圖3-14 邀請(qǐng)用戶彈框界面 被邀請(qǐng)用戶登錄后,頭像右上角將會(huì)顯示紅點(diǎn)“●”,表示有團(tuán)隊(duì)邀請(qǐng)消息。點(diǎn)擊頭像進(jìn)入個(gè)人信息頁(yè)。 圖3-15 被邀請(qǐng)用戶的個(gè)人信息頁(yè) 用戶個(gè)人信息頁(yè)的下方,將會(huì)顯示團(tuán)隊(duì)邀請(qǐng)信息:某人邀請(qǐng)您加入團(tuán)隊(duì)某團(tuán)隊(duì) @ 某時(shí)間。用戶可以選擇加入或不加入。 注:用戶加入團(tuán)隊(duì)時(shí),用戶個(gè)人所有的圖片和標(biāo)點(diǎn)數(shù)據(jù),以及使用額度,都將屬于該團(tuán)隊(duì)所有。 3.5.2 圖片管理 “圖片管理”功能允許團(tuán)隊(duì)管理員對(duì)本團(tuán)隊(duì)的所有圖片數(shù)據(jù)進(jìn)行管理,包括:查看和搜索圖片數(shù)據(jù)列表;針對(duì)每條數(shù)據(jù),進(jìn)行切分校對(duì)、文字校對(duì)、瀏覽和更新操作。 注:切分校對(duì)、文字校對(duì)、瀏覽和更新操作與“我的圖片”中的操作相同。 3.5.2.1 數(shù)據(jù)檢索 系統(tǒng)提供兩種檢索方式: 快速檢索。直接在頁(yè)面右上角的檢索輸入框輸入圖片編碼、圖片名或者備注信息進(jìn)行檢索。 綜合檢索。點(diǎn)擊頁(yè)面上“綜合檢索”按鈕,可以輸入更加精確的檢索條件。 圖3-16 綜合檢索彈框 提示信息“默認(rèn)為模糊匹配,加=為精確匹配”,指的是,如果不加=,則進(jìn)行模糊匹配,加=,則進(jìn)行精確匹配。如在“圖片名”字段中輸入“GJ_1”,則會(huì)命中“GJ_1”“GJ_1_1”“GJ_1_2”等數(shù)據(jù);輸入“=GJ_1”,則僅會(huì)命中“GJ_1”數(shù)據(jù)。 通過(guò)圖片名和備注,可以很好的實(shí)現(xiàn)任務(wù)的分批與分工。不同批次的任務(wù),圖片名可設(shè)置為不同的前綴編碼。備注中,可備注“已完成初?!薄耙淹瓿啥!薄耙淹瓿蓪徍恕薄皥D片有誤”等,從而對(duì)任務(wù)狀態(tài)和進(jìn)度進(jìn)行區(qū)分。 3.5.2.2 批量指派 在列表左上角,系統(tǒng)提供了“批量指派”功能。 1. 管理員首先搜索、選中待指派的數(shù)據(jù),然后點(diǎn)擊“批量指派”; 圖3-17 圖片管理-批量指派 2. 系統(tǒng)將彈出對(duì)話框,進(jìn)一步選擇待指派的用戶; 圖3-18 批量指派-選擇用戶 3. 點(diǎn)擊“指派”。系統(tǒng)會(huì)將這些數(shù)據(jù)指派給對(duì)應(yīng)的用戶。 3.5.3 標(biāo)點(diǎn)管理 “標(biāo)點(diǎn)管理”功能允許團(tuán)隊(duì)管理員對(duì)本團(tuán)隊(duì)的所有標(biāo)點(diǎn)數(shù)據(jù)進(jìn)行管理,包括:查看和搜索標(biāo)點(diǎn)數(shù)據(jù)列表;針對(duì)每條數(shù)據(jù),進(jìn)行查看、更新和刪除操作。 注:查看、更新和刪除操作與“我的圖片”中的操作相同。 標(biāo)點(diǎn)管理也提供“綜合檢索”“批量指派”,其操作與功能與圖片管理類似,不再詳細(xì)說(shuō)明。 四、常見(jiàn)問(wèn)題 問(wèn):注冊(cè)后,可以免費(fèi)使用的額度是多少? 答:個(gè)人用戶注冊(cè)后,如是OCR的免費(fèi)額度請(qǐng)咨詢客服。 問(wèn):是否可以多人協(xié)作進(jìn)行一個(gè)古籍?dāng)?shù)字化項(xiàng)目的文字校對(duì)? 答:如前所說(shuō),可以。如果您需要用團(tuán)隊(duì)的方式進(jìn)行多人寫作,請(qǐng)跟我們聯(lián)系,進(jìn)行團(tuán)隊(duì)用戶以及團(tuán)隊(duì)管理員的設(shè)置。我們會(huì)提供簡(jiǎn)單的培訓(xùn),指導(dǎo)如何組建團(tuán)隊(duì)以及如何進(jìn)行任務(wù)的分配,以及更多的團(tuán)隊(duì)管理操作。 |
|