著录 工作流程 系统脾性
电子书查重; 报增固资;
1.著录
面向查重的著录
(1)著录和组织
对于查重来说,画集的著者最好写编者,因为"某某画集"之类的题名作画的肯定是同一个人,写作画者完全没有区分意义.我们之前都是为了跟索取号的著者号挂钩才用作画者.
但谁说一定要挂钩呢?可以著者号写作画者的,200$f还是写编者的.只要按作画者排架的事实达到了就行,同时又保持到查重的区分度.其实如果我们忠实CIP或版权信息著录,就已经是写的编者了.采取这种做法,可能一方面是出于区分的理由,另一方面(也许是更重要的方面)是把画集理解为一种成册的"集",就是把所有画作化为同一尺寸收归于一书内,跟画作原作区别开来,这样画集的第一作者当然是编者,而原作的第一作者才是作画者了.这种理解更严谨.毕竟这些元数据如此规定是有其经验道理的.
组织/管理是一回事,可以主观可以有先取立场,是图书拥有者的事; 著录又是另一回事,是书本身的事.
(2)标点
查重时最怕遇到著录标准不统一的.
批量查重前的预处理(一般供应商数据库题名只有一个字段,没有细分正题名/副题名/分册名,通常有就都往题名写,有的甚至需要在题名写上丛书名.我们的ils题名查重功能书名级的都支持,不过是分段的,因此查重前要先对书商数据的题名以我们著录的规则进行本地化),一个重点是处理标点.全角改半角,以标点判断副题名/分册名并分节.
但我们的数据竟也不完全按统一规则的,例如写意花鸟·荷花画法就整一句写在了200$a(好在预处理前好奇查一查).
另外我之前做数据时也有过非写全角不可的情况,好像是标点左右两侧不是通常书目处理会理解的副题名/分册名之类的关系,而只是题名一种艺术方式的写法,当时我也犹豫过但最终按了逻辑的理解(cf.形式)做数据.这种情况也让查重预处理防不胜防.
也许每次先用查找出带这些符号的,先特殊对待,尝试查一下,再把能查出结果的关键词写入批量查重预处理文件..
2.工作流程
批量查重时,把待查文件分段分几个查吧,好处是批量查的时间可以短一些,可以一边查下个文件一边人工核对上个文件同步作业; 查前的预处理分开做也比较轻松,减少错误率; 大目标分成小任务,对旷日持久的查重工作来说也是个福音,有段落感,有个盼头.
3.系统脾性
(1)批量查重
编目的批量查重的"半角双引号开头忽略号外文字",今天才发觉不是在查找的时候忽略的,而是在填写查找关键字环节就自动check一次表达式,把双引号外的东西都自动给删去了.
单查一个关键字这个过程用户看不到,批量查找的时候就看到了.
右边是导入的txt文件,左边是导入后的真正待查关键字.

第3个还看到有两个双引号的情况,只取前者(自然).
(2)题名查询
编目的题名查询除了包括在200找各种层次的题名,还包括在225丛书名找.例如35786,题名七彩香烟牌,丛书名上海图书馆馆藏精选,以上海题名查询,这条也是命中项.
之前说过编目的题名查询只限于200层次(似乎有暗示过能查丛书名的只有在检索子系统)的,原来说错了.