2009年04月28日

系统脾性   阅览室

院系报增入库; 整理采访文件; 中文图书数据A216379-A216415; 着手准备装订细节

1.系统脾性
订购日期间隔参数
采访的订购号,订购日期间隔参数是指,从最近一次使用此订购号,

到本次再用此号为止,所经历的时间.

如果如提示所言,则只要调整os的系统时间,应该就可以解决这个问题.不过我们的ils(一般)是关一次采访子系统,订购号就相当于失效了(有过例外,但几率很低,目前还摸不清发生条件).

2.阅览室
阅览室同事对付不文明读者很有经验,但方法听来总觉得带点牵强很不自然..有时候馆员与读者就是个利益拉锯的关系..即使有人愿意付出更多让读者把握主动权,但有的同事会在拉锯战中争取先机..愿意付出的馆员不能总是在场,对同伴的控制有点力不从心了.
虽说人心的不受控制是必然,但没想到做图书管理员也要处理人的问题..体会中,学习…

系统脾性   字符

日常统计; 合订本数据Q023914-Q024033,

并移送Q023906-Q024033,加改补书标22册; 院系报增;

1.系统脾性
合订本的装订修改,如果改的是索取号,则只改一登录号行,其他登录号行全部已改.大概索取号是存在书目级的,只不过呈现是在登录号行呈现而已.

2.字符
看得出这俩词的区别吗?
Крокодил
Кроκодил

其实是有区别的.用google翻译,前者得出鳄鱼,后者翻不出.大概出在p或o处,可能前者用的是俄文字母,后者偷用了英文字母(但我真看不出来)?
中图的外刊目录用了翻不出的那个.同样是肉眼看不出.

查重

挑选电子书

1.查重
回看之前查重的,很多没预处理就直接机器查了.当然查不到是重的..是我没有花足够的时间分析那些题名..现在查完了,I feel overwhelmed..
虽然现在发现对结果几乎没什么影响了(因查重出来剩下的,几乎已经是我们要的数量了,如果论有重的都是一样的话),不过总想着有多些复本选择,就可以挑了.至少有些只有1本的,可以优先考虑保留(我还一早就考虑到可能复本超出待剔除数的问题,做的过程中还专门区分了1个复本还是多个复本呢)..
机器查重的质量取决于预处理,这么简单的问题竟然轻视了.很后悔..不过总算得到了坚定的经验.

备忘   查重

电子书查重; 接收暂存石’书; 期刊阅览沟通; 赠书回馈;

1.备忘
-接收石’书,A209171-A209313(143),A209315-A209506(171);
-期刊阅览同事对应急方案没有意见,执行状况也因人而异.下周做些标语.

2.查重
查重,还是硬着头皮宁愿绞尽脑汁转格式整合数据机器查,也再不一条条肉眼看了.事实证明,只要是有一定格式的,再无章法的数据也可以对大多数加工统合起来,用机器查的方式节省到时间.总要选多数的一边,少数的一边手工补,也已经节省不少精力了.
两周来的"校对"工作经验:
a.相信以上机器查重的功用.尤其数量大时.尽管人工看能准很多.尽量把两者结合用于全份待查数据上.
正解是:机器查出的一定有效,没查出的再人工全部覆盖.前者是用来减少劳动量,后者做决定最后把关.(今天双方数据都不能保证规范的情况下)不要幻想用一种方法由头做到尾能做出完备严密的查重,两者结合才是王道.
b.拿到数据后,先全部看一遍,总结数据写法上的规律;标准不统一者,做好心理准备,总有一部分是人工要查的.找出大多数所在的一边,针对其特点制定机器查重前预处理的策略.
通常机器查重的过程就是一次次筛选的过程(根据a的正解).查重过程的时间其实花在这里:观察数据,制定筛选策略.完了就是变形数据,统合成可沟通的格式,然后就是一按钮的问题了.
c.预处理/多次筛选时,每步都保留操作的所有证据.好回查,好重用.
d.常用的vba函数: match(),if(),countif(),index()…;
常用的db伎俩: 建新表(=主键+标签),主键相连,标签条件做布尔运算.
e.最有效的统合格式是最简单的格式.例如著者只写第一著者,不要动词;例如只用正题名..
f.人工查时,有丛书可先处理丛书,后再处理单本.

2009年04月27日

   by 三聯書店(香港)

取赠书; 合订本数据Q023865-Q023913,并移送Q023856-Q023905;

规则写作

新增固资入库; 验收090415赠书; 电子书查重; 撰写期刊规则;

1.规则写作
急需就立即成文.说的是规章制度.否则半个字憋不出.
关键是针对性.
写规则如此,扩而大之,想必出台法令规定同理.

著录   工作流程   系统脾性

电子书查重; 报增固资;

1.著录
面向查重的著录
(1)著录和组织
对于查重来说,画集的著者最好写编者,因为"某某画集"之类的题名作画的肯定是同一个人,写作画者完全没有区分意义.我们之前都是为了跟索取号的著者号挂钩才用作画者.
但谁说一定要挂钩呢?可以著者号写作画者的,200$f还是写编者的.只要按作画者排架的事实达到了就行,同时又保持到查重的区分度.其实如果我们忠实CIP或版权信息著录,就已经是写的编者了.采取这种做法,可能一方面是出于区分的理由,另一方面(也许是更重要的方面)是把画集理解为一种成册的"集",就是把所有画作化为同一尺寸收归于一书内,跟画作原作区别开来,这样画集的第一作者当然是编者,而原作的第一作者才是作画者了.这种理解更严谨.毕竟这些元数据如此规定是有其经验道理的.
组织/管理是一回事,可以主观可以有先取立场,是图书拥有者的事; 著录又是另一回事,是书本身的事.
(2)标点
查重时最怕遇到著录标准不统一的.
批量查重前的预处理(一般供应商数据库题名只有一个字段,没有细分正题名/副题名/分册名,通常有就都往题名写,有的甚至需要在题名写上丛书名.我们的ils题名查重功能书名级的都支持,不过是分段的,因此查重前要先对书商数据的题名以我们著录的规则进行本地化),一个重点是处理标点.全角改半角,以标点判断副题名/分册名并分节.
但我们的数据竟也不完全按统一规则的,例如写意花鸟·荷花画法整一句写在了200$a(好在预处理前好奇查一查).
另外我之前做数据时也有过非写全角不可的情况,好像是标点左右两侧不是通常书目处理会理解的副题名/分册名之类的关系,而只是题名一种艺术方式的写法,当时我也犹豫过但最终按了逻辑的理解(cf.形式)做数据.这种情况也让查重预处理防不胜防.
也许每次先用查找出带这些符号的,先特殊对待,尝试查一下,再把能查出结果的关键词写入批量查重预处理文件..

2.工作流程
批量查重时,把待查文件分段分几个查吧,好处是批量查的时间可以短一些,可以一边查下个文件一边人工核对上个文件同步作业; 查前的预处理分开做也比较轻松,减少错误率; 大目标分成小任务,对旷日持久的查重工作来说也是个福音,有段落感,有个盼头.

3.系统脾性
(1)批量查重
编目的批量查重的"半角双引号开头忽略号外文字",今天才发觉不是在查找的时候忽略的,而是在填写查找关键字环节就自动check一次表达式,把双引号外的东西都自动给删去了.
单查一个关键字这个过程用户看不到,批量查找的时候就看到了.
右边是导入的txt文件,左边是导入后的真正待查关键字.

第3个还看到有两个双引号的情况,只取前者(自然).
(2)题名查询
编目的题名查询除了包括在200找各种层次的题名,还包括在225丛书名找.例如35786,题名七彩香烟牌,丛书名上海图书馆馆藏精选,以上海题名查询,这条也是命中项.
之前说过编目的题名查询只限于200层次(似乎有暗示过能查丛书名的只有在检索子系统)的,原来说错了.

系统脾性

合订本数据Q023825-Q023855,移送Q023775-Q023855,另还有(1+12+6)改补书标的; 院系报增; 折腾机子,咨询固资,沟通

1.系统脾性
过登录号
今天开通了编目的复本处理(插删改)权限.之前有入藏了的登录号入错了书目,编目的重复登录号过书目最方便了,可以保持卷期/价钱/库室等典藏信息,只是改所属书目.
但连续过两条貌似是不行的.
100932的登录号Q023663和Q023664要过到100903.单过一条Q023664很正常,紧接着,不存盘直接再过Q023663,就会提示出错.这是在复本处理窗口新增登录号行,写入Q023663后,自动查出是用过的登录号,确认是要过那登录号行后,就出现这画面了:

注意看图中原所在书目,已经"成功移动"到新书目的Q023664还在呢.这大概就是问题所在了吧?
因此每过一登录号,就要存一次盘,存过后才能继续过.
我测试过,无论待移动登录号原来的书目是同一条,还是在两条里,都是这一句出错信息.

DB   系统脾性   电子书入ILS   查重

电子书查重

1.DB
操作
一个筛选用一个标签列;两次筛选即使讲的是同一东西,但有些微区别者,也用两个标签列.因为筛选标签是过程量,要经过两次筛选的,总有区分的价值,保留一切过程信息以防后来要用到.否则很容易重复劳动.

2.系统脾性
编目批量查重
a.只有编目有批量查重.
b.编目的批量查重是遍历,不是第一次匹配即返回.这点好.
c.编目查重只提供前文/左方一致的模式,但采访查重需要的是全文匹配.(ps.编目至少该提供三种模式:全文,前文,任意位置)
d.批量查重只提供单字段查询,不能组合查询或二次查询.

3.电子书入ils
如果真要将电子书整合要入ils,用电子书的文献类型,编虚拟的登录号,入虚拟的库,遇上纸质也有复本时共用一条书目(除了载体形式外,电子书跟它扫描来的原书信息完全一样啊,甚至215页数配图细节也一样,甚至连尺寸也可以说是一样,扫描的pdf或图片是有尺寸的啦~只不过存储形式有实有虚罢了),网址用856.
目前不少电子书供应商都用上marc来组织书目(OCLC的NetLibrary,Ebrary,Oxfordtw,Springer,ScienceDirect,方正阿帕比),供图书馆整合到在线目录中.OCLC netLibrary 电子书 经验分享说到将电子书书目做入ils是推广电子书的一个策略.

4.查重
人工查重很低效耗时,不过能够分辨出哪些是录入时的手误,哪些是著录层次导致的不一致,查准率会高很多.机器查重的前提是双方数据都做得规范标准.