【转载】数据挖掘技术研究进展 作者:speedfish 日期:2004年06月14日
数据挖掘技术研究进展 作者:speedfish 日期:2004年06月14日
--------------------------------------------------------------------------------
1.前 言
随着计算机技术和信息技术的发展,信息的增长速度呈现指数上升,最近几十年产生了很多超大型数据库,遍及超级市场销售、银行存款、天文学、行政办公、科学研究、信息量的急剧增长,使传统分析方法远远不能满足现实的需求。面对海量数据,如何从中发现有价值的信息或知识,成为一项非常艰巨的任务。人们急切的需要一种去粗存精、去伪存真的技术,能够从海量的数据中提取知识和信息的数据挖掘技术应运而生[1]。
数据挖掘(Data Mining)就是从大量的、不完全的、有噪声的、模糊的、随机的数据中,提取隐含在其中的、人们事先不知道的、但又是潜在有用的信息和知识的过程[2]。这些数据可以是结构化的,如关系数据库中的数据,也可以是半结构化的,如文本,图形,图像数据,甚至是分布在网络上的异构型数据。发现知识的方法可以是数学的,也可以是非数学的,可以是演绎的,也可以是归纳的。发现了的知识可以被用于信息管理、查询优化、决策支持、过程控制等,还可以进行数据自身的维护。数据挖掘借助了多年来数理统计技术和人工智能以及知识工程等领域的研究成果构建自己的理论体系,是一个交叉学科领域,可以集成数据数据库、人工智能、数理统计、可视化、并行计算等技术。
2. 数据挖掘技术的发展
1989年8月,在美国底特律召开的第11届国际人工智能联合会议的专题讨论会上首次出现KDD这个术语,随后在1991,1993,1994年都举行了KDD专题讨论会,集中讨论数据统计、海量数据分析算法、知识表示、知识运用等问题。KDD国际学术大会研究重点逐渐从发现方法转向系统应用,并且注重多种发现策略和技术的集成,以及多种学科之间的相互渗透,数据挖掘和知识发现成为当前计算机科学界的一大热点。1998年在美国纽约举行的第四届知识发现与数据挖掘国际学术会议上有30多家软件公司展示了数据挖掘软件产品,不少软件已经在北美和欧洲的国家得到应用。
META Group曾做出这样的评论:“全球重要的企业、组织会发现,到21世纪数据挖掘技术将是他们商业成功与否的至关重要的影响因素”。IBM公司发布了基于标准的数据挖掘技术-IBM DB2智能挖掘器积分服务,可用于个性化的解决方案。两大统计软件公司SAS和SPSS也推出了各自的数据挖掘工具Enterprise Miner和Clementine[3]。此外,在Internet上还有不少KDD电子出版物,其中以半月刊Knowledge Discovery Nuggets最为权威,另一份在线周刊为DS(决策支持),1997年开始出版。自由论坛DM Email Club可以通过电子邮件讨论数据挖掘和知识发现的热点问题。数据挖掘是数据库和信息决策领域的最前沿的研究方向之一,已引起了国内外学术界的广泛关注。在我国已经开始进行数据挖掘技术的研究,但还没有看到数据挖掘技术在我国成功应用的大型案例。
3.数据挖掘的目的
数据挖掘并不专用于特定领域,它需要凝结各种技术和创造力去探索可能隐藏在数据中的知识。在很多情况下,应用数据挖掘技术是为了实现以下三种目的:
·发现知识:知识发现的目标是从数据库存储的数据中发现隐藏的关系、模式和关联。例如,在商业应用中数据挖掘可用于发现分割、分类、关联、喜好四种知识。发现分割知识可以将客户记录分组,策划为客户度身定做的推销活动。发现分类知识可以将输入的数据分配到预定义的类别中,发现和理解趋势以及对文本文档的进行分类等。发现交叉销售的机会是一种关联知识,以及发现大部分客户的喜好的知识[4]。
·使数据可视化:分析人员需搞清楚数据库中存储的大量信息的含意。在做任何分析之前,需先将待处理的数据人性化,并寻找显示数据的好方法。
·纠正数据:在结合大规模的数据库时,数据库的数据常常是不完整的,而且通常包含错误和自相矛盾的信息。数据挖掘需要以最稳定的方法识别和纠正这些问题[5]。
4. 数据挖掘的方法
数据挖掘方法分为统计方法、机器学习方法、神经网络方法和数据库方法。
·统计学的方法是数据挖掘的经典方法。统计方法中包括回归分析(多元回归、自回归等)、判别分析(贝叶斯判别、费歇尔判别、非参数判别等)、聚类分析(系统聚类、动态聚类等)、探索性分析( 主元分析法、相关分析法等)等[6]。
·机器学习中包括归纳学习方法(决策树、规则归纳等)、基于范例学习、遗传算法、粗糙集等。粗糙集能够对不确定、不完整信息的进行处理,而遗传算法具有全局最优搜索的能力[7]。
·神经网络方法具有处理非线性数据和含噪声数据的能力。神经网络的常用算法包括前向神经网络(BP算法等)、自组织神经网络(自组织特征映射、竞争学习等)等[8]。
·数据库方法主要是多维数据分析或OLAP方法[9]。OLAP系统的数据库为高效存储静态数据构建。其存储结构的设计是为了高效检索数据,尤其是聚合数据,比如求总和或是其他运算[10]。
5. 数据挖掘的主要步骤
数据挖掘是一个复杂的过程,它的一般步骤是:
(1)分析问题: 源数据数据库必须经过评估确认其是否符合数据挖掘标准。以决定预期结果,也就选择了这项工作的最优算法。
(2)提取、清洗和校验数据:提取的数据放在一个结构上与数据模型兼容的数据库中。以统一的格式清洗那些不一致、不兼容的数据。一旦提取和清理数据后,浏览所创建的模型,以确保所有的数据都已经存在并且完整。
(3)创建和调试模型:将算法应用于模型后产生一个结构。浏览所产生的结构中数据,确认它对于源数据中"事实"的准确代表性,这是很重要的一点。虽然可能无法对每一个细节做到这一点,但是通过查看生成的模型,就可能发现重要的特征。
(4)查询数据挖掘模型的数据:一旦建立模型,该数据就可用于决策支持了。在微软的数据挖掘解决方案中,该过程通常使用VB或ASP通过OLE DB for Data Mining Provider编写前端查询程序[11]。
(5)维护数据挖掘模型:数据模型建立好后,初始数据的特征,如有效性,可能发生改变。一些信息的改变会对精度产生很大的影响,因为它的变化影响作为基础的原始模型的性质。因而,维护数据挖掘模型是非常重要的环节[5]。
6. 数据挖掘的常用工具
数据挖掘工具的市场一般分为三个组成部分:通用型工具、综合/DSS/OLAP数据挖掘工具和快速发展的面向特定应用的工具。
通用型工具占有最大和最成熟的那部分市场。从定义上说,它们是非面向特定应用的适合于各种需要的情况,其中包括的主要工具有SAS Enterprise Miner、IBM Intelligent Miner、Oracle Darwin、SPSS Clementine、Unica PRW、SGI MineSet等软件。
综合数据挖掘工具这一部分市场反映了商业对具有多功能的决策支持工具的真实和迫切的需求。商业要求该工具能提供管理报告、在线分析处理和普通结构中的数据挖掘能力。这些综合工具包括Cognos Scenario和Business Objects等。
面向特定应用工具这一部分工具正在快速发展,在这一领域的厂商设法通过提供商业方案而不是寻求方案的一种技术来区分自己和别的领域的厂商。这些工具是纵向的、贯穿这一领域的方方面面,其常用工具有重点应用在零售业的KD1、主要应用在保险业的Option&Choices和针对欺诈行为探查开发的HNC软件[12]。
7. 数据挖掘的应用领域
数据挖掘技术从一开始就是面向应用的,它不仅可用于特定数据库的简单检索查询调用,而且要对这些数据进行统计、分析、综合和推理,以指导实际问题的求解,发现事件间相互关联关系和进行预测。商业上通过使用面向CRM数据挖掘技术使公司可以快速的对顾客的需求做出反应,并且可以检验商业策略的成效[13]。在科学研究方面,一个天文学上的著名应用系统SKICAT就是相当成功的数据挖掘应用,利用该系统,天文学家已发现16个新的极其遥远的星群。在生物医学和DNA数据分析上,数据挖掘可以完成异构、分布式基因数据库的语义集成,用关联规则分析同时出现的基因序列,用路径分析发现在疾病不同阶段的致病基因等[14]。NBA教练就运用Advanced Scout来挖掘信息,安排阵型,提高了获胜的机率;在金融投资方面,FALCON系统是信用卡欺诈估测系统,已被相当数量的银行采用,FAIS是一个用于识别与洗钱有关的金融交易系统,LBS Capital Management则使用了专家系统、神经网络和基因算法技术来辅助管理多达6亿美元的有价证券;在电信业,利用数据挖掘可以确定潜在的盗用者和他们的非典型使用模式,检测想侵入用户账户的企图以及发现需要引起注意的异常模式,从而保证电信业的正常运转。在电力系统中,应用于数据挖掘技术的数据有电力系统的范围特征(包括是时间和空间上的)与统计特征,通常有几千个状态变量;混合存在的离散信息(如网络拓扑结构的改变或保护动作等)和连续信息(如某些连续变化的状态变量);对某些不确定量的掌握和处理(如噪声和不完整信息等)[15]。在Internet,利用数据挖掘技术可以Web后台数据库进行分类处理,从而向用户提供更快、更准、更有效的信息。同时,也可通过对Web日志进行挖掘,发现Web用户访问模式,在高度相关的站点提供快速有效的访问通道,帮助更好地设计Web主页,改善市场营销决策[16]。
8.结束语
越来越多人们已经认识到数据挖掘技术能将原始数据转换为有意义的形式,从中挖掘潜在的巨大商业价值和所蕴含的科学知识,数据挖掘已成为电子商务淘金的首要的手段。具有影响的"MIT技术回顾"最近对数据挖掘技术极力赞扬,认为其已成为十大新兴技术之一[4],将彻底改变数据库的处理模式。随着数据挖掘技术不断被应用到新的领域和各种算法不断被应用到数据挖掘领域中,将更大激发数据挖掘技术的潜力,进一步推进数挖掘技术的发展和普及[17]。
【转载】五大知识管理(KM)的产品与服务 作者:孙定
五大知识管理(KM)的产品与服务
作者:孙定
知识管理解决方案的核心内容是制定知识管理策略。知识管理策略要解决观念问题,要突破信息时代形成的思维定式,更新知识,使观念向知识时代校正。知识管理策略还要解决机构的文化问题,使机构具有知识时代所要求的组织学习能力并建立知识共享机制。接下来是选择适当的产品,开发知识管理项目。因此,知识管理市场具有咨询服务需求与技术产品需求共生的特点。前者解决知识更新、观念更新、策略制定、文化改造、调整机制等问题;后者解决具体实现的问题。正是基于知识管理的这种特点,重要的知识管理供应商都同时提供咨询服务和技术产品。
知识管理产品与服务的另一特点是种类繁多,每个供应商都有自已的一套说法,这些说法互不相同,甚至差别巨大。这是由两个原因造成的:首先,目前无论在学术上还是在实际应用中,知识管理都处于非常早期的阶段,其定义有数百种,学术上也有很多不同的观点,供应商当然是各取所需;其次,供应商都是从自已原先的领域进入知识管理领域,拥有不同的技术和产品,而知识管理本身与其说是一种新技术不如说是一种新观念,大量现有产品与技术都与知识管理相关,供应商所做的只是根据知识管理的需求,重新定位现有的产品。
这里着重讨论一些重要的、具有不同特点的知识管理产品与服务。
Lotus:以专取胜
虽说Lotus与IBM本是一家,知识管理论调也一样,但各自有各自的知识管理产品,所以还是要分开说。
在所有知识管理解决方案厂商中,Lotus给人印象最为深刻。知识管理所必需的文档管理和群件技术在1998年前后已经是Lotus的主打产品。而Lotus Notes本身是一个可完成多种应用的平台,虽然不是浏览器界面,但在原理上已经很接近企业门户,这些都是Lotus进入知识管理市场的先天优势。这两年知识管理的兴起,对Lotus来说实在是一个天赐良机。Lotus在知识管理上狠下一番功夫,拼命赌一把也就在情理之中了。 Lotus、IBM研究中心、IBM知识管理研究所共同对Lotus专业服务以及IBM全球知识管理服务机构在全球的2万个客户的知识管理实践进行了调查,以Lotus现有技术为基本出发点,制定出独特的理论框架,并确立了知识管理产品策略。第一个产品K-Station企业门户和其配套产品Discovery Server已经完成。
Lotus认为,仅仅将知识管理局限在从海量信息中提取有用资料是不够的,还要找到具有专业知识的人,这些人还要交流、互动、进行创造性的工作。于是,Lotus将数据、资料及处理过程定义为"事物(Thing)"、将建立在网上的虚拟工作环境定义成"场所(Place)"、将员工、客户、专家、合作伙伴等定义成"人(People)",而在人、场所、事务之间建立有机关联才是理想的知识管理环境。
其中,K-Station已经具有知识管理系统必备的知识管理功能,Discovery服务器则是对前者的增强。
在K-Station中,每个人都有自已的场所--个人场所(Personal Place)。个人场所为担任不同角色的人员提供定制的日常工作环境。在个人场所中可进行电子邮件处理、管理日程、讨论、获取订阅资料、编辑文档等操作。沟通场所(Community Place)为由相关人员组成的小组提供了共享与共同工作的环境。所有个人文档都被加上了基于场所的标签,并按场所将文档进行分类归档。这种机制为文档的共享和检索提供了方便。在场所中可以看到何人正在线上,并列出共享场所的清单,在线上的人可以相互进行即时的消息沟通。目前,K-Station必须在Domino环境下运行,因此系统中至少要有一个Domino服务器。
微软:追求通俗
微软一方面将现有产品基本上都贴了知识管理的标签,一方面也在开发新一代知识管理产品。微软的新一代知识管理产品正在进行第三版β测试,其产品代号为"Tahoe(太湖)"。与Lotus不同,微软没在知识管理理论上标新立异,在这一点上,微软比Lotus"通俗"得多。
按照微软的说法,Tahoe是集文档管理、文档索引/检索和协同工作于一身的企业门户。Tahoe的文档管理包括版本控制、文档的作者与密码属性管理、文档发布控制、签发控制等功能。在文件索引方面,Tahoe可以进行全文检索,也可以对网站、文件系统、Exchange服务器、Lotus服务器等多种信息源进行检索。
除此之外,在Tahoe系统中还可以采用人工方法对文档进行分类处理,在处理过程中,Tahoe的分类助理可以学习人工分类规则,当样本达到一定数量,分类助理就可以自动进行分类。
Tahoe由文档服务器、索引服务器和检索服务器组成。这些服务器既可以安装在一台机器上,也可以分装在三台机器上。使用时,既可以以WWW方式进入Tahoe,也可以通过MS Office中的Tahoe插件进入,还可以直接从Windows文件系统进入。
微软的策略是只提供知识管理系统平台,而针对各行各业的知识管理解决方案由经微软认证的合作伙伴提供。
Lotus与微软在知识管理领域各有所长:Lotus像一个老谋深算的智者,微软更像一个门槛精的小伙。Lotus先建立一个严格的体系,然后再一步步推进;微软则不太在意体系,缺什么就做什么。Lotus的难点在于它所建立的体系是否能被各界人士认同,而微软的问题是体系不严密。 IBM:挖掘文本
在文本挖掘软件中,IBM的Text Miner很有代表性,其主要功能是特征抽取、文档聚集、文档分类和检索。
Text Miner的特征抽取器能从文档中抽取人名、组织名和地名以及由多个字组成的复合词。此外,特征抽取器还能抽取表达数字的词汇,例如,"钱"、"百分比"、"时间"等。抽取完特征以后,有相似特征的文档就被自动聚集成一个集合。利用这一功能,知识管理系统可以从大量文档中找到相关文档。Text Miner还可以对文档进行自动分类。
Autonomy:去除冗余
在中国,知道Autonomy公司及其技术的人不多。但实际上,Autonomy及其CEO迈可·林奇(Mike Lynch)在知识管理界的知名度很高。迈可·林奇1991年毕业于剑桥大学,主修神经网络。他受模式识别所用的概率算法的启发,创立了Neurodynamics公司,以概率论中的贝叶斯公式和香农的信息论作为其技术的理论基础,开发出文本挖掘产品。1998年,Autonomy公司看中林奇的技术,以400万美元并购了林奇的公司,林奇也成为Autonomy公司的CEO。
Autonomy最核心的产品是Concept Agents。在经过训练以后,它能自动地从文本中抽取概念。
在林奇看来,按照香农的信息论,文档中除有效概念外,还有大量的冗余信息。而词或短语是否为冗余可根据它在文档中的随机度(概率)来判定。如果能滤去冗余,就可从文档中自动抽取出表达文档主题的概念。在林奇的方案中,先要对系统进行训练,处理一些文档,由使用者对非冗余概念做出认定和识别。按照贝叶斯概率理论,这一步实际上是让系统获得关于概念的先验概率。系统在随后的自动处理中根据这些概念在文档中出现的实际情况,按贝叶斯公式求出后验概率,以此作为冗余过滤的依据。这一方法与语种无关,由于每个用户都要对系统进行个别训练,因而系统的文本挖掘天然就具有高度个性化的特点。到目前为止,包括报业巨头默多克的新闻集团在内的一批知名公司已经成为Autonomy的客户,Compaq公司也已经将Autonomy的技术和产品纳入其知识管理解决方案并在客户中推广。
TelTech:服务知识管理
TelTech的创始人Joe Shuster是一个化学工程师,他曾创建并出售了一个成功的低温工程专业公司。这一段工作使Shuster深切感受到从公司外获取专业知识的困难。基于此,Shuster于1984年创建了TelTech公司。
TelTech 提供三类服务:第一类服务由专家提供。TelTech拥有数千名签约专家,他们主要是有成就的学者、退休的资深专业人士和愿意提供资询服务的专业人士。TelTech并不试图将这些人的知识存入计算机,再以专家系统的方式提供服务,而是维护专家档案,当客户需要用服务时,TelTech的知识工程师就帮助客户分析问题,并向客户推荐数位专家。第二类服务是专业文献检索,用户可以自已通过TelTech的门户网站进行检索,也可以在知识工程师的帮助下进行检索。第三类服务是产品与厂商检索,这种服务也是通过其门户网站提供。
TelTech成功的关键是建立了高性能的知识结构。它采用主题法,其主题词表分为不同专业,共有3万多个,由数位知识工程师维护,每周更新500~1200个词。
目前,计算机世界网也在致力于开发基于公共信息的知识管理系统,所采用的策略与TelTech基本相同。现在,计算机世界网"e海航标"频道提供的实际上就是基于主题法的IT知识管理服务。
【转载】论影响因子在我国的应用及有关问题探讨
文献来源:http://202.117.162.16/medical%20courseware/pages/ztjj/ye/index1.htm
| 摘要 文献计量学方法是评估基础研究的重要指标体系之一,特别是近年来,世界许多国 家都在用影响因子评估个人和团体的研究业绩。我国从九十年代中期,也开始用其评估期刊质量、论文水平、研究业绩等。但是,由于种种原因,目前人们对还缺乏正确的认识,使用中也存在不少问题,本文在使用大量统计数据的基础上,对影响因子使用中的一些问题进行了定性和定量分析,作了一些有益的探讨。 关键词 影响因子 论文 期刊 引文 科研评估 分类号 G350 | |
| | |
ABSTRACT Impact factor has been used to measure the quality of scientific journals and it also been used to evaluate the scientific research works in all over the world, But there are, still many problems need to be solved in this field. 6refs. KEY WORDS Impact factor. Scientific papers. Journal. Citation. Research evaluation CLASS NUMBER G350- | |
| |
| | |
| 影响因子的定义和计算方法 <<返回
影响因子(Impact factor,IF)的有关理论和计算方法本来并不复杂,但是,由于文献计量学在我国起步较晚,有些计量指标不十分成熟,加之JCR光盘价钱较高,我国以前购进的极少,中文文献中有关影响因子的定义和计算方法多数是从外语文献中参考而来,所以学术界对此仍有不少争议,甚至还存在一些错误的认识[1]。仅就影响因子的英语单词Impact Factor而言,有的文章中用 Interference Factor,有人在文章将其缩写为Imp,因此有必要将其定义、计算公式介绍如下。 定义:所谓期刊的影响因子,是表征期刊影响大小的一项定量指标。也就是某刊平均每篇论文的被引用数,它实际上是某刊在某年被全部源刊物引证该刊前两年发表论文的次数,与该刊前两年所发表的全部源论文数之比。 | 计算公式: | | | | nk-1+nk-2 IF(k) = ----- Nk-1+Nk-2 | | 说明: k 为某年, Nk-1+Nk-2 为该刊在前一两年发表的论文数量, nk-1 和nk-2 该刊在 k 年的被引用数量[1]。也就是说,某刊在2000年的影响因子是其1999和1998两年刊载的论文在2000年的被引总数除以该刊在1999和1998这两年的载文总数(可引论文)。例如:《西安交通大学学报》在1999和1998两年共刊载论文200篇,这200篇论文在2000年共被引用100次,则《西安交通大学学报》2000年的影响因子为0.5。
| |
| | |
| | |
| 影响因子的产生和应用 <<返回
在1998年,美国科技信息研究所所长尤金·加菲尔德(Eugene Garfield)博士在《科学家》(The Scientists)杂志中叙述了影响因子的产生过程[1]。说明他最初提出影响因子的目的是为《现刊目次,Current Contents》评估和挑选期刊。目前人们所说的影响因子一般是指从1975年开始,《期刊引证报道》(Journal Citation Reports, JCR)每年提供上一年度世界范围期刊的引用数据,给出该数据库收录的每种期刊的影响因子。JCR是一个世界权威性的综合数据库。它的引用数据来自世界上3000多家出版机构的7000多种期刊。专业范围包括科学、技术和社会科学。JCR目前是世界上评估期刊唯一的一个综合性工具,因为只有它收集了全世界各个专业的期刊的引用数据,JCR光盘版有许多很好的界面,显示了期刊之间引用和被引用的关系。可以告诉人们,那些是最有影响力的期刊,那些是人们最常用的期刊,那些是最热门的期刊,那些是部头最大的期刊。除影响因子外他还给出:期刊最新排序(Current Rank)、刊名缩写(Abbreviated Journal Title)、国际统一刊号(ISSN)、总引用数(Total Cites)、及时性索引(Immediacy Index)、总文章数(Total Article)、被引半衰期(Cited Half-Life)。
| |
| 影响因子及JCR给出的以上指标,具有非常重要的作用,具体地说,对以下各类人员具有多种实用价值。 | 1)图书馆员 制定文献收藏计划和经费预算,向读者推荐优秀期刊。 2)编辑 了解和掌握自己编辑的期刊的情况,制订有效的编辑规划和办刊目标。 3)出版商 掌握和监测出版动态,掌握出版机会,做出新的出版决策。 4)作者(科研人员) a.寻找和确定与自己专业有关的期刊, b.确定论文投稿期刊, c.证实已经发表自己论文的期刊的水平。 5)信息研究分析人员 a.跟踪文献计量学的发展趋势, b.研究学科之间及各学科内的引用模式。 c.研究学术论文生产的学问[2]。 d.研究专业学科的发展变化趋势。 | | | | |
| | |
| 目前存在的问题和讨论 <<返回
自从影响因子在我国广泛使用以来,使我国学术界争议较多是我国科技期刊在世界期刊中的排序问题,以及由此而得出我国科技水平在世界所处的地位问题。JCR给出的期刊影响因子值每年达三四十分的有几十种,有时甚至高达五十以上。但到1999年为至,我国被SCI收录14种期刊,这些都是我国科技领域很有影响的期刊,其影响因子最高的也远远不到1分,例如在1999年,我国影响因子最高的《力学学报》(0.506)也是排在世界上3300名之后,与当年的最高影响因子42.929(Annual Review of Immunology)相差达83.8倍之多。这能否说明我国期刊的质量确实就比世界核心期刊相差如此之多呢?答案显然否定的。因为IF本身存在许多缺陷,其中有些缺陷对评估我国期刊尤为不利。 | |
| 3.1统计源期刊的数量和分布 影响因子是根据期刊被引用数据计算出来的,根本没有考虑到来源期刊的地区和国家分布问题。在1998年JCR收录的期刊中,仅美、英两国的期刊就有3147种,占该数据库总量的58%。众所周知,在文献引用中有一个很重要的规律,这就是人们总是习惯于引用易获文献,美、英两国又都使用英语,这些期刊之间相互引用,势必造成美、英两国期刊的影响因子远远高于其他国家的期刊。 1999年JCR所统计的中国期刊由1997年20种增加到31种,则平均影响因子由1997年0.222提高到0.225[3],这也说明影响因子与的高低与所统计的来源期刊数有关。
| |
| 3.2语言因素 期刊的语种也是一个十分重要的因素,因为英语期刊在世界范围比非英语期刊有广泛的读者群,罗马字母拼写语言比非罗马字母语言又有优势[4]。所以中文期刊在这方面根本无法与英文期刊相比。因此,应在提高我国英文期刊质量的同时增加我国英文期刊的数量,扩大读者范围,提高我国在国际上的学术影响。
| |
| 3.3 引用习惯及其规范 影响因子与引用习惯也有十分密切的关系,一般国外期刊论文的参考文献数远远高于我国,必然导致其影响因子值高。国外一篇论文一般都有几十条参考文献,有几百条的也很常见。例如:2001年2月15号版的《自然》杂志上的"Initial sequencing and analysis of human genome"这篇文章,共有452条参考文献。
| |
| 3.4 文章类型对影响因子的作用 美国《科技信息研究所,ISI》手工给每篇文章编码,但是每年对120000个参考文献都要逐个手工编码也是很不容易的。因此,JCR中的引用数据没有区分其是对原始论文的引用,还是对通信、评论、注释、编者按等的引用(如下表)。 | 刊 名 | IF值 | 编者按文章数 | 编者按被引用频次 | IF值(编者按) | | 神经医学趋势 | 9.15 | 69 | 309 | 4.48 | | 新英格兰医学杂志 | 21.15 | 269 | 1092 | 4.06 | | 免疫学 | 10.65 | 61 | 232 | 3.8 | 从表中可以看到,3种期刊的影响因子值都比较大,同时3刊的"编者按"也被频繁地引用,增加了3种期刊的影响因子值。 如果某刊发表大量的这类体裁的文章,自然会提高的引用总数(增大了计算公式中的分母),而在计算每种期刊发表文章总数时,这类文章又不计算在内(不增大分子)。所以其影响因子会大幅度上升[5] 。 | |
| 3.5期刊出版规模的变化 期刊出版规模的突然变化会干扰它的影响因子,如果一个期刊前一年刊载的文章数远远大于前两年刊载的文章数,每篇文章的平均引用数会减少,引起该刊短期内影响因子值下降,因为文章的引用高峰一般在发表两年后。同样,当某一期刊发文数减少,影响因子值会暂时上升。所以在讨论一个期刊的影响因子值时,也要考虑期刊的出版规模近期有无变化。 | |
| 3.6刊名变化 刊名变化后的第一年,新的刊名虽被列出,但没有影响因子。因为用来计算影响因子的前两年的发文数是零。表中的老刊名有他的影响因子值。一年后,JCR分别给出新刊名和老刊名的影响因子。这时新刊名的影响因子值可能会低于人们的期望值,因为其文章数只计算了新刊的文章数。同样,老刊的影响因子值可能较高,因为他是单纯计算老文章的结果。为了得出统一的影响因子值,人们可以把新老刊的文章数和引用数一起计算。 | |
| 3.7 JCR中的单纯被引期刊 JCR期刊表中的一些期刊不是引用刊,而只是被引刊,这一点是很重要的。因为单纯被引刊中的自引是不包括在JCR数据中的。自引经常在引用数中占较高的比例。单纯被引刊也许是已经完全停止出版的期刊、暂停刊或名称变化的期刊。 | |
| 3.8 不同学科领域 不同学科领域的大小、研究人员的数量、读者人群的不同,期刊的影响因子也不同,即使同一学科,细分学科的情况又不相同。 综上所述,在评估学术期刊时和科研业绩时不能单凭引用数据,也就是说不能用引用数据代替文章评审,因为许多因素可以影响引用数据,包括语言、期刊的出版历史、期刊类型、出版周期、专业主题等。JCR期刊表中给出的文章数仅是原始论文和综述[6],编者按、信件、消息、会议文摘这些并不计入文章总数,但,这些类型的文章还是有被引用的情况。在语言因素中,以非英语及非罗马拼音字母语言出版的期刊,在全世界范围人们使用的较少,这自然要影响他们的引用总数,这些因素在使用期刊的影响因子时都要考虑。
| |
| | |
| | |
| 参考文献 1.张玉华. 简谈期刊的影响因子及其应用,中国科技奖励,1999,7(4):9 2.ISI. What is JCR, JCR CD-ROM Users Manual, 1999 3.王崇德. 也谈"影响因子"与学术刊物的评价,情报资料工作,1998(3):12 4.Smith R. Journal accused of manipulating inpact factor. BMJ,1997:(314) 5.Yamazaki S. Ranking Japan's life science research. Nature 1994:(372) 6.叶春峰. 影响因子与期刊评估. 情报杂志,1997;(4) | |
| | |