• <noscript id="yywya"><kbd id="yywya"></kbd></noscript>
  • 發布時間:2013-11-01 13:04 原文鏈接: 科技文獻引用現狀及趨勢解讀

      2012年5月,當Heather Piwowar開始著手調查研究數據公開是否能提高論文引用率時,她從來沒有預料到會遭遇困難。作為總部設在溫哥華的加拿大開放指標服務 ImpactStory的聯合創始人,那時的Piwowar還是美國北卡羅來納州杜克大學的一名博士后。由于缺乏從機構層面進入Elsevier SCOPUS數據庫的途徑,Piwowar只有通過和加拿大國家科學圖書館的一份研究協議方才獲得了使用權。但是由于她生活在美國,對方要求 Piwowar提供自己的指紋作為證明。“我浪費好幾天時間在獲取研究所需的引文數據上。這太荒謬了。” Piwowar需要分析10,000多篇文章的引用次數,但是時下很多主要的引文來源,諸如湯森路透科學網,并不支持使用PubMed文獻服務系統獨特數字標識符的查詢。Piwowar說:“要是有公開的引文數據,我早就可以寫自己的文章了!”

      Steven Greenberg是美國馬薩諸塞州波士頓市哈佛大學醫學院的神經病學家,他在通過對重復引用的統計,研究假說是如何被轉變為“事實”的時候,也遇到了類似的障礙。Greenberg構建和分析了一個與某個特定的假說相關引文網絡,包括242篇論文、675份引文、553個截然不同的引文路徑。可是研究的開展非常困難,如果這些引文數據能夠輕易在網上獲取,那將能使Greenberg少費許多周折。

      在這個開放訪問的時代,學者不能免費使用期刊論文上的參考文獻進行學術交流,這著實是一樁不可思議的丑事。

      為了改善這種情況,數據應該被視為公共資源的一部分,放置在一個開放的信息庫里。為此,自2010年以來,英國信息技術研究與開發資金組織資助了價值13.2萬英鎊的項目,旨在建立并發展開放引文語料庫(OCC)。在開放的學術引用數據方面,OCC還是一個“初出茅廬”的資源庫,目前正在尋求可持續的資金,力求在將來成為數字研究基礎設施,支持學術事業的基石。

      封閉的數據庫

      雖然更為適合的評價指標正在摸索中,直接引用仍然是衡量產出重要性的一個重要指標。學術交流包括引用網絡信息和觀點的流動,以及隨著時間的推移分析網絡的變換,從而揭示學者間溝通模式的變換和學科的發展與消亡。這種信息對學術研究至關重要,對于制定正確的研究投資和戰略、促進創新、增長和繁榮,特別是在日益國際化的研究合作中也顯得越來越重要。

      目前最權威的學術引用數據來源要屬湯森路透科學網,它的前身是美國科學家Eugene Garfield于1964年創建的科學文獻索引,由科學信息研究所(ISI)出版。而它的主要對手Elsevier誕生于2004年。這兩大巨頭覆蓋了主要的學術文獻,但由于都不完整,它們也互為補充。

      為了使用這兩大數據資源,英國的每所研究型大學每年都需要支付數萬英鎊,這相當于其它發達國家研究機構所能獲得的款項。此外,訂閱這些數據庫還需要嚴格遵守保密協議。如此種種,嚴重損害了那些不在上述機構工作的群體的利益,包括大多數企業和公眾。其他引文信息的重要來源,例如谷歌學術搜索和微軟學術搜索,也由商業公司運營,但是無需訂閱即可獲取。谷歌學術搜索的資源庫比同類型的資源庫大,因為它不僅包括書籍、論文、預印本、技術報告等等,也包括其他非同行評議的“灰色”文獻。

      所有這些資源都有許可限制,阻止對其引文數據的重新發布。基于這個原因,文獻計量學論文所能公布的數據非常之少。更糟的是,可用的引用數據還是不準確的。在湯森路透科學網、斯高帕斯數據庫、谷歌學術搜索和微軟學術搜索上,Shotton的引用記錄竟截然不同。例如,Shotton于2009年發表的一篇語義學論文,在這4家平臺的引用次數分別是22、 37、88和16。我們該相信哪一個?更令人擔憂的是,一篇更早的關于蛋白質結晶學的論文在湯森路透科學網上有3個獨立的條目,每個條目的引用次數分別為 59、19和0。據此,湯森路透期刊影響因子的可信度也無法保證。

      解決方案

      OCC,作為一個開放的學術引文數據庫也許可以改善上述情況。它的目的是提供準確的引文數據,人們可以自由地查看、引用或用作其它目的,不受到版權或數據庫法規的限制。

      OCC 數據庫始建于2010年年中,并在2011年年中發布了第一個版本。在這個版本中,有204,637篇文章的參考文獻能夠通過包含3,373,961篇獨立論文所引用的 6,325,178篇參考文獻的PubMed OA-PMC開放式訪問。雖然目前數據量較小,這個語料庫依然包含了大約20%的1950年至2010年所有生物醫學文獻索引,其中包括了已在 PubMed發表的每個生物醫學領域的高引用頻次論文。OCC的工作人員目前正在修改數據模型,提高其托管的基礎設施,擴大其覆蓋范圍,從最初的 672,442篇,更新OA-PMC文章量超過一倍。

      理想的情況下,引用文獻會直接從出版商在文章發布時獲得。但是大多數出版商都將參考文獻列表劃歸在付費訂閱的類別里,因為這些文章要受到版權保護。目前OCC已經與幾家主要的期刊出版商制定了合作協議,包括自然出版集團(NPG),牛津大學出版社,美國科學促進協會(科學),英國皇家學會出版,波特蘭新聞,麻省理工學院出版社等。

      OCC的長期目標是匯集世界范圍的學術文獻,以及藝術、人文科學等學科的引文信息。當然這還需要很長的一段路要走。

      開放的時代

      理想情況下,出版商會把自己的出版書目和引用數據拿出來分享,比如自然出版集團把自己的數據發布在data.nature.com上。它是第一家也是唯一一家將數據共享的公司。

      但是,如果能夠將這類數據整合在一起,勢必會獲得更大的收益。OCC將為用戶瀏覽引用數據提供完整的權限,這些數據的來源非常廣闊,既有傳統學術出版物的數據,也有其他數據,并且所有數據都會標明來源。OCC將把文章與文章、文章與數據庫、數據庫與文章引用的關系清晰展現出來。此外,還將提供附加信息,例如作者、機構成員、共同的資助人、文章間語義關系,以及數據來源。

      一旦引用數據被公開,其它有益的分析服務也將開展,包括面搜索與瀏覽工具、建議與趨勢識別服務,以及時間表可視化服務。對于這些服務,OCC目前已經開發出了其中幾種的原型。OCC對統計引用指標的巨大價值也將隨著其覆蓋面的延伸而增加。

      除此之外,還有另外一個服務,它尤其對作者和編輯有益,那就是錯誤引用更正服務。出版論文的引用中有約1%存在著不同程度的錯誤,例如在引用標題中將“β淀粉酶”誤寫成“β-淀粉酶”,或者對作者名字中符號的疏忽;嚴重一些的包括年份、期刊號、頁碼或者DOI的錯誤。OCC已經在內部使用引用更正方法,以處理多次引用問題,或者通過外部資源獲取權威書目記錄來減少謬誤。

      未來的道路

      接下來,OCC會有怎樣的發展呢?10年前的1999年到2002年,由英國南安普頓大學、美國紐約州伊薩卡市康奈爾大學以及arXiv網站共同構建的項目也有一個具有相似目標,旨在開放引文數據的項目存在,名為開放引文計劃。該項目開發了一款名為引用庫的軟件,能將引用信息記錄下來,該軟件的設計者將它描述為“開放引文計劃皇冠上的珠寶”。但是,如今再點擊該項目的網址,得到的提示卻是:該網址沒有網站鏈接。

      要想從一個雄心勃勃計劃項目過渡到現實的全球性服務并將它長期維持下去是非常困難的。OCC為了避免與引用庫相同的命運,使它得到全面的發展并最終向整個學術界各個學科提供令人信任的引用數據開放服務,需要擁護者、管理者、開發者以及監督者共同的努力。它也需要懷有相同目標的同道中人精誠合作、來自資助者充足持續的資金、支持者和投資者提升社會福利的決心,而不是以經濟回報為導向,還需要來自出版界的鼎力支持、重要機構或國際組織的認可。

    相關文章

    中國新能源汽車大數據產業大會召開

    3月19日,“中國新能源汽車大數據2023年產業大會”在沈陽市舉辦。大會由沈陽市人民政府和新能源汽車國家大數據聯盟(以下簡稱“聯盟”)共同主辦。遼寧省副省長姜有為、工信部裝備工業一司副司長郭守剛等共同......

    中國首次獲得遙感數據融合大賽舉辦權

    近日,中國科學院空天信息創新研究院牽頭,聯合中科星圖股份有限公司、中科星圖數字地球合肥有限公司與德國慕尼黑聯邦國防軍大學共同申請,成功獲得遙感數據融合大賽(DataFusionContest,DFC)......

    如何理解數據是新型生產要素

    數據作為新型生產要素,是數字化、網絡化、智能化的基礎,已快速融入生產、分配、流通、消費和社會服務管理等各個環節,深刻改變著生產方式、生活方式和社會治理方式。我國具有數據規模和數據應用優勢,積極探索推進......

    “數據跟著算力跑”到“算力圍著數據轉”的嬗變

    “摩爾定律被打破后,什么將推動超級計算機性能的發展?”12月13日,在今年的CCFHPCChina2022上,2021年度圖靈獎獲得者、來自美國田納西大學和橡樹嶺國家實驗室的杰克·唐加拉教授在演講的最......

    衛生健康信息基本數據編制標準出臺,一項面臨廢止

    現發布《集衛生健康信息基本數據編制標準》等2項推薦性衛生行業標準,編號和名稱如下:WS/T370—2022衛生健康信息基本數據集編制標準(代替WS370—2012)WS/T811—2022血站信息系統......

    “數據驅動的新地學”科學與技術前沿論壇在京舉行

    10月29至30日,中國科學院學部“數據驅動的新地學”跨學部科學與技術前沿論壇”暨ScienceBulletin第二屆地球科學前沿學術沙龍在中國科學院學術會堂舉行。此次論壇圍繞“數據驅動的新地學”這一......

    國家統計局又一數據,這個行業還不穩定

    國家統計局服務業調查中心、中國物流與采購聯合會10月31日發布數據,10月份,中國制造業采購經理指數(PMI)為49.2%,在調查的21個行業中,有11個位于擴張區間,制造業景氣面總體穩定。國家統計局......

    我國發布更新第二款全球海洋Argo網格數據集

    近日,由上海海洋大學和自然資源部杭州全球海洋Argo系統野外科學觀測研究站聯合研制的全球海洋Argo網格數據集(簡稱GDCSM_Argo)在國際Argo官方網站正式發布,這是我國在國際上公開發布并定期......

    研究顯示:全球50歲以下人群癌癥發病率上升

    近幾十年來,越來越多的50歲以下成年人患上癌癥。美國科學家進行的一項研究顯示,早發型癌癥(50歲之前被診斷出的癌癥,包括乳腺癌、結腸癌、食道癌、腎癌、肝癌和胰腺癌等)的發病率,從1990年開始在世界范......

    打造面向開放科學的“數據共享”新未來

    “對于全球科技期刊來講,開放科學帶來了學術交流模式的變革,從原來傳統的學術交流模式,轉向新型的學術交流模式。”8月25日,中國科學院文獻情報中心副主任、研究館員張智雄在第十七屆中國科技期刊發展論壇“開......

  • <noscript id="yywya"><kbd id="yywya"></kbd></noscript>
  • 东京热 下载