【醫療器械新藥物藥效醫學臨床試驗數據統計分析數據管理服務】
醫療器械創新藥物醫學臨床數據統計分析和臨床數據管理通?梢院唵蔚胤譃橛嬃抠Y料、計數資料和等級資料。其中計數資料和等級資料合稱為分類變量資料。
計量資料
定量因素是對個體的定量特征的描述,有大小和單位,稱數值變量,簡稱變量,其取值為數值,即變量值。如人的身高(m)、體重(kg)、血壓(kPa)和紅細胞數(1012/L)等;又如家庭人口數(人/家)和水中某種毒物含量(mg/L)等。由一群個體的變量值構成的資料稱為計量資料,即一群變量值。
計數資料
定性因素是對個體的定性特征的描述,有類別。其特點是類別是客觀存在的,各類無秩序,可任意排列;類和類之間界線清楚,不會錯判。如人的性別有男和女2類,血型有O型、A型、B型和AB型4類等。一群個體按定性因素的類別清點每類有多少個個體,稱為計數資料,即分類個體數。
等級資料
等級因素是對個體的等級特征的描述,分等級。其特點是級別是主觀劃分的,各級沒有大小,但有秩序,必須自低(或弱)到高(或強)或自高到低排列,故等級因素又可叫做半定量因素;級和級之間界線模糊,可能錯判。如療效可分為無效、好轉、顯效和治愈4級,也可分為無效和有效2級;化驗反應分為-、±、+、++和+++5級等。一群個體按等級因素的級別清點每級有多少個個體,稱為等級資料。
醫療器械創新藥物藥理藥效醫學臨床試驗數據統計分析和臨床試驗數據管理服務
統計學方法的正確抉擇:
(一)統計方法抉擇的條件
在臨床科研工作中,正確地抉擇統計分析方法,應充分考慮科研工作者的分析目的、臨床科研設計方法、搜集到的數據資料類型、數據資料的分布特征與所涉及的數理統計條件等。
其中任何一個問題沒考慮到或考慮有誤,都有可能導致統計分析方法的抉擇失誤。
此外,統計分析方法的抉擇應在科研的設計階段來完成,而不應該在臨床試驗結束或在數據的收集工作已完成之后。
對創新藥物藥理藥效臨床試驗數據統計分析和進行統計方法抉擇時,應考慮下列因素:
1.創新藥物藥理藥效臨床試驗數據統計分析目的
對于臨床醫生及臨床流行病醫生來說,在進行統計分析前,一定要明確利用統計方法達到研究者的什么目的。
一般來說,統計方法可分為描述與推斷兩類方法。
一是統計描述(descriptivestatistics),二是統計推斷(inferentialstatistics)。
統計描述,即利用統計指標、統計或統計表,對數據資料所進行的最基本的統計分析,使其能反映數據資料的基本特征,有利于研究者能準確、全面地了解數據資料所包涵的信息,以便做出科學的推斷。
統計表,如頻數表、四格表、列聯表等;
統計,如直方、餅,散點等;
統計指標,如均數、標準差、率及構成比等。
統計推斷,即利用樣本所提供的信息對總體進行推斷(估計或比較),其中包括參數估計和假設檢驗,如可信區間、t檢驗、方差分析、c2檢驗等,如要分析甲藥治療與乙藥治療兩組的療效是否不相同、不同地區某病的患病率有無差異等。
還有些統計方法,既包含了統計描述也包含了統計推斷的內容,如不同變量間的關系分析。
相關分析,可用于研究某些因素間的相互聯系,以相關系數來衡量各因素間相關的密切程度和方向,如高血脂與冠心病、慢性宮頸炎與宮頸癌等的相關分析;
回歸分析,可用于研究某個因素與另一因素(變量)的依存關系,即以一個變量去推測另一變量,如利用回歸分析建立起來的回歸方程,可由兒童的年齡推算其體重。
2.創新藥物藥理藥效臨床試驗數據統計分析資料類型
資料類型的劃分現多采用國際通用的分類方法,將其分為兩類:數值變量(numericalvariable)資料和分類變量(categoricalvariable)資料。
數值變量是指其值是可以定量或準確測量的變量,其表現為數值大小的不同;
而分類變量是指其值是無法定量或不能測量的變量,其表現沒有數值的大小而只有互不相容的類別或屬性。
分類變量又可分為無序分類變量和有序分類變量兩小類,無序分類變量表現為沒有大小之分的屬性或類別,如:性別是兩類無序分類變量,血型是四類無序分類變量;
有序分類變量表現為各屬性或類別間有程度之分,如:臨床上某種疾病的“輕、中、重”,治療結果的“無效、顯效、好轉、治愈”。
由此可見,數值變量資料、無序分類變量資料和有序分類變量資料又可叫做計量資料、計數資料和等級資料。
資料類型的劃分與統計方法的抉擇有關,在多數情況下不同的資料類型,選擇的統計方法不一樣。
如數值變量資料的比較可選用t檢驗、u檢驗等統計方法;
而率的比較多用c2檢驗。
值得注意的是,有些臨床科研工作者,常常人為地將數值變量的結果轉化為分類變量的臨床指標,然后參與統計分析,如患者的血紅蛋白含量,研究者常用正常、輕度貧血、中度貧血和重度貧血來表示,這樣雖然照顧了臨床工作的習慣,卻損失了資料所提供的信息量。
換言之,在多數情況下,數值變量資料提供的信息量最為充分,可進行統計分析的手段也較為豐富、經典和可靠,與之相比,分類變量在這些方面都不如數值變量資料。
因此,在臨床實驗中要盡可能選擇量化的指標反映實驗效應,若確實無法定量時,才選用分類數據,通常不宜將定量數據轉變成分類數據。
3.創新藥物藥理藥效臨床試驗數據統計分析設計方法
在眾多的臨床科研設計方法中,每一種設計方法都有與之相適應的統計方法。
在統計方法的抉擇時,必須根據不同的臨床科研設計方法來選擇相應的統計分析方法。
如果統計方法的抉擇與設計方法不一致,統計分析得到的任何結論都是錯誤的。
在常用的科研設計方法中,有成組設計(完全隨機設計)的t檢驗、配對t檢驗、成組設計(完全隨機設計)的方差分析、配伍設計(隨機區組設計)的方差分析等,都是統計方法與科研設計方法有關的佐證。
因此,應注意區分成組設計(完全隨機設計)與配對和配伍設計(隨機區組設計),在成組設計中又要注意區別兩組與多組設計。
最常見的錯誤是將配對或配伍設計(隨機區組設計)的資料當做成組設計(完全隨機設計)來處理,如配對設計的資料使用成組t檢驗、配伍設計(隨機區組設計)使用成組資料的方差分析;
或將三組及三組以上的成組設計(完全隨機設計)資料的比較采用多個t檢驗、三個或多個率的比較采用四格表的卡方檢驗來進行比較,都是典型的錯誤。
創新藥物藥理藥效臨床試驗數據統計分析設計方法錯誤的統計方法正確統計方法
兩個均數的比較(成組設計、完全隨機設計)成組設計的t檢驗、成組設計的秩和檢驗
多個均數的比較(成組設計、完全隨機設計)多個成組設計的t檢驗完全隨機設計的方差分析及q檢驗、完全隨機設計的秩和檢驗及兩兩比較
數值變量的配對設計成組設計的t檢驗配對t檢驗、配對秩和檢驗
隨機區組設計(配伍設計)多個成組設計的t檢驗、完全隨機設計的方差分析隨機區組設計的方差分析及q檢驗、隨機區組設計的秩和檢驗及兩兩比較
交叉設計成組設計的t檢驗、配對t檢驗、配對秩和檢驗交叉設計的方差分析、交叉設計的秩和檢驗
4.創新藥物藥理藥效臨床試驗數據統計分析分布特征及數理統計條件
數理統計和概率論是統計的理論基礎。
每種統計方法都要涉及數理統計公式,而這些數理統計公式都是在一定條件下推導和建立的。
也就是說,只有當某個或某些條件滿足時,某個數理統計公式才成立,反之若不滿足條件時,就不能使用某個數理統計公式。
在數理統計公式推導和建立的條件中,涉及最多的是數據的分布特征。
數據的分布特征是指數據的數理統計規律,許多數理統計公式都是在特定的分布下推導和建立的。
若實際資料服從(符合)某種分布,即可使用該分布所具有的數理統計規律來分析和處理該實際資料,反之則不能。
在臨床資料的統計分析過程中,涉及得最多的分布有正態分布、偏態分布、二項分布等。
許多統計方法對資料的分布有要求,如:均數和標準差、t和u檢驗;
方差分析都要求資料服從正態分布,而中位數和四分位數間距、秩和檢驗等,可用于不服從正態分布的資料。
所以,臨床資料的統計分析過程中,應考慮資料的分布特征,最起碼的要求是熟悉正態分布與偏態分布。
例如:在臨床科研中,許多資料的描述不考慮資料的分布特征,而多選擇均數與標準差。
如某婦科腫瘤化療前的血象值,資料如下表:
某婦科腫瘤化療前的血象值
指標名例數均數標準差偏度系數P值峰度系數P值
血紅蛋白(g/L)98111.9918.820.1800.4590.0250.958
血小板(×109/L)98173.5887.111.3530.0001.8430.000
白細胞(×109/L)986.79302.7671.2070.0001.2020.013
從上結果可見,若只看三項指標的均數和標準差,臨床醫生也許不會懷疑有什么問題。
但是經正態性檢驗,病人的血紅蛋白服從正態分布,而血小板和白細胞兩項指標的偏度和峰度系數均不服從正態分布(P<0.05)。
因此,描述病人的血小板和白細胞平均水平正確的指標是中位數,而其變異程度應使用四分位數間距。
除了數據的分布特征外,有些數理統計公式還有其它一些的條件,如t檢驗和方差分析的方差齊性、卡方檢驗的理論數(T)大小等。
總之,對于臨床科研工作者來說,為正確地進行統計方法的抉擇,首先要掌握或熟悉上述影響統計方法抉擇因素;
其次,還應熟悉和了解常用統計方法的應用條件。
(二)創新藥物藥理藥效臨床試驗數據統計分析數據資料的描述
統計描述的內容包括了統計指標、統計和表,其目的是使數據資料的基本特征更加清晰地表達。
本節只討論統計指標的正確選用,而統計表的正確使用請參閱其他書籍。
1.數值變量資料的描述
描述數值變量資料的基本特征有兩類指標,一是描述集中趨勢的指標,用以反映一組數據的平均水平;
二是描述離散程度的指標,用以反映一組數據的變異大小。
各指標的名稱及適用范圍等見表2。
表2描述數值變量資料的常用指標
指標名稱用途適用的資料
均數(X——)
描述一組數據的平均水平,集中位置正態分布或近似正態分布
中位數(M)與均數相同偏態分布、分布未知、兩端無界
幾何均數(G)與均數相同對數正態分布,等比資料
標準差(S)
描述一組數據的變異大小,離散程度
正態分布或近似正態分布
四分位數間距
(QU-QL)與標準差相同偏態分布、分布未知、兩端無界
極差(R)與標準差相同觀察例數相近的數值變量
變異系數(CV)與標準差相同比較幾組資料間的變異大小
從表中可看出,均數與標準差聯合使用描述正態分布或近似正態分布資料的基本特征;
中位數與四分位數間距聯合使用描述偏態分布或未知分布資料的基本特征。
這些描述指標應用時,最常見的錯誤是不考慮其應用條件的隨意使用,如:用均數和標準差描述偏態分布、分布未知或兩端無界的資料,這是目前在臨床研究文獻中較為普遍和典型的錯誤。