ବଡ଼ ଭାଷା ମଡେଲ୍ (LLM) ତୁରନ୍ତ ଶବ୍ଦ ଉପରେ ଆଧାରିତ ପ୍ରେରଣାଦାୟକ ପ୍ରବନ୍ଧ ଲେଖିପାରେ, ବୃତ୍ତିଗତ ଦକ୍ଷତା ପରୀକ୍ଷାରେ ପାସ୍ କରିପାରିବ, ଏବଂ ରୋଗୀ ଅନୁକୂଳ ଏବଂ ସହାନୁଭୂତିଶୀଳ ସୂଚନା ଲେଖିପାରିବ। ତଥାପି, LLM ରେ କାଳ୍ପନିକ, ଭଙ୍ଗୁରତା ଏବଂ ଭୁଲ ତଥ୍ୟର ଜଣାଶୁଣା ବିପଦ ବ୍ୟତୀତ, ଅନ୍ୟାନ୍ୟ ଅସମାହିତ ସମସ୍ୟାଗୁଡ଼ିକ ଧୀରେ ଧୀରେ କେନ୍ଦ୍ରବିନ୍ଦୁ ପାଲଟିଛି, ଯେପରିକି AI ମଡେଲ୍ ଯାହା ସେମାନଙ୍କର ସୃଷ୍ଟି ଏବଂ ବ୍ୟବହାରରେ ସମ୍ଭାବ୍ୟ ପକ୍ଷପାତମୂଳକ "ମାନବ ମୂଲ୍ୟ" ଧାରଣ କରିଥାଏ, ଏବଂ ଯଦିଓ LLM ଆଉ ବିଷୟବସ୍ତୁ ତିଆରି ନ କରେ ଏବଂ ସ୍ପଷ୍ଟ ଭାବରେ କ୍ଷତିକାରକ ଆଉଟପୁଟ୍ ଫଳାଫଳକୁ ଦୂର କରେ, "LLM ମୂଲ୍ୟ" ତଥାପି ମାନବ ମୂଲ୍ୟରୁ ବିଚ୍ୟୁତ ହୋଇପାରେ।
ଅଗଣିତ ଉଦାହରଣଗୁଡ଼ିକ ଦର୍ଶାଏ ଯେ AI ମଡେଲଗୁଡ଼ିକୁ ତାଲିମ ଦେବା ପାଇଁ ବ୍ୟବହୃତ ତଥ୍ୟ କିପରି ବ୍ୟକ୍ତିଗତ ଏବଂ ସାମାଜିକ ମୂଲ୍ୟବୋଧକୁ ଏନକୋଡ୍ କରେ, ଯାହା ମଡେଲ ମଧ୍ୟରେ ଦୃଢ଼ ହୋଇପାରେ। ଏହି ଉଦାହରଣଗୁଡ଼ିକରେ ଛାତି ଏକ୍ସ-ରେର ସ୍ୱୟଂଚାଳିତ ବ୍ୟାଖ୍ୟା, ଚର୍ମ ରୋଗର ବର୍ଗୀକରଣ ଏବଂ ଚିକିତ୍ସା ସମ୍ବଳ ବଣ୍ଟନ ସମ୍ପର୍କରେ ଆଲଗୋରିଦମିକ୍ ନିଷ୍ପତ୍ତି ଗ୍ରହଣ ସମେତ ବିଭିନ୍ନ ପ୍ରୟୋଗ ଅନ୍ତର୍ଭୁକ୍ତ। ଆମ ଜର୍ଣ୍ଣାଲରେ ଏକ ସାମ୍ପ୍ରତିକ ଲେଖାରେ ଉଲ୍ଲେଖ କରାଯାଇଥିବା ପରି, ପକ୍ଷପାତୀ ତାଲିମ ତଥ୍ୟ ସମାଜରେ ଉପସ୍ଥିତ ମୂଲ୍ୟବୋଧ ଏବଂ ପକ୍ଷପାତକୁ ବୃଦ୍ଧି ଏବଂ ପ୍ରକାଶ କରିପାରେ। ବିପରୀତରେ, ଗବେଷଣା ଏହା ମଧ୍ୟ ଦର୍ଶାଇଛି ଯେ ପକ୍ଷପାତ ହ୍ରାସ କରିବା ପାଇଁ AI ବ୍ୟବହାର କରାଯାଇପାରିବ। ଉଦାହରଣ ସ୍ୱରୂପ, ଗବେଷକମାନେ ଆଣ୍ଠୁ ଏକ୍ସ-ରେ ଫିଲ୍ମଗୁଡ଼ିକରେ ଗଭୀର ଶିକ୍ଷା ମଡେଲଗୁଡ଼ିକୁ ପ୍ରୟୋଗ କରିଥିଲେ ଏବଂ ଆଣ୍ଠୁ ସନ୍ଧି ମଧ୍ୟରେ ମାନକ ତୀବ୍ରତା ସୂଚକ (ରେଡିଓଲୋଜିଷ୍ଟଙ୍କ ଦ୍ୱାରା ଗ୍ରେଡ୍ କରାଯାଇଥିବା) ଦ୍ୱାରା ହରାଇଥିବା କାରକଗୁଡ଼ିକୁ ଆବିଷ୍କାର କରିଥିଲେ, ଯାହା ଫଳରେ କଳା ଏବଂ ଧଳା ରୋଗୀଙ୍କ ମଧ୍ୟରେ ଅବ୍ୟକ୍ତ ଯନ୍ତ୍ରଣା ପାର୍ଥକ୍ୟ ହ୍ରାସ ପାଇଥିଲା।
ଯଦିଓ ଅଧିକରୁ ଅଧିକ ଲୋକ AI ମଡେଲରେ ପକ୍ଷପାତିତା ଅନୁଭବ କରୁଛନ୍ତି, ବିଶେଷକରି ତାଲିମ ତଥ୍ୟ ଦୃଷ୍ଟିରୁ, AI ମଡେଲର ବିକାଶ ଏବଂ ନିୟୋଜନ ପ୍ରକ୍ରିୟାରେ ମାନବିକ ମୂଲ୍ୟବୋଧର ଅନେକ ଅନ୍ୟାନ୍ୟ ପ୍ରବେଶ ବିନ୍ଦୁଗୁଡ଼ିକୁ ଯଥେଷ୍ଟ ଧ୍ୟାନ ଦିଆଯାଏ ନାହିଁ। ଚିକିତ୍ସା AI ସମ୍ପ୍ରତି ପ୍ରଭାବଶାଳୀ ଫଳାଫଳ ହାସଲ କରିଛି, କିନ୍ତୁ ବହୁ ପରିମାଣରେ, ଏହା ସ୍ପଷ୍ଟ ଭାବରେ ମାନବିକ ମୂଲ୍ୟବୋଧ ଏବଂ ବିପଦ ମୂଲ୍ୟାଙ୍କନ ଏବଂ ସମ୍ଭାବ୍ୟ ଯୁକ୍ତି ସହିତ ସେମାନଙ୍କର ପାରସ୍ପରିକ କ୍ରିୟାକୁ ବିଚାର କରିନାହିଁ, କିମ୍ବା ଏହାକୁ ମଡେଲ କରାଯାଇନାହିଁ।
ଏହି ସାରାଂଶ ଧାରଣାଗୁଡ଼ିକୁ ସୁନିଶ୍ଚିତ କରିବା ପାଇଁ, କଳ୍ପନା କରନ୍ତୁ ଯେ ଆପଣ ଜଣେ ଏଣ୍ଡୋକ୍ରାଇନୋଲୋଜିଷ୍ଟ ଯିଏ ତାଙ୍କ ବୟସର ତୃତୀୟ ପ୍ରତିଶତ ତଳେ ଥିବା ଏକ 8 ବର୍ଷର ପୁଅ ପାଇଁ ପୁନଃସଂଯୋଜିତ ମାନବ ବୃଦ୍ଧି ହରମୋନ ଲେଖିବାକୁ ବାଧ୍ୟ। ପୁଅଟିର ଉତ୍ତେଜିତ ମାନବ ବୃଦ୍ଧି ହରମୋନ ସ୍ତର 2 ng/mL (ସନ୍ଦର୍ଭ ମୂଲ୍ୟ,>10 ng/mL, ଯୁକ୍ତରାଷ୍ଟ୍ର ବାହାରେ ଅନେକ ଦେଶ ପାଇଁ ସନ୍ଦର୍ଭ ମୂଲ୍ୟ ହେଉଛି>7 ng/mL), ଏବଂ ତାଙ୍କର ମାନବ ବୃଦ୍ଧି ହରମୋନ କୋଡିଂ ଜିନ୍ ବିରଳ ନିଷ୍କ୍ରିୟତା ପରିବର୍ତ୍ତନ ଚିହ୍ନଟ କରିଛି। ଆମେ ବିଶ୍ୱାସ କରୁଛୁ ଯେ ଏହି କ୍ଲିନିକାଲ୍ ସେଟିଂରେ ମାନବ ବୃଦ୍ଧି ହରମୋନ ଚିକିତ୍ସାର ପ୍ରୟୋଗ ସ୍ପଷ୍ଟ ଏବଂ ନିର୍ବିବାଦୀୟ।
ନିମ୍ନଲିଖିତ ପରିସ୍ଥିତିରେ ମାନବ ବୃଦ୍ଧି ହରମୋନ୍ ଚିକିତ୍ସାର ପ୍ରୟୋଗ ବିବାଦ ସୃଷ୍ଟି କରିପାରେ: ଜଣେ 14 ବର୍ଷ ବୟସର ବାଳକର ଉଚ୍ଚତା ସର୍ବଦା ତାଙ୍କ ସାଥୀଙ୍କ 10 ପ୍ରତିଶତରେ ରହିଥାଏ, ଏବଂ ଉତ୍ତେଜନା ପରେ ମାନବ ବୃଦ୍ଧି ହରମୋନ୍ର ଶୀର୍ଷ 8 ng/mL ହୋଇଥାଏ। ଉଚ୍ଚତାକୁ ପ୍ରଭାବିତ କରିପାରୁଥିବା କୌଣସି ଜଣାଶୁଣା କାର୍ଯ୍ୟକ୍ଷମ ପରିବର୍ତ୍ତନ ନାହିଁ, କିମ୍ବା ଛୋଟ ଉଚ୍ଚତାର ଅନ୍ୟ ଜଣାଶୁଣା କାରଣ ନାହିଁ, ଏବଂ ତାଙ୍କର ହାଡ଼ ବୟସ 15 ବର୍ଷ ବୟସ (ଅର୍ଥାତ୍ କୌଣସି ବିକାଶମୂଳକ ବିଳମ୍ବ ନାହିଁ)। ବିବାଦର କେବଳ ଏକ ଅଂଶ ହେଉଛି ପୃଥକ ବୃଦ୍ଧି ହରମୋନ୍ ଅଭାବ ନିର୍ଣ୍ଣୟ ପାଇଁ ବ୍ୟବହୃତ ମାନବ ବୃଦ୍ଧି ହରମୋନ୍ ସ୍ତର ସମ୍ପର୍କରେ ଡଜନ ଡଜନ ଅଧ୍ୟୟନ ଉପରେ ଆଧାରିତ ଥ୍ରେସହୋଲ୍ଡ ମୂଲ୍ୟରେ ପାର୍ଥକ୍ୟ। ଅତି କମରେ ସେତିକି ବିବାଦ ରୋଗୀ, ରୋଗୀ ପିତାମାତା, ସ୍ୱାସ୍ଥ୍ୟସେବା ବୃତ୍ତିଗତ, ଔଷଧ କମ୍ପାନୀ ଏବଂ ଦେୟକାରୀଙ୍କ ଦୃଷ୍ଟିକୋଣରୁ ମାନବ ବୃଦ୍ଧି ହରମୋନ୍ ଚିକିତ୍ସା ବ୍ୟବହାର କରିବାର ବିପଦ ଲାଭ ସନ୍ତୁଳନରୁ ସୃଷ୍ଟି ହୁଏ। ଶିଶୁ ଏଣ୍ଡୋକ୍ରାଇନୋଲୋଜିଷ୍ଟମାନେ 2 ବର୍ଷ ପାଇଁ ବୃଦ୍ଧି ହରମୋନ୍ର ଦୈନିକ ଇଞ୍ଜେକ୍ସନର ବିରଳ ପ୍ରତିକୂଳ ପ୍ରଭାବକୁ ତୁଳନା କରିପାରନ୍ତି ଯାହା ବର୍ତ୍ତମାନ ତୁଳନାରେ ବୟସ୍କ ଶରୀର ଆକାରରେ କୌଣସି କିମ୍ବା କେବଳ ସର୍ବନିମ୍ନ ବୃଦ୍ଧି ହେବାର ସମ୍ଭାବନା ସହିତ। ପୁଅମାନେ ବିଶ୍ୱାସ କରିପାରନ୍ତି ଯେ ଯଦିଓ ସେମାନଙ୍କର ଉଚ୍ଚତା କେବଳ 2 ସେମି ବୃଦ୍ଧି ପାଇପାରେ, ତଥାପି ଏହା ବୃଦ୍ଧି ହରମୋନ ଇଞ୍ଜେକ୍ସନ ଦେବା ମୂଲ୍ୟବାନ, କିନ୍ତୁ ପ୍ରଦାନକାରୀ ଏବଂ ଔଷଧ କମ୍ପାନୀ ଭିନ୍ନ ମତ ରଖିପାରନ୍ତି।
ଆମେ ଏକ ଉଦାହରଣ ଭାବରେ କ୍ରିଏଟିନିନ୍ ଆଧାରିତ eGFR ନେଉଛୁ, ଯାହା ଦୀର୍ଘକାଳୀନ ବୃକକ୍ ରୋଗ ନିର୍ଣ୍ଣୟ ଏବଂ ପର୍ଯ୍ୟାୟ କ୍ରମ, ବୃକକ୍ ପ୍ରତିରୋପଣ କିମ୍ବା ଦାନ ଅବସ୍ଥା ସ୍ଥିର କରିବା ଏବଂ ଅନେକ ପ୍ରେସକ୍ରିପସନ୍ ଔଷଧ ପାଇଁ ହ୍ରାସ ମାନଦଣ୍ଡ ଏବଂ ପ୍ରତିରୋଧ ନିର୍ଣ୍ଣୟ ପାଇଁ ଏକ ବହୁଳ ଭାବରେ ବ୍ୟବହୃତ ବୃକକ୍ କାର୍ଯ୍ୟ ସୂଚକ। EGFR ହେଉଛି ଏକ ସରଳ ପ୍ରତିଗମନ ସମୀକରଣ ଯାହା ମାପ କରାଯାଇଥିବା ଗ୍ଲୋମେରୁଲାର ଫିଲ୍ଟ୍ରେସନ ହାର (mGFR) ଆକଳନ କରିବା ପାଇଁ ବ୍ୟବହୃତ ହୁଏ, ଯାହା ଏକ ସନ୍ଦର୍ଭ ମାନଦଣ୍ଡ, କିନ୍ତୁ ମୂଲ୍ୟାଙ୍କନ ପଦ୍ଧତି ଅପେକ୍ଷାକୃତ କଷ୍ଟକର। ଏହି ପ୍ରତିଗମନ ସମୀକରଣକୁ ଏକ AI ମଡେଲ ଭାବରେ ବିବେଚନା କରାଯାଇପାରିବ ନାହିଁ, କିନ୍ତୁ ଏହା ମାନବ ମୂଲ୍ୟବୋଧ ଏବଂ ସମ୍ଭାବ୍ୟ ଯୁକ୍ତି ବିଷୟରେ ଅନେକ ନୀତିକୁ ଦର୍ଶାଏ।
eGFR ରେ ପ୍ରବେଶ କରିବା ପାଇଁ ମାନବ ମୂଲ୍ୟ ପାଇଁ ପ୍ରଥମ ପ୍ରବେଶ ବିନ୍ଦୁ ହେଉଛି ସମୀକରଣ ଫିଟିଂ ପାଇଁ ତଥ୍ୟ ଚୟନ କରିବା। eGFR ସୂତ୍ର ଡିଜାଇନ୍ କରିବା ପାଇଁ ବ୍ୟବହୃତ ମୂଳ ଧାଡ଼ି ମୁଖ୍ୟତଃ କଳା ଏବଂ ଧଳା ଅଂଶଗ୍ରହଣକାରୀଙ୍କୁ ନେଇ ଗଠିତ, ଏବଂ ଅନେକ ଅନ୍ୟାନ୍ୟ ଜାତିଗତ ଗୋଷ୍ଠୀ ପାଇଁ ଏହାର ପ୍ରଯୁଜ୍ୟତା ସ୍ପଷ୍ଟ ନୁହେଁ। ଏହି ସୂତ୍ରରେ ମାନବ ମୂଲ୍ୟ ପାଇଁ ପରବର୍ତ୍ତୀ ପ୍ରବେଶ ବିନ୍ଦୁଗୁଡ଼ିକ ମଧ୍ୟରେ ଅନ୍ତର୍ଭୁକ୍ତ: ବୃକକ୍ କାର୍ଯ୍ୟ ମୂଲ୍ୟାଙ୍କନ ପାଇଁ ପ୍ରାଥମିକ ଉଦ୍ଦେଶ୍ୟ ଭାବରେ mGFR ସଠିକତା ଚୟନ କରିବା, ସଠିକତାର ଏକ ଗ୍ରହଣୀୟ ସ୍ତର କ'ଣ, ସଠିକତା କିପରି ମାପ କରାଯିବ, ଏବଂ କ୍ଲିନିକାଲ୍ ନିଷ୍ପତ୍ତି ଗ୍ରହଣ (ଯେପରିକି ବୃକକ୍ ପ୍ରତିରୋପଣ ପାଇଁ ଅବସ୍ଥା ନିର୍ଣ୍ଣୟ କରିବା କିମ୍ବା ଔଷଧ ଲେଖିବା) ଟ୍ରିଗର କରିବା ପାଇଁ eGFR କୁ ଏକ ସୀମା ଭାବରେ ବ୍ୟବହାର କରିବା। ଶେଷରେ, ଇନପୁଟ୍ ମଡେଲର ବିଷୟବସ୍ତୁ ଚୟନ କରିବା ସମୟରେ, ମାନବ ମୂଲ୍ୟ ମଧ୍ୟ ଏହି ସୂତ୍ରରେ ପ୍ରବେଶ କରିବ।
ଉଦାହରଣ ସ୍ୱରୂପ, 2021 ପୂର୍ବରୁ, ନିର୍ଦ୍ଦେଶାବଳୀ ରୋଗୀଙ୍କ ବୟସ, ଲିଙ୍ଗ ଏବଂ ଜାତି (କେବଳ କଳା କିମ୍ବା ଅଣ-କଳା ବ୍ୟକ୍ତି ଭାବରେ ବର୍ଗୀକୃତ) ଉପରେ ଆଧାର କରି eGFR ସୂତ୍ରରେ କ୍ରିଏଟିନିନ୍ ସ୍ତରକୁ ସମାୟୋଜିତ କରିବାକୁ ପରାମର୍ଶ ଦିଏ। ଜାତି ଉପରେ ଆଧାରିତ ସମାୟୋଜନ mGFR ସୂତ୍ରର ସଠିକତାକୁ ଉନ୍ନତ କରିବା ପାଇଁ ଲକ୍ଷ୍ୟ ରଖାଯାଇଛି, କିନ୍ତୁ 2020 ରେ, ପ୍ରମୁଖ ହସ୍ପିଟାଲଗୁଡ଼ିକ ପ୍ରତିରୋପଣ ପାଇଁ ରୋଗୀଙ୍କ ଯୋଗ୍ୟତାକୁ ବିଳମ୍ବ କରିବା ଏବଂ ଜାତିକୁ ଏକ ଜୈବିକ ଧାରଣା ଭାବରେ କଂକ୍ରିଟିଲାଇଜ୍ କରିବା ଭଳି କାରଣ ଦର୍ଶାଇ ଜାତି ଆଧାରିତ eGFR ବ୍ୟବହାର ଉପରେ ପ୍ରଶ୍ନ ଉଠାଇବା ଆରମ୍ଭ କରିଥିଲେ। ଗବେଷଣାରୁ ଜଣାପଡିଛି ଯେ ଜାତି ଦୃଷ୍ଟିରୁ eGFR ମଡେଲ ଡିଜାଇନ୍ କରିବା ସଠିକତା ଏବଂ କ୍ଲିନିକାଲ୍ ଫଳାଫଳ ଉପରେ ଗଭୀର ଏବଂ ଭିନ୍ନ ପ୍ରଭାବ ପକାଇପାରେ; ତେଣୁ, ଚୟନିତ ଭାବରେ ସଠିକତା ଉପରେ ଧ୍ୟାନ ଦେବା କିମ୍ବା ଫଳାଫଳର ଏକ ଅଂଶ ଉପରେ ଧ୍ୟାନ ଦେବା ମୂଲ୍ୟ ବିଚାରକୁ ପ୍ରତିଫଳିତ କରେ ଏବଂ ସ୍ୱଚ୍ଛ ନିଷ୍ପତ୍ତି ଗ୍ରହଣକୁ ଲୁଚାଇପାରେ। ଶେଷରେ, ଜାତୀୟ କାର୍ଯ୍ୟ ଗୋଷ୍ଠୀ ଏକ ନୂତନ ସୂତ୍ର ପ୍ରସ୍ତାବ କରିଥିଲା ଯାହା କାର୍ଯ୍ୟଦକ୍ଷତା ଏବଂ ନ୍ୟାୟ ସମସ୍ୟାକୁ ସନ୍ତୁଳିତ କରିବା ପାଇଁ ଜାତିକୁ ବିଚାର ନକରି ପୁନଃ ଫିଟ୍ କରାଯାଇଥିଲା। ଏହି ଉଦାହରଣ ଦର୍ଶାଏ ଯେ ଏକ ସରଳ କ୍ଲିନିକାଲ୍ ସୂତ୍ରର ମଧ୍ୟ ମାନବିକ ମୂଲ୍ୟବୋଧରେ ଅନେକ ପ୍ରବେଶ ବିନ୍ଦୁ ଅଛି।
କେବଳ ଅଳ୍ପ ସଂଖ୍ୟକ ଭବିଷ୍ୟବାଣୀ ସୂଚକ ସହିତ କ୍ଲିନିକାଲ୍ ଫର୍ମୁଲା ତୁଳନାରେ, LLM କୋଟି କୋଟି ରୁ ଶହ ଶହ କୋଟି ପାରାମିଟର (ମଡେଲ୍ ଓଜନ) କିମ୍ବା ଅଧିକ ହୋଇପାରେ, ଯାହା ଏହାକୁ ବୁଝିବା କଷ୍ଟକର କରିଥାଏ। ଆମେ "ବୁଝିବାକୁ କଷ୍ଟକର" କହିବାର କାରଣ ହେଉଛି ଯେ ଅଧିକାଂଶ LLM ରେ, ପ୍ରଶ୍ନ ମାଧ୍ୟମରେ ପ୍ରତିକ୍ରିୟା ପାଇବାର ସଠିକ୍ ଉପାୟ ମ୍ୟାପ୍ କରାଯାଇପାରିବ ନାହିଁ। GPT-4 ପାଇଁ ପାରାମିଟର ସଂଖ୍ୟା ଏପର୍ଯ୍ୟନ୍ତ ଘୋଷଣା କରାଯାଇ ନାହିଁ; ଏହାର ପୂର୍ବବର୍ତ୍ତୀ GPT-3 ରେ 175 ବିଲିୟନ ପାରାମିଟର ଥିଲା। ଅଧିକ ପାରାମିଟର ଆବଶ୍ୟକ ଭାବରେ ଶକ୍ତିଶାଳୀ କ୍ଷମତା ବୁଝାଏ ନାହିଁ, କାରଣ ଛୋଟ ମଡେଲ ଯେଉଁଥିରେ ଅଧିକ କମ୍ପ୍ୟୁଟେସନାଲ୍ ଚକ୍ର ଅନ୍ତର୍ଭୁକ୍ତ (ଯେପରିକି LLaMA [ବଡ଼ ଭାଷା ମଡେଲ୍ ମେଟା AI] ମଡେଲ୍ ସିରିଜ୍) କିମ୍ବା ମାନବ ମତାମତ ଉପରେ ଆଧାରିତ ସୂକ୍ଷ୍ମ ଭାବରେ ଟ୍ୟୁନ୍ ହୋଇଥିବା ମଡେଲଗୁଡ଼ିକ ବଡ଼ ମଡେଲ ଅପେକ୍ଷା ଭଲ ପ୍ରଦର୍ଶନ କରିବ। ଉଦାହରଣ ସ୍ୱରୂପ, ମାନବ ମୂଲ୍ୟାୟନକାରୀଙ୍କ ଅନୁସାରେ, InstrumentGPT ମଡେଲ୍ (1.3 ବିଲିୟନ ପାରାମିଟର ସହିତ ଏକ ମଡେଲ୍) ମଡେଲ୍ ଆଉଟପୁଟ୍ ଫଳାଫଳକୁ ଅପ୍ଟିମାଇଜ୍ କରିବାରେ GPT-3 କୁ ପଛରେ ପକାଇଥାଏ।
GPT-4 ର ନିର୍ଦ୍ଦିଷ୍ଟ ତାଲିମ ବିବରଣୀ ଏପର୍ଯ୍ୟନ୍ତ ପ୍ରକାଶ କରାଯାଇ ନାହିଁ, କିନ୍ତୁ GPT-3, InstrumentGPT, ଏବଂ ଅନ୍ୟାନ୍ୟ ଅନେକ ମୁକ୍ତ-ଉତ୍ସ LLM ସମେତ ପୂର୍ବ ପିଢ଼ିର ମଡେଲଗୁଡ଼ିକର ବିବରଣୀ ପ୍ରକାଶ କରାଯାଇଛି। ଆଜିକାଲି, ଅନେକ AI ମଡେଲ ମଡେଲ କାର୍ଡ ସହିତ ଆସିଥାଏ; GPT-4 ର ମୂଲ୍ୟାଙ୍କନ ଏବଂ ସୁରକ୍ଷା ତଥ୍ୟ ମଡେଲ ସୃଷ୍ଟି କମ୍ପାନୀ OpenAI ଦ୍ୱାରା ପ୍ରଦାନ କରାଯାଇଥିବା ସମାନ ସିଷ୍ଟମ କାର୍ଡରେ ପ୍ରକାଶିତ ହୋଇଛି। LLM ର ସୃଷ୍ଟିକୁ ପ୍ରାୟ ଦୁଇଟି ପର୍ଯ୍ୟାୟରେ ବିଭକ୍ତ କରାଯାଇପାରେ: ପ୍ରାରମ୍ଭିକ ପ୍ରାକ ତାଲିମ ପର୍ଯ୍ୟାୟ ଏବଂ ମଡେଲ ଆଉଟପୁଟ୍ ଫଳାଫଳକୁ ଅପ୍ଟିମାଇଜ୍ କରିବା ପାଇଁ ଲକ୍ଷ୍ୟ ରଖାଯାଇଥିବା ଫାଇନ୍-ଟ୍ୟୁନିଂ ପର୍ଯ୍ୟାୟ। ପ୍ରାକ ତାଲିମ ପର୍ଯ୍ୟାୟରେ, ମଡେଲକୁ ପରବର୍ତ୍ତୀ ଶବ୍ଦର ପୂର୍ବାନୁମାନ କରିବା ପାଇଁ ତାଲିମ ଦେବା ପାଇଁ ମୂଳ ଇଣ୍ଟରନେଟ୍ ପାଠ୍ୟ ସହିତ ଏକ ବଡ଼ କର୍ପସ ପ୍ରଦାନ କରାଯାଏ। ଏହି ପ୍ରତୀତ ସରଳ "ସ୍ୱୟଂଚାଳିତ ସମାପ୍ତି" ପ୍ରକ୍ରିୟା ଏକ ଶକ୍ତିଶାଳୀ ଭିତ୍ତିଭୂମି ମଡେଲ ଉତ୍ପାଦନ କରେ, କିନ୍ତୁ ଏହା କ୍ଷତିକାରକ ଆଚରଣ ମଧ୍ୟ ନେଇପାରେ। ମାନବିକ ମୂଲ୍ୟବୋଧ ପୂର୍ବ ତାଲିମ ପର୍ଯ୍ୟାୟରେ ପ୍ରବେଶ କରିବ, ଯେଉଁଥିରେ GPT-4 ପାଇଁ ପ୍ରାକ ତାଲିମ ତଥ୍ୟ ଚୟନ କରିବା ଏବଂ ପ୍ରାକ ତାଲିମ ତଥ୍ୟରୁ ଅଶ୍ଳୀଳ ବିଷୟବସ୍ତୁ ଭଳି ଅନୁପଯୁକ୍ତ ବିଷୟବସ୍ତୁକୁ ଅପସାରଣ କରିବା ନିଷ୍ପତ୍ତି ନିଆଯିବ। ଏହି ପ୍ରୟାସ ସତ୍ତ୍ୱେ, ମଡେଲ ଏପର୍ଯ୍ୟନ୍ତ ଉପଯୋଗୀ କିମ୍ବା କ୍ଷତିକାରକ ଆଉଟପୁଟ୍ ଫଳାଫଳ ଧାରଣ କରିବାରେ ସକ୍ଷମ ହୋଇପାରେ ନାହିଁ। ପରବର୍ତ୍ତୀ ପର୍ଯ୍ୟାୟରେ ସୂକ୍ଷ୍ମ-ସଜ୍ଜା, ଅନେକ ଉପଯୋଗୀ ଏବଂ କ୍ଷତିକାରକ ଆଚରଣ ଦେଖାଦେବ।
ଫାଇନ୍-ଟ୍ୟୁନିଂ ପର୍ଯ୍ୟାୟରେ, ମାନବ ମତାମତ ଉପରେ ଆଧାରିତ ତଦାରଖିତ ଫାଇନ୍-ଟ୍ୟୁନିଂ ଏବଂ ଶକ୍ତିସଂପନ୍ନ ଶିକ୍ଷା ମାଧ୍ୟମରେ ଭାଷା ମଡେଲଗୁଡ଼ିକର ଆଚରଣ ପ୍ରାୟତଃ ଗଭୀର ଭାବରେ ପରିବର୍ତ୍ତନ କରାଯାଏ। ତଦାରଖିତ ଫାଇନ୍-ଟ୍ୟୁନିଂ ପର୍ଯ୍ୟାୟରେ, ନିଯୁକ୍ତ ଠିକାଦାର କର୍ମଚାରୀମାନେ ତୁରନ୍ତ ଶବ୍ଦ ପାଇଁ ପ୍ରତିକ୍ରିୟା ଉଦାହରଣ ଲେଖିବେ ଏବଂ ମଡେଲକୁ ସିଧାସଳଖ ତାଲିମ ଦେବେ। ମାନବ ମତାମତ ଉପରେ ଆଧାରିତ ଶକ୍ତିସଂପନ୍ନ ଶିକ୍ଷା ପର୍ଯ୍ୟାୟରେ, ମାନବ ମୂଲ୍ୟାଙ୍କନକାରୀମାନେ ମଡେଲ ଆଉଟପୁଟ୍ ଫଳାଫଳକୁ ଇନପୁଟ୍ ବିଷୟବସ୍ତୁ ଉଦାହରଣ ଭାବରେ ସଜାଡିବେ। ତା'ପରେ "ପୁରସ୍କାର ମଡେଲ" ଶିଖିବା ପାଇଁ ଉପରୋକ୍ତ ତୁଳନାତ୍ମକ ଫଳାଫଳଗୁଡ଼ିକୁ ପ୍ରୟୋଗ କରନ୍ତୁ ଏବଂ ଶକ୍ତିସଂପନ୍ନ ଶିକ୍ଷା ମାଧ୍ୟମରେ ମଡେଲକୁ ଆହୁରି ଉନ୍ନତ କରନ୍ତୁ। ଆଶ୍ଚର୍ଯ୍ୟଜନକ ନିମ୍ନ-ସ୍ତରୀୟ ମାନବ ସମ୍ପୃକ୍ତି ଏହି ବଡ଼ ମଡେଲଗୁଡ଼ିକୁ ଫାଇନ୍ ଟ୍ୟୁନ୍ କରିପାରିବ। ଉଦାହରଣ ସ୍ୱରୂପ, InstrumentGPT ମଡେଲ କ୍ରାଉଡସୋର୍ସିଂ ୱେବସାଇଟ୍ ରୁ ନିଯୁକ୍ତ ପ୍ରାୟ 40 ଜଣ ଠିକାଦାର କର୍ମଚାରୀଙ୍କ ଏକ ଦଳ ବ୍ୟବହାର କରିଥିଲା ଏବଂ ବିଭିନ୍ନ ଜନସଂଖ୍ୟା ଗୋଷ୍ଠୀର ପସନ୍ଦ ପ୍ରତି ସମ୍ବେଦନଶୀଳ ବ୍ୟାଖ୍ୟାକାରୀଙ୍କ ଏକ ଗୋଷ୍ଠୀକୁ ଚୟନ କରିବା ପାଇଁ ଏକ ସ୍କ୍ରିନିଂ ପରୀକ୍ଷା ପାସ୍ କରିଥିଲା।
ଏହି ଦୁଇଟି ଚରମ ଉଦାହରଣ, ଯଥା ସରଳ କ୍ଲିନିକାଲ୍ ଫର୍ମୁଲା [eGFR] ଏବଂ ଶକ୍ତିଶାଳୀ LLM [GPT-4], ଦର୍ଶାଉଛି ଯେ, ମାନବ ନିଷ୍ପତ୍ତି ଗ୍ରହଣ ଏବଂ ମାନବ ମୂଲ୍ୟବୋଧ ମଡେଲ୍ ଆଉଟପୁଟ୍ ଫଳାଫଳ ଗଠନରେ ଏକ ଅପରିହାର୍ଯ୍ୟ ଭୂମିକା ଗ୍ରହଣ କରେ। ଏହି AI ମଡେଲ୍ ଗୁଡିକ ସେମାନଙ୍କର ବିବିଧ ରୋଗୀ ଏବଂ ଡାକ୍ତର ମୂଲ୍ୟବୋଧକୁ କବଜା କରିପାରିବେ କି? ଔଷଧରେ AI ର ପ୍ରୟୋଗକୁ ସାର୍ବଜନୀନ ଭାବରେ କିପରି ମାର୍ଗଦର୍ଶନ କରିବେ? ନିମ୍ନରେ ଉଲ୍ଲେଖ କରାଯାଇଥିବା ପରି, ଡାକ୍ତରୀ ନିଷ୍ପତ୍ତି ବିଶ୍ଳେଷଣର ପୁନଃପରୀକ୍ଷଣ ଏହି ସମସ୍ୟାଗୁଡ଼ିକର ଏକ ନୀତିଗତ ସମାଧାନ ପ୍ରଦାନ କରିପାରେ।
ଡାକ୍ତରୀ ନିଷ୍ପତ୍ତି ବିଶ୍ଳେଷଣ ଅନେକ ଡାକ୍ତରଙ୍କ ପାଇଁ ପରିଚିତ ନୁହେଁ, କିନ୍ତୁ ଏହା ସମ୍ଭାବ୍ୟ ଯୁକ୍ତି (ନିର୍ଣ୍ଣୟ ଗ୍ରହଣ ସହିତ ଜଡିତ ଅନିଶ୍ଚିତ ଫଳାଫଳ ପାଇଁ, ଯେପରିକି ଚିତ୍ର 1 ରେ ଦେଖାଯାଇଥିବା ବିବାଦୀୟ କ୍ଲିନିକାଲ୍ ପରିସ୍ଥିତିରେ ମାନବ ବୃଦ୍ଧି ହରମୋନ୍ ପ୍ରଶାସିତ କରିବା କି ନାହିଁ) ଏବଂ ବିଚାର କାରକ (ଏହି ଫଳାଫଳ ସହିତ ସଂଲଗ୍ନ ବ୍ୟକ୍ତିଗତ ମୂଲ୍ୟ ପାଇଁ, ଯାହାର ମୂଲ୍ୟ "ଉପଯୋଗୀତା" ଭାବରେ ପରିମାପିତ, ଯେପରିକି ପୁରୁଷ ଉଚ୍ଚତାରେ 2 ସେମି ବୃଦ୍ଧିର ମୂଲ୍ୟ) ମଧ୍ୟରେ ପାର୍ଥକ୍ୟ କରିପାରିବ। ନିଷ୍ପତ୍ତି ବିଶ୍ଳେଷଣରେ, ଡାକ୍ତରମାନଙ୍କୁ ପ୍ରଥମେ ପ୍ରତ୍ୟେକ ଫଳାଫଳ ସହିତ ଜଡିତ ସମସ୍ତ ସମ୍ଭାବ୍ୟ ନିଷ୍ପତ୍ତି ଏବଂ ସମ୍ଭାବନା ନିର୍ଣ୍ଣୟ କରିବାକୁ ପଡିବ, ଏବଂ ତା'ପରେ ସବୁଠାରୁ ଉପଯୁକ୍ତ ବିକଳ୍ପ ଚୟନ କରିବା ପାଇଁ ପ୍ରତ୍ୟେକ ଫଳାଫଳ ସହିତ ଜଡିତ ରୋଗୀ (କିମ୍ବା ଅନ୍ୟ ପକ୍ଷ) ଉପଯୋଗିତାକୁ ଅନ୍ତର୍ଭୁକ୍ତ କରିବାକୁ ପଡିବ। ତେଣୁ, ନିଷ୍ପତ୍ତି ବିଶ୍ଳେଷଣର ବୈଧତା ଫଳାଫଳ ସେଟିଂ ବ୍ୟାପକ କି ନାହିଁ, ଏବଂ ଉପଯୋଗିତାର ମାପ ଏବଂ ସମ୍ଭାବନାର ଆକଳନ ସଠିକ୍ କି ନାହିଁ ତାହା ଉପରେ ନିର୍ଭର କରେ। ଆଦର୍ଶ ଭାବରେ, ଏହି ପଦ୍ଧତି ନିଶ୍ଚିତ କରିବାରେ ସାହାଯ୍ୟ କରେ ଯେ ନିଷ୍ପତ୍ତିଗୁଡ଼ିକ ପ୍ରମାଣ-ଆଧାରିତ ଏବଂ ରୋଗୀ ପସନ୍ଦ ସହିତ ସମନ୍ୱିତ, ଯାହା ଦ୍ୱାରା ବସ୍ତୁନିଷ୍ଠ ତଥ୍ୟ ଏବଂ ବ୍ୟକ୍ତିଗତ ମୂଲ୍ୟ ମଧ୍ୟରେ ବ୍ୟବଧାନକୁ ସଙ୍କୁଚିତ କରେ। ଏହି ପଦ୍ଧତି ଅନେକ ଦଶନ୍ଧି ପୂର୍ବରୁ ଡାକ୍ତରୀ କ୍ଷେତ୍ରରେ ପ୍ରଚଳନ କରାଯାଇଥିଲା ଏବଂ ବ୍ୟକ୍ତିଗତ ରୋଗୀ ନିଷ୍ପତ୍ତି ଗ୍ରହଣ ଏବଂ ଜନସଂଖ୍ୟା ସ୍ୱାସ୍ଥ୍ୟ ମୂଲ୍ୟାଙ୍କନରେ ପ୍ରୟୋଗ କରାଯାଇଥିଲା, ଯେପରିକି ସାଧାରଣ ଜନସଂଖ୍ୟାକୁ କୋଲୋରେକ୍ଟଲ୍ କର୍କଟ ସ୍କ୍ରିନିଂ ପାଇଁ ସୁପାରିଶ ପ୍ରଦାନ କରିବା।
ଚିକିତ୍ସା ନିଷ୍ପତ୍ତି ବିଶ୍ଳେଷଣରେ, ଉପଯୋଗିତା ପାଇବା ପାଇଁ ବିଭିନ୍ନ ପଦ୍ଧତି ବିକଶିତ ହୋଇଛି। ଅଧିକାଂଶ ପାରମ୍ପରିକ ପଦ୍ଧତିଗୁଡ଼ିକ ସିଧାସଳଖ ବ୍ୟକ୍ତିଗତ ରୋଗୀଙ୍କଠାରୁ ମୂଲ୍ୟ ଆହରଣ କରନ୍ତି। ସବୁଠାରୁ ସରଳ ପଦ୍ଧତି ହେଉଛି ଏକ ମୂଲ୍ୟାଙ୍କନ ସ୍କେଲ ବ୍ୟବହାର କରିବା, ଯେଉଁଠାରେ ରୋଗୀମାନେ ଏକ ଡିଜିଟାଲ୍ ସ୍କେଲରେ (ଯେପରିକି 1 ରୁ 10 ପର୍ଯ୍ୟନ୍ତ ଏକ ରେଖୀୟ ସ୍କେଲ୍) ଏକ ନିର୍ଦ୍ଦିଷ୍ଟ ଫଳାଫଳ ପାଇଁ ସେମାନଙ୍କର ପସନ୍ଦର ସ୍ତର ମୂଲ୍ୟାଙ୍କନ କରନ୍ତି, ଯେଉଁଥିରେ ଉଭୟ ପାର୍ଶ୍ୱରେ ସବୁଠାରୁ ଚରମ ସ୍ୱାସ୍ଥ୍ୟ ଫଳାଫଳ (ଯେପରିକି ସମ୍ପୂର୍ଣ୍ଣ ସ୍ୱାସ୍ଥ୍ୟ ଏବଂ ମୃତ୍ୟୁ) ଅବସ୍ଥିତ। ସମୟ ବିନିମୟ ପଦ୍ଧତି ହେଉଛି ଅନ୍ୟ ଏକ ସାଧାରଣ ଭାବରେ ବ୍ୟବହୃତ ପଦ୍ଧତି। ଏହି ପଦ୍ଧତିରେ, ରୋଗୀମାନଙ୍କୁ ଏକ ନିଷ୍ପତ୍ତି ନେବାକୁ ପଡିବ ଯେ ସେମାନେ ଖରାପ ସ୍ୱାସ୍ଥ୍ୟର ଅବଧି ପାଇଁ କେତେ ସୁସ୍ଥ ସମୟ ବିତାଇବାକୁ ଇଚ୍ଛୁକ। ମାନକ ଜୁଆ ପଦ୍ଧତି ହେଉଛି ଉପଯୋଗିତା ନିର୍ଣ୍ଣୟ କରିବା ପାଇଁ ଅନ୍ୟ ଏକ ସାଧାରଣ ଭାବରେ ବ୍ୟବହୃତ ପଦ୍ଧତି। ଏହି ପଦ୍ଧତିରେ, ରୋଗୀମାନଙ୍କୁ ପଚରାଯାଏ ଯେ ସେମାନେ ଦୁଇଟି ବିକଳ୍ପ ମଧ୍ୟରୁ କେଉଁଟିକୁ ପସନ୍ଦ କରନ୍ତି: ହୁଏତ ଏକ ନିର୍ଦ୍ଦିଷ୍ଟ ସମ୍ଭାବନା (p) (t) ସହିତ ସାଧାରଣ ସ୍ୱାସ୍ଥ୍ୟରେ ଏକ ନିର୍ଦ୍ଦିଷ୍ଟ ସଂଖ୍ୟକ ବର୍ଷ ବଞ୍ଚନ୍ତୁ, ଏବଂ 1-p ସମ୍ଭାବନା ସହିତ ମୃତ୍ୟୁର ବିପଦ ବହନ କରନ୍ତୁ; କିମ୍ବା କ୍ରସ୍ ସ୍ୱାସ୍ଥ୍ୟ ପରିସ୍ଥିତିରେ t ବର୍ଷ ବଞ୍ଚିବାକୁ ନିଶ୍ଚିତ କରନ୍ତୁ। ରୋଗୀମାନଙ୍କୁ ବିଭିନ୍ନ p-ମୂଲ୍ୟରେ ଅନେକ ଥର ପଚାରନ୍ତୁ ଯେପର୍ଯ୍ୟନ୍ତ ସେମାନେ କୌଣସି ବିକଳ୍ପ ପାଇଁ କୌଣସି ପସନ୍ଦ ଦେଖାନ୍ତି ନାହିଁ, ଯାହା ଫଳରେ ରୋଗୀଙ୍କ ପ୍ରତିକ୍ରିୟା ଉପରେ ଆଧାରିତ ଉପଯୋଗିତା ଗଣନା କରାଯାଇପାରିବ।
ବ୍ୟକ୍ତିଗତ ରୋଗୀ ପସନ୍ଦକୁ ହାସଲ କରିବା ପାଇଁ ବ୍ୟବହୃତ ପଦ୍ଧତିଗୁଡ଼ିକ ବ୍ୟତୀତ, ରୋଗୀ ଜନସଂଖ୍ୟା ପାଇଁ ଉପଯୋଗୀତା ହାସଲ କରିବା ପାଇଁ ପଦ୍ଧତିଗୁଡ଼ିକ ମଧ୍ୟ ବିକଶିତ ହୋଇଛି। ବିଶେଷକରି ଫୋକସ୍ ଗୋଷ୍ଠୀ ଆଲୋଚନା (ନିର୍ଦ୍ଦିଷ୍ଟ ଅଭିଜ୍ଞତା ଆଲୋଚନା ପାଇଁ ରୋଗୀମାନଙ୍କୁ ଏକାଠି କରିବା) ସେମାନଙ୍କର ଦୃଷ୍ଟିକୋଣକୁ ବୁଝିବାରେ ସାହାଯ୍ୟ କରିପାରିବ। ଗୋଷ୍ଠୀ ଉପଯୋଗିତାକୁ ପ୍ରଭାବଶାଳୀ ଭାବରେ ସଂଗୃହିତ କରିବା ପାଇଁ, ବିଭିନ୍ନ ସଂରଚିତ ଗୋଷ୍ଠୀ ଆଲୋଚନା କୌଶଳ ପ୍ରସ୍ତାବିତ କରାଯାଇଛି।
ଅଭ୍ୟାସଗତ ଭାବରେ, କ୍ଲିନିକାଲ୍ ରୋଗ ନିର୍ଣ୍ଣୟ ଏବଂ ଚିକିତ୍ସା ପ୍ରକ୍ରିୟାରେ ଉପଯୋଗିତାର ସିଧାସଳଖ ପରିଚୟ ବହୁତ ସମୟସାପେକ୍ଷ। ସମାଧାନ ସ୍ୱରୂପ, ଜନସଂଖ୍ୟା ସ୍ତରରେ ଉପଯୋଗିତା ସ୍କୋର ପାଇବା ପାଇଁ ସର୍ଭେ ପ୍ରଶ୍ନାବଳୀ ସାଧାରଣତଃ ଅନିୟମିତ ଭାବରେ ଚୟନିତ ଜନସଂଖ୍ୟାକୁ ବଣ୍ଟନ କରାଯାଏ। କିଛି ଉଦାହରଣ ମଧ୍ୟରେ EuroQol 5-ଡାଇମେନ୍ସନ୍ ପ୍ରଶ୍ନାବଳୀ, 6-ଡାଇମେନ୍ସନ୍ ଉପଯୋଗିତା ଓଜନ ସଂକ୍ଷିପ୍ତ ରୂପ, ସ୍ୱାସ୍ଥ୍ୟ ଉପଯୋଗିତା ସୂଚକାଙ୍କ ଏବଂ କର୍କଟ ନିର୍ଦ୍ଦିଷ୍ଟ ୟୁରୋପୀୟ କର୍କଟ ଗବେଷଣା ଏବଂ ଚିକିତ୍ସା ସଂଗଠନ ଜୀବନର ଗୁଣବତ୍ତା ପ୍ରଶ୍ନାବଳୀ କୋର୍ 30 ଉପକରଣ ଅନ୍ତର୍ଭୁକ୍ତ।
ପୋଷ୍ଟ ସମୟ: ଜୁନ୍-୦୧-୨୦୨୪




