元智大學資訊管理學系
第二十七屆專業實習報告
研究主題:NFT網路輿情分析
以DCARD, PTT為研究目標
公司代號:ZF2
實習單位:元智大學資訊管理系
輔導老師:陳志成
姓 名:周龍昇
學 號:1082343
PYTHON
我們的研究主題是與資料分析有關,所以我們決定使用python來做為爬取的工具。
下圖是ptt的程式碼+爬取方式:
使用 requests 與bs4模組產生 HTTP 請求,下載網頁資料
文字探勘
Section Subtitle
NODEXL
Section Subtitle
工作環境介紹
原本是固定每周三下午在1501B開會,與教授討論進度和下一步的方向,但就在疫情爆發後改成在Microsoft teams線上討論。
工作詳述
首先,在完成分組後,每個組員提共2~3個想法,其中不乏有沉悶的有環境的有趨勢的,最後經過3個禮拜左右與教授的討問,我們共同決定NFT這個主題。
NFT算是在這半年裡,最為火熱的關鍵字,但也有不少人把NFT跟詐騙畫上等號,因此我們決定要探索台灣人普遍對NFT的看法。
我們的研究方法為,爬取台灣最具代表性的兩個論壇(DCARD、PTT)對於NFT看法的留言,我們將DCARD設定為較年輕的族群,因為在DCARD上大多為大學生,PTT我們設定為較年長的使用族群,因為PTT有多年不能註冊帳號,所以使用者多為社會人士,我們會將網路上的留言爬取作整理,並利用獲取道的資料作研究分析。
研究分析
第1步
我們用Python程式語言將Dcard與PTT的文章 資料爬取下來並以人工的方式檢視每一則標題, 內文,留言,將每則標題,內文,留言分別設 定為以下數字: ➢ 1:代表正向內容 ➢ 0:代表中立內容 ➢ -1:代表負向內容 ➢ 2:代表無法判斷內容 接下來可以統計及觀察到大眾隨著時間對於 NFT的正負面看法與態度轉變
STEP2
我們將Dcard和PTT的標題,內文,留言進 行斷詞,在每則資料中找出關鍵詞。
第3步
利用WordArt和TextAnalyzer將所有的字詞進 行統計,進而得知資料中各個詞彙出現的次數。 再以WordArt和Word Cloud Generator 產生出文 字雲,就能更加清楚地看到大家在討論NFT時比 較關注哪些主題,該字詞就會更明顯地出現在文 字雲當中。
第4步
我們將每則標題,內文,留言中找出關鍵詞之 間的關係,將整合完畢的字詞放入NodeXL。我們在 NodeXL中設定節點的內容(Label)是關鍵詞的名稱; 大小(Size)是指關鍵詞出現的次數;顏色(Color)分 為3種顏色:
➢ 藍色: 代表中立內容
➢ 綠色: 代表正向內容
➢ 紅色: 代表負向內容
DCARD V.S PTT(標題)
DCARD V.S PTT(內文)
DCARD V.S PTT(留言)
自我評估及心得感想
其實一開始對於專題還滿迷茫的,一方面是上網找的資料都是專題教授要在大二甚至有些人是大一就跟著教授開始做了,一方面若選擇專題考研這條路,而不去校外實習,那如果研究所沒有上,又沒有現在實務經驗,那我的未來真的是堪憂,所以在實習與專題間考慮的時間過於久,導致後來大部分有興趣的教授都是收滿,幸好陳志成教授願意破例多收我進去,真的非常感謝教授。
進到教授的團隊後,最大的收穫就是學習到python的攥寫與統整資料,原本我對於程式就只會上課造著老師做,下課後,再照著上課的程式碼,作套娃的動作,而這次的python算是自己找資料,完成的程式碼,真的有點感動,接下來半年要做的是資料的分析,這部分就算是教授最專門的部分了,相信教授的要求也會比較嚴謹,希望可以達到教授要求的程度。
從一開始甚麼都不懂,不知道資料如何找起,不知道時間該如何分配,到現在了解到一個完整的專題應該如何架構如何完整,數據該怎麼用,等等,教授都給了我們很多的建議,真的很感謝教授這半年的指教。
對系上的建議
在大二下學期左右開始有講座,但是大部分是針對校外實習的部分,若系上有可能的話,或許可以邀請教授,做研究內的介紹與教授研究的方向。
在選課方面,大三過後必修基本上都是偏管一點,程式課幾乎都是選修,就我聽聞到的其他校資管大部分都是CODE大於MIS,若程式方面比不過人,不管在是升學面或是找工作面,可能會比不上他校