Master's Thesis

Generating Code Change Patterns from C

Final Thesis 886.82 kB

Author of thesis: Ing. Tomáš Kučma

Acad. year: 2023/2024

Supervisor: Ing. Viktor Malík, Ph.D.

Reviewer: Ing. Jiří Pavela

Abstract:

Ensuring the semantic stability of software projects is often a costly task. DiffKemp is a tool that automatizes this process, with a special emphasis placed on performance and usability in large-scale projects. A trade-off for its efficiency is a greater degree of inaccuracy compared to formal tools. To minimize this issue, DiffKemp allows users to define their own semantics-preserving patterns, describing what kind of changes are to be treated as equal. Currently, this support is restricted to patterns written in LLVM internal representation, which is not a user-friendly language. The purpose of this work is to extend this capability to patterns written in C, significantly simplifying the process of their creation. This includes a proposal of a representation of the patterns, which must be able to encode all necessary meta-information, and subsequent design, implementation, and testing of a DiffKemp extension that allows utilization of patterns encoded in C.

Keywords:

code change patterns, DiffKemp, semantic analysis, refactorization

Date of defence

20.06.2024

Result of the defence

Defended (thesis was successfully defended)

znamkaAznamka

Grading

A

Process of defence

Student nejprve prezentoval výsledky, kterých dosáhl v rámci své práce. Komise se poté seznámila s hodnocením vedoucího a posudkem oponenta práce. Student následně odpověděl na otázky oponenta a na další otázky přítomných. Komise se na základě posudku oponenta, hodnocení vedoucího, přednesené prezentace a odpovědí studenta na položené otázky rozhodla práci hodnotit stupněm A.

Topics for thesis defence

  1. V rámci práce jste implementoval nový způsob specifikace vzorů přímo v jazyce C oproti stávajícímu řešení v LLVM IR. Mohl byste upřesnit, zda je vyjadřovací síla vzorů v jazyce C stejná jako v LLVM IR? Je možné pomocí vzorů v jazyce C specifikovat vše, co lze specifikovat i ve vzorech v LLVM IR? Pokud ne, je možné alespoň některé z těchto nedostatků odstranit rozšířením implementace, nebo se jedná o principiální problém plynoucí z různé úrovně abstrakce mezi jazyky C a LLVM IR?
  2. Co přesně reprezentují Vaše šablony? Jsou to makra?
  3. Je možné Vaše řešení zobecnit a případně aplikovat i na jiné jazyky?

Language of thesis

English

Faculty

Department

Study programme

Information Technology and Artificial Intelligence (MITAI)

Specialization

Mathematical Methods (NMAT)

Composition of Committee

prof. Ing. Tomáš Vojnar, Ph.D. (předseda)
Ing. Martin Hrubý, Ph.D. (člen)
Ing. Aleš Smrčka, Ph.D. (člen)
Dr. Ing. Petr Peringer (člen)
Ing. Radek Hranický, Ph.D. (člen)
doc. Ing. Ondřej Lengál, Ph.D. (člen)

Supervisor’s report
Ing. Viktor Malík, Ph.D.

Overall, the thesis presents a well-handled solution to a practical and non-trivial problem. The student has demonstrated good engineering capabilities - the ability to get acquainted with a complex tool and to independently develop a significant and novel extension of the tool. My only reserve is for the fact that I haven't been able to consult the final version of the text. Despite that, I am very satisfied with the result and recommend the grade B. Moreover, in case of an excellent defense, I will gladly support improving the grade to A.

Evaluation criteria Verbal classification
Informace k zadání

The thesis extends DiffKemp, a tool for static analysis of semantic equivalence between versions of large C projects. The project has been developed in the VeriFIT research group, in cooperation with Red Hat. Tomáš has been working with us for several years, mainly during project practice, where he developed multiple extensions of DiffKemp.

The goal of this thesis was to simplify creation of so-called custom change patterns, an extension of DiffKemp that has been published at the NETYS conference. The complexity of the assignment is slightly above average as it required the student to study a complex tool using advanced static analysis techniques, both from the implementation and from the theoretical side. The assignment was fulfilled.

Aktivita při dokončování

The work was finished under a bit of a time press. I received the full text only few days before the submission deadline and therefore I had no chance to fully review it and recommend adjustments. Despite that, I believe that the text has a good quality.

Publikační činnost, ocenění

The implementation part of the thesis has been posted as a pull request for the official DiffKemp repository and is currently undergoing review. I'm sure that the extension will be accepted in near time and that it will significantly simplify writing new custom patterns in DiffKemp which will streamline adoption of the tool in practice.

Práce s literaturou

The student has used the recommended sources as well as he found more sources on his own. I have no objections against the work with literature.

Aktivita během řešení, konzultace, komunikace

The student and I met several times throughout the academic year and every time, he presented a significant advance in his work. He was always well prepared for the meetings.

Points proposed by supervisor: 87

Grade proposed by supervisor: B

Reviewer’s report
Ing. Jiří Pavela

Student řešil spíše obtížnější zadání práce, u které bylo zapotřebí nastudovat a pochopit problematiku sémantického porovnávání změn ve zdrojovém kódu napříč verzemi. Realizační výstup práce je kvalitně zpracovaný a je očekáváno jeho začlenění do hlavní vývojové větve nástroje DiffKemp.


 


Technická zpráva je čtivá, jednotlivé kapitoly a sekce vhodně navazují a čtenář se v práci neztrácí. Co do jazykové a formální úpravy se jedná o nadprůměrně kvalitní zprávu.


 


Drobné výhrady mám k rozsahu kapitol 2.2 a 2.3, a ke spíše povrchnějšímu vyhodnocení úspěšnosti šablon co do jejich vlivu na úspěšnost analýzy. S přihlédnutím ke všem ostatním okolnostem však navrhuji hodnocení stupněm B.

Evaluation criteria Verbal classification Points
Rozsah splnění požadavků zadání

Evaluation level: zadání splněno s drobnými výhradami

První čtyři body zadání byly splněny úplně. U posledního bodu zadání mi však v práci chyběla demonstrace toho, zda a nakolik se podařilo odstranit falešné nebo nepřesné výsledky analýzy pomocí nových vzorů v jazyce C. Na druhou stranu student své řešení demonstroval na mnohonásobně více šablonách, než zadání požadovalo, a proto se jedná spíše o drobný nedostatek.

Rozsah technické zprávy

Evaluation level: splňuje pouze minimální požadavky

Technická zpráva je spíše kratší: minimální požadavky splňuje, avšak obvyklého rozsahu nedosahuje. Většina kapitol však obsahuje potřebné informace pro pochopení práce. Drobnou výhradu bych měl ke kapitole 2.2, která by z mého pohledu měla být rozšířena alespoň o základní představení syntaxe a klíčových instrukcí LLVM IR, které jsou v práci dále používány.

Prezentační úroveň technické zprávy

Logická struktura a návaznost jednotlivých kapitol byla velmi dobrá. V textu se snadno orientuje a čtenář se při čtení neztrácí. Z hlediska rozsahu bych uvítal trochu propracovanější a detailnější kapitoly 2.2 a 2.3.

85
Formální úprava technické zprávy

Typograficky se jedná o nadprůměrnou práci, kde se vyskytují spíše jen drobné chyby (např. ukázky kódu uváděny jako obrázky). Práce je psána v angličtině a jazykově je práce na velmi vysoké úrovni – jen s minimem gramatických nebo stylistických chyb.

89
Práce s literaturou

Práce obsahuje téměř třicet různých zdrojů, mezi nimiž je mnoho odborných publikovaných článků nebo knih. Dále jsou často citovány dokumentace k jednotlivých nástrojům a knihovnám. Při čtení práce jsem nezaznamenal žádné porušení citační etiky.

90
Realizační výstup

Přestože co do rozsahu je realizační výstup spíše kratší, jedná se o netriviální problematiku, u které bylo zapotřebí vyřešit množství implementačních problémů a překážek, aby šablony vytvořené v jazyce C korektně fungovaly. Jako drobný nedostatek vnímám spíše povrchnější ověření funkčnosti a úspěšnosti jednotlivých vzorů, nebo alespoň jejich popis v technické zprávě.

85
Využitelnost výsledků

Aktuálně probíhá začlenění výsledného rozšíření do hlavní vývojové větve nástroje DiffKemp. Výsledek se zdá být využitelný v praxi, což student demonstroval v rámci kapitoly s vyhodnocením nových šablon v jazyce C.

Náročnost zadání

Evaluation level: obtížnější zadání

Z mého pohledu se jedná o mírně obtížnější zadání, které vyžadovalo nastudování a pochopení komplexní problematiky sémantického porovnávání změn v kódu napříč jeho verzemi, infrastruktury LLVM a nástroje DiffKemp. Z hlediska implementace pak bylo zapotřebí ošetřit často netriviální problémy, které měly potenciál zásadně omezit použitelnost řešení.

Topics for thesis defence:
  1. V rámci práce jste implementoval nový způsob specifikace vzorů přímo v jazyce C oproti stávajícímu řešení v LLVM IR. Mohl byste upřesnit, zda je vyjadřovací síla vzorů v jazyce C stejná jako v LLVM IR? Je možné pomocí vzorů v jazyce C specifikovat vše, co lze specifikovat i ve vzorech v LLVM IR? Pokud ne, je možné alespoň některé z těchto nedostatků odstranit rozšířením implementace, nebo se jedná o principiální problém plynoucí z různé úrovně abstrakce mezi jazyky C a LLVM IR?
Points proposed by reviewer: 85

Grade proposed by reviewer: B

Responsibility: Mgr. et Mgr. Hana Odstrčilová